论文《Robust Multi-Drone Multi-Target Tracking to Resolve Target Occlusion: A Benchmark》被IEEE Transactions on Multimedia录用

1 引言 多无人机多目标追踪是协同环境感知领域重要的研究方向,其目的是实现多视角信息融合,克服单架无人机在环境感知上的不足,从而在实现跨机目标关联的基础上,实现多目标的协同追踪,提升整体追踪性能。然而现有多视角多目标追踪数据集很少有遮挡标签和视角重叠,导致协同追踪领域发展受限。为此,我们收集了一个富有遮挡属性标签的双机多目标追踪数据集,命名为MDMT。为了解决多无人机多目标追踪任务中跨机目标关联问题,我们从不同视角下目标拓扑图的相似性出发,构建不同视角间透视变换矩阵,进而利用变换矩阵进行目标匹配与遮挡补充,解决单机目标缺失、遮挡、ID变换等问题。大量实验证明了该方法的有效性。 2 研究动机 首先,为了促进协同环境感知领域的发展,克服多机协同环境感知任务中数据集缺失的问题,本工作收集了一个具有遮挡属性标签的双机多目标追踪数据集,命名为MDMT。 其次,在目标遮挡相关问题上,现有多目标追踪算法通过帧间连续性进行目标预测,并没有从根本上解决单视角环境感知受限的问题。在处理目标关联问题时,多采用目标重识别的方式计算目标特征相似性,并使用优化算法进行目标关联。当传统方法用在无人机数据集上时,检测性能降低、目标遮挡严重等问题愈加严重,不同视角下相同实例特征相似性甚至大于实例间特征相似性,导致目标重识别算法匹配效率低下。为了解决遮挡和跨机目标关联的问题,我们从不同视角下目标拓扑图的相似性出发,通过目标映射实现跨机目标关联,进而补充单机中遮挡目标,减少目标缺失、ID变换等问题,从整体上提升目标追踪性能。 3 数据集介绍 为了攻克多无人机多目标追踪任务中目标跨机关联和目标遮挡等关键挑战,我们收集了一个具有遮挡属性标签的双机多目标追踪数据集,名为MDMT。它包含88个视频序列,有39,678帧,包括11,454个不同ID的人、自行车和汽车。 MDMT包括2,204,620个人工标定边界框,其中543,444个边界框具有遮挡属性。 4 方法介绍 我们为多无人机多目标跟踪任务提出了MIA-Net,其中的局部-全局匹配算法发掘不同无人机间目标分布的拓扑关系,有效解决跨机关联问题,并利用多无人机视角映射的方法有效地进行跨机关联和遮挡补充。方法的整体结构如图3所示: 4.1 匹配方法 我们实用全局匹配和局部匹配两种匹配策略获得视角间变换矩阵,第一帧通过手工初始化或者全局匹配的方式得到匹配点,通过匹配点计算旋转矩阵T: 4.2 目标ID分配策略 通过得到的变换矩阵,我们对新目标、非重合区域目标、未匹配目标进行分类处理,详细设计各个类别目标ID分配策略,实现双机共同目标ID对应,实现协同追踪: 5 实验结果 5.1 评测标准 首先我们采用MOTA和iDF1作为追踪性能评测标准。 其次,为了评测算法跨视角目标关联性能,我们设计了一个多设备目标关联得分(MDA, Multi-Device Association score),统计追踪过程中共同目标跨机匹配情况。 5.2 评测结果 在MDMT数据集上的大量实验验证了我们提出的MIA-Net在目标关联和有遮挡多目标跟踪任务上的有效性。相较于单机追踪算法,使用MIA-Net (Autoassign+Bytetrack),在iDF1上有2.68%的提升。 数据和代码链接:https://github.com/VisDrone/Multi-Drone-Multi-Object-Detection-and-Tracking 编辑:乔弘宇

“空地智能无人系统环境感知挑战赛”在PRCV2022成功举办

比赛总结 2022年12月24日,空地智能无人系统环境感知挑战赛(Aerial-Ground Intelligent Unmanned System Environment Perception Challenge, AGEP)专题论坛依托第五届中国模式识别与计算机视觉大会(The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022)在深圳市科兴ECO国际会议中心成功举办。本次竞赛由天津大学、香港科技大学、西北工业大学和山东大学共同组织,共吸引全国59支队伍参赛,角逐无人机目标检测、无人机双光人群计数以及多传感器融合Visual SLAM三个赛道冠军。VisDrone团队自2018年以来在ECCV和ICCV顶级会议上已连续成功举办了四届挑战赛,该挑战赛包含多个赛道,用于无人机平台上的检测、计数等各种核心视觉任务。 本次挑战赛负责人天津大学朱鹏飞副教授主持了“空地智能无人系统环境感知挑战赛”专题论坛。朱鹏飞副教授首先介绍了无人机的广泛应用并对本次“空地智能无人系统环境感知挑战赛”进行了回顾,之后介绍了本次挑战赛目标检测赛道、双光人群计数赛道、多传感器融合SLAM赛道的任务以及对应的数据集,最后公布本次挑战赛3个赛道的9支获奖队伍。 冠军分享 在本次研讨会中还邀请了3个赛道的冠军队伍进行算法分享。目标检测赛道冠军队伍由施泽浩分享的报告题目是“MT-UAVDet:一种无人机视角目标检测算法”。该报告介绍了该队伍基于YoloV6改进的一种空中视角的目标检测方法,该方法在目标检测赛道上取得了mAP 40.35的成绩,并为美团的无人机业务安全运行保驾护航。 双光人群计数赛道冠军队伍由徐威带来的报告题目是“CrowdFusion: Multimodal information fusion crowd counting”,介绍了针对复杂城市场景以及复杂光照变化条件下设计的CrowdFusion算法。该算法融合热红外图片信息与RGB图片信息,输出高精度的人群计数结果,在Drone RGBT数据集上实现了最优的人群计数性能。 多传感器融合SLAM赛道冠军队伍由周云水带来的报告题目为“非理想场景下的视觉惯性SLAM”。针对本次挑战赛中的纹理缺失、非惯性系、光照不足、高速旋转、长走廊等非理想场景,该队伍采用双目视觉定位方案,通过传统数字图像处理、IMU数据融合、语义分割、视觉重定位等技术,有效降低了SLAM系统的绝对位姿误差(APE)。 最后,PRCV 2022程序委员会主席南方科技大学计算机科学与工程系于仕琪副教授为参与线下会场的冠军队伍颁奖。 挑战赛历史 VisDrone挑战赛自2018年以来在ECCV和ICCV等视觉领域的会议上已连续成功举办了五届,该挑战赛包括目标检测、目标跟踪和人群计数等多个赛道。在此期间,团队不断更新和拓展VisDrone数据集,图片数据集扩展到10209张,视频数据集从263组扩展到400组。在这5届挑战赛中,参赛队伍数量最高达208支,接受的论文数量最高达到21篇。此外,今年还新增多传感器融合SLAM赛道以及对应的FusionPortable数据集,该数据集包含室内外8种场景17个多传感器数据序列。VisDrone挑战赛吸引了包括清华大学、北京大学、中科院、腾讯、深兰科技、松下湾大学、光州科学技术学院、吉诺瓦大学和悉尼科技大学等国内外知名高校及机构在内的参加者。目前,VisDrone数据集已成为无人机领域的基准数据集之一。到目前为止,已经有38篇会议论文发表在VisDrone Workshop,众多论文中提出的无人机检测、跟踪和人群计数的新方法,极大地推动了无人机视觉研究的蓬勃发展。通过VisDrone平台,使视觉与无人机相遇,并将无人机带入大众的生活。 编辑:乔弘宇

论文《DetFusion: A Detection-driven Infrared and Visible Image Fusion Network》被 ACM MM 2022 录用

论文下载与视频链接: https://dl.acm.org/doi/10.1145/3503161.3547902 代码链接:https://github.com/SunYM2020/DetFusion 红外和可见光图像融合旨在利用两种模态之间的互补信息来合成包含更丰富信息的新图像。大多数现有的工作集中在如何更好地融合两个模态的对比度和纹理方面的像素级细节,但忽略了图像融合任务旨在更好地服务于下游任务。对于目标检测这一典型下游任务,图像中的目标相关信息通常比仅关注图像的像素级细节更有价值。 本文提出了一种检测驱动的红外和可见光图像融合网络(DetFusion),它利用在目标检测网络中学习到的目标相关信息来指导多模态图像融合。我们将图像融合网络与两种模态的检测网络级联,并使用融合图像的检测损失来为图像融合网络的优化提供任务相关信息的指导。考虑到目标位置为图像融合提供了先验信息,我们提出了一种基于目标感知的内容损失函数,该内容损失函数激励融合模型更好地学习红外和可见图像中的像素级信息。此外,我们设计了一个共享注意力模块,以激励融合网络从目标检测网络中学习目标特定信息。 研究动机 诸如救灾和交通管理之类的实际应用需要能够处理全天时工作的目标检测算法。然而,在低光照条件下,基于可见光图像的目标检测的性能受到影响,尽管红外成像对光照变化具有鲁棒性,但它缺乏重要的纹理细节信息。考虑到红外和可见光图像的融合可以弥补单一模态的缺陷,基于融合图像的目标检测可以很好地满足实际应用中全天工作的需要。 目标检测的目标是找到图像中每个目标的位置并识别其类别,这自然可以提供丰富的语义信息以及目标位置信息。在这篇论文中,我们的动机是以检测驱动的形式构建一个新的红外和可见光图像融合框架,以便图像融合能够受益于目标检测中包含的语义信息和目标位置信息。 模型 我们提出的DetFusion的框架如图所示,其包含共享注意力引导的融合主网络、可见光检测网络和红外检测网络。每个检测网络由各自的检测损失独立地优化。我们在每个检测器中引入了注意力模块,用于提取可见光特征注意力图和红外特征注意力图。给定输入的一组红外与可见光图像,融合主网络负责生成融合图像,此网络由融合损失来优化。融合损失由基于目标感知的内容损失和检测驱动损失组成。 目标检测任务的标注了图像中每个物体的真实位置信息。我们可以使用该位置信息作为先验,自然地找到每个融合图像、红外图像和可见图像中的目标区域和背景区域。因此,我们提出了基于目标感知的内容损失,这促使融合图像基于目标位置先验保持良好的对比度和纹理细节。基于目标感知的内容损失包含目标感知像素损失以及梯度损失。 在融合图像中,我们期望目标区域与背景区域相比具有更显著的对比度。因此,目标区域需要保持最大像素强度,背景区域需要稍微低于最大像素强度以显示对象和背景之间的对比度。像素损失针对目标和背景分别采取不同的计算方式。 我们期望融合图像保留来自两种模态的图像的最丰富的纹理细节。 我们将融合图像分别输入红外检测网络和可见光检测网络,并根据各自的预测结果和地面实况计算检测损失。 实验 我们在同时支持目标检测与图像融合任务的典型数据集LLVIP和FLIR上进行实验。我们在7个图像融合性能评价指标上对比了7个典型的算法,在两个数据集上进行了定量、定性实验,以及消融实验。这些实验表明了我们的DetFusion的优越性。 在FLIR数据集和LLVIP数据集上的消融研究也验证了我们框架中每个组件的有效性。 编辑:乔弘宇

《Z.E.U.S. 灾害应急响应无人机蜂群系统》 获“挑战杯”和“互联网+”天津市金奖

        由胡清华老师和朱鹏飞老师指导,2020级本科生罗超凡、刘锦帆、刘昱龙、杨昕明、李佩珂、单玉青、杨昊也和硕士研究生尚元元共同完成的项目《Z.E.U.S. 灾害应急响应无人机蜂群系统》获得2022年“挑战杯”中国银行天津市大学生创业计划竞赛天津市金奖,中国国际“互联网+”大学生创新创业大赛天津市金奖。         “挑战杯”中国大学生创业计划竞赛是由共青团中央、中国科协、教育部、全国学联主办的大学生课外科技文化活动中一项具有导向性、示范性和群众性的创新创业竞赛活动,每两年举办一届。中国“互联网+”大学生创新创业大赛,由教育部与政府、各高校共同主办的一项技能大赛。大赛旨在深化高等教育综合改革,激发大学生的创造力,培养造就“大众创业、万众创新”的主力军;推动赛事成果转化,促进“互联网+”新业态形成,服务经济提质增效升级;以创新引领创业、创业带动就业,推动高校毕业生更高质量创业就业。这两项赛事是全国高校本科教学改革中覆盖面最广、影响力最大、学生参与最多、水平最高的比赛之一,吸引了广泛的学校和学生的参与。 编辑:乔弘宇

第116期CCF-CV走进高校系列报告会(@天津大学)云直播活动圆满结束

        2022年9月17日,由中国计算机学会计算机视觉专委会主办、天津大学承办的CCF-CV走进高校系列报告会活动,在CCF计算机视觉专委会B站官方账号成功举办。本次活动邀请了西安交通大学孟德宇教授、清华大学黄高副教授、同济大学赵才荣教授以及南京大学叶翰嘉副研究员四位计算机视觉领域专家学者做特邀报告。天津大学智能与计算学部李克秋教授、胡清华教授和CCF-CV专委会副主任、上海科技大学信息学院虞晶怡教授出席会议。天津大学智能与计算学部朱鹏飞副教授和王旗龙副教授担任本次会议的执行主席。         活动伊始,天津大学智能与计算学部主任李克秋教授致欢迎辞。李主任代表天津大学智能与计算学部对四位报告嘉宾表示热烈的欢迎,希望借此机会能够和各位专家及同行加强学术交流与合作,扩展师生科研视野,促进学科进步发展,并预祝本次报告会取得圆满成功。         CCF-CV专委会副主任、上海科技大学信息学院虞晶怡教授代表专委致辞,他首先感谢天津大学团队的精心组织,感谢各位重磅讲者嘉宾的大力支持!也感谢各位线上观众的热情参与,相信大家通过这次活动能够有所收获。CCF-CV专委为了推动国内计算机视觉领域发展,搭建了类型丰富的活动平台,欢迎大家继续关注并支持专委的各种活动!最后预祝本次报告会取得圆满成功! 01 报告信息         西安交通大学孟德宇教授的报告题目是“参数化卷积方法及其应用”。孟老师介绍了卷积算子的引入为深度学习的许多实际应用贡献了巨大力量。而孟老师团队所研究的高精度参数化卷积方法可以使卷积算子在尽量不影响图像精度的前提下,在底层视觉上赋予其旋转、缩放等能力。他们先后提出了旋转等变卷积、旋转共享卷积、尺度等变卷积和可动态调整的卷积。这些方法都取得了优异的性能,并且他们逐步开始在高层视觉问题上应用参数化卷积方法,有望启发卷积网络新的设计路线。         清华大学黄高副教授的报告题目是“Spatially and Temporally Adaptive Neural Networks”。黄老师介绍动态神经网络,这是一类能够根据所处理样本的不同而自适应调整网络自身结构或参数的深度学习模型,具有表征能力强、推理效率高、计算负荷可在线调节等优点,最终可以提升深度学习模型在部署阶段的计算效率和泛化性能。黄老师的报告从从空间自适应推理、时间自适应推理两方面介绍动态神经网络的最新研究进展,并为大家介绍了团队对近年来动态神经网络发展历程的一个综述,给大家形成了一个较为整体的领域思维导图。         同济大学赵才荣教授的报告题目是“遮挡行人再识别”。赵老师在报告中介绍行人再识别是智能视频监控系统的关键环节,而遮挡问题是其在应用落地过程中的一个极大挑战。赵老师带领同学们深入学习了行人再识别领域的各个分支的经典论文,详细阐述遮挡带来的四个关键问题:位置错位、尺度错位、噪声信息和遗漏信息。然后,赵老师介绍了团队近年来针对行人再识别领域的遮挡挑战的工作进展和创新。以及遮挡问题现在及未来有潜力的的解决方法:匹配算法、辅助模型、注意力机制、数据增强等。         南京大学叶翰嘉副研究员的报告题目是“基于模型兼容的开放世界学习方法”。叶老师首先为大家介绍了得到一个可持续学习新知识的计算机视觉系统所面临的巨大挑战——“灾难性的遗忘”。然后报告中给出了几种经典有效的降低灾难性遗忘的方法,比如参数正则化、知识蒸馏等方法。最后叶老师从“模型兼容”角度对类别增量学习方法进行讲解。团队一方面尝试对模型进行压缩,另一方面在“向后兼容(backward-compatible)”的基础上,提出“向前兼容(forward-compatible)”这一学习范式,使得增量模型训练时预先考虑未来可能发生的类别知识扩充,从而分类器、特征表示对潜在新类预留出空间。 02 活动总结         最后,活动执行主席、天津大学智能与计算学部朱鹏飞副教授对本次活动进行总结。首先感谢了四位讲者准备丰富,带来了十分精彩的学术盛宴。其中前两位主要是从卷积的参数化学习和网络的动态化学习,即可学习的角度给我们进行了研究前沿的分享。后两位是视觉领域、学习领域主要面临的开放动态环境,包括遮挡、增量遗忘带来的挑战。活动整体环环相扣、互有关联、精彩纷呈,为参会的老师同学们展示了一个较为全面的学术图景。此外,感谢参会的老师和同学的细心聆听,感谢中国计算机学会(CCF) 计算机视觉专委会、天津大学智能与计算学部给予本次活动的大力支持! …

Test Guidelines 2022

Test Guidelines The VisDrone data can be obtained from the download page. We provide the detail information on the download page. We encourage the participants to use the provided training data for each task, but also allow them to use additional training data. The use of additional training data must …

团队赢得CVPR 2022 VizWiz VQA Grounding 冠军

        在CVPR 2022期间,由19级硕士毕业生潘俊文(现字节跳动多模态团队),21级硕士生陈冠林和20级硕士生刘轶组成的Aurora团队夺得了VizWiz视觉问答挑战赛全球冠军。 方法介绍视频:https://www.youtube.com/watch?v=eh8OffqNKI4 文章链接:https://arxiv.org/pdf/2207.05703.pdf         视觉问答(VQA)是通向多模人工智能的一项基础挑战。一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战,如视障群体通过手机镜头捕获视觉内容,再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景,并以自然语言的方式进行回答。         在CVPR 2022上,权威视觉问答竞赛VizWiz提出了新的挑战:AI在回答(Talk)有关的视觉问题时,必须精确地高亮出(Show)相应的视觉证据。         凭借端到端的DaVI(Dual Visual-Linguistic Interaction)视觉语言交互新范式,Aurora团队成功拿下VizWiz 2022 Answer Grounding竞赛全球冠军。         VizWiz 大赛已经举办了4届,主办学者来自卡内基梅隆大学(CMU)、华盛顿大学、科罗拉多大学、微软和苹果,在多模态视觉问答领域有深厚的学术成就和技术积淀。         本届竞赛中,Aurora团队与来自国内外知名研究机构和高校的60+团队同台竞技,包括Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。夺冠方案的精度相比基线算法提升43.14%,领先在多模领域深耕已久的DeepMind团队3.65%。 编辑:乔弘宇

VISUAL SLAM

Overview We are pleased to announce the VisDrone2021 Object Detection in Images Challenge (Task 1). This competition is designed to push the state-of-the-art in object detection with drone platform forward. Teams are required to predict the bounding boxes of objects of ten predefined classes (i.e., pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, and tricycle) with real-valued confidences. Some …

Challenge_2022

The VisDrone 2021 Challenge The VisDrone 2021 Challenge will be held on the ICCV 2021 workshop “Vision Meets Drone: A Challenge” (or VisDrone 2021, for short) in October 2021, in SEC, Montreal, Canada, for object detection, tracking and counting in visual data taken from drones. We invite researchers to participate …

Challenge_2021

The VisDrone 2020 Challenge The VisDrone 2020 Challenge will be held on the ECCV 2020 workshop “Vision Meets Drone: A Challenge” (or VisDrone 2020, for short) in October 2020, in SEC, Glasgow, for object detection, tracking and counting in visual data taken from drones. We invite researchers to participate in …

VisDrone 2021

The VisDrone2020 dataset is collected by the AISKYEYE team at Lab of Machine Learning and Data Mining , Tianjin University, China. The benchmark dataset consists of 400 video clips formed by 265,228 frames and 10,209 static images, captured by various drone-mounted cameras, covering a wide range of aspects including location (taken from 14 different cities separated …

人工智能青年科学家论坛成功举办

        1月16日,由天津市人工智能学会主办、天津大学承办、中国计算机学会天津分部协办的“人工智能青年科学家论坛”成功以线上方式举办。活动伊始,大会主席计算机科学与技术学院院长冯伟、人工智能学院院长胡清华致辞,欢迎所有参会讲者与师生。执行主席朱鹏飞、张长青、王旗龙主持会议。本次活动共计13位硕果累累的青年科学家担任讲者。         大连理工大学几何计算与智能媒体技术研究所刘日升教授以“学习方法论学习的双层优化理论与算法”为题,从分层优化的观点出发,介绍近年来大量涌现的各种新型学习方法论学习方法的内在联系与本质规律,并在统一的双层优化框架下深入理解和分析当前主流学习方法的理论模型、计算策略及在视觉领域中的应用。         国防科技大学计算机学院刘新旺教授报告题目是“一种新型的鲁棒多核K均值聚类算法”。介绍最近他提出的SimpleMKKM融合聚类框架及其相关拓展。该模型在不同应用中展示了优越的聚类性能,且不含任何超参数。更重要的是,证明了该算法得到的是全局最优解。接着,他采用核矩阵局部对齐的思想对其进行了拓展,提出了Localized SimpleMKKM算法。最后,在此之上提出了一种无参的Adaptive Localized SimpleMKKM算法。         中科院计算所王瑞平研究员围绕“视觉场景图——表示、生成与应用”开展了系列研究,致力于建立“物体–>场景–>语言–>知识”的递进式场景理解统一框架。报告将介绍取得的一些具体进展,包括:结构化图推理驱动的物体检测、场景关系图的自动生成、复杂场景跨模态图文检索、图像描述生成的认知评测体系等工作。         中科院自动化所模式识别国家重点实验室张煦尧副研究员关于“开放环境鲁棒模式识别方法”介绍了大部分模式识别模型和算法背后蕴含着三个基础假设:封闭世界假设、独立同分布假设、以及大数据假设,直接或间接影响了模式识别系统的鲁棒性。本次报告从打破三个基础假设的角度出发,探索提升模式识别系统鲁棒性的途径。         东南大学网络空间安全学院桂杰研究员,基于“生成对抗网络综述:理论、算法和应用”题目全面讲解了生成对抗网络,生成对抗网络是目前一个非常热门的研究话题,图灵奖得主Lecun在Quora说过“生成对抗网络是机器学习在过去十年最有趣的idea。本报告主要从算法、理论和应用三个方面对生成对抗网络进行了综述。         北京航空航天大学软件开发环境国家重点实验室副主任刘祥龙教授报告介绍了“深度学习对抗攻防与安全评测”,围绕深度学习所面临的对抗样本等安全挑战,介绍深度学习安全问题、对抗攻击与防御国内外主要进展和具体研究案例还介绍了团队近年来针对深度学习提出的测试、理解和优化的深度学习对抗攻防与安全评测的研究工作,最后介绍了团队发布的深度学习安全评测开源项目“重明”。         中科院自动化所模式识别国家重点实验室研究员李兵介绍“高通量视频内容的智能理解与安全分析”,随着网络通信技术的发展,网络视频内容井喷式发展,介绍了团队面向高通量视频内容的智能理解与安全展开的理论研究和技术探索,重点分享基于压缩域的高效视频内容分析,基于身份空间约束的伪造人脸鉴别以及深度模型加速等研究成果。         华中科技大学电信学院副教授王兴刚报告了“高性能视频多目标检测、分割与跟踪”,针对复杂的视频场景、目标外观变化、目标遮挡、目标快速运动、视频模糊等困难问题,介绍了他们团队提出的高效率自注意力表示机制(CCNet),基于Query机制的实例分割方法、遮挡视频物体分割评测数据集、基于交叉学习的视频物体稳定表征学习方法、纯序列学习的Transformer目标检测器、ReID和检测特征的公平学习机制、低置信度检测关联方法等,并展示了在各种公开数据集上的惊艳表现。     …