无人机已被广泛用于各种应用,如空中摄影和军事安全,因为与固定摄像机相比,无人机具有高机动性和广阔的视野。多架无人机跟踪系统可以通过收集不同视角的互补视频片段来提供丰富的目标信息,特别是当目标在某些视角下被遮挡或消失时。 然而,在多架无人机视觉追踪中,处理跨无人机信息交互和多架无人机信息融合是一个挑战。最近,Transformer在为视觉追踪自动建模模板和搜索区域之间的关联性方面显示出显著的优势。为了利用其在多架无人机跟踪中的潜力,我们提出了一种新型的跨无人机Transformer网络(TransMDOT),用于视觉物体跟踪任务。Self-Attention机制被用来自动捕捉多个模板和相应搜索区域之间的相关性,以实现多机特征融合。在跟踪过程中,以跟踪状态良好的无人机的周边信息为参考,提出了跨无人机的映射机制,协助失去目标的无人机重新校准,实现了跨无人机的实时信息交互。由于现有的多架无人机评价指标只考虑空间信息而忽略了时间信息,我们进一步提出了一个系统感知指数(SPFI),结合时间和空间信息来评价多架无人机的跟踪状态。在MDOT数据集上的实验证明,TransMDOT在单架无人机性能和多架无人机系统融合性能方面都大大超过了最先进的方法。我们的代码将在https://github.com/cgjacklin/transmdot上提供。
我们的贡献可以概括为以下几点:
无人机对于其追踪推理速度有较高要求,因此在Encoder编码阶段,我们提出了一个候选token消除模块以加速模型的推理。
在MDOT数据集上,TransMDOT在单机性能和多机性能上均大幅超越了先前的SOTA指标。
@article{cao2024visible, title={Visible and Clear: Finding Tiny Objects in Difference Map}, author={Cao, Bing and Yao, Haiyu and Zhu, Pengfei and Hu, Qinghua}, journal={arXiv preprint arXiv:2405.11276}, year={2024} }
<pre>
@ARTICLE{Gao22LUSS,
author={Gao, Shanghua and Li, Zhong-Yu and Yang, Ming-Hsuan and Cheng, Ming-Ming and Han, Junwei and Torr, Philip},
title={Large-scale Unsupervised Semantic Segmentation},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2023},
volume={45},
number={6},
pages={7457-7476},
doi={10.1109/TPAMI.2022.3218275}
}
</pre>