论文题目:Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark

作者:曹兵、卢泉昊(硕士研究生)、冯杰康(硕士研究生)、王旗龙、朱鹏飞、胡清华

论文概述:

在视频目标计数中,前景与背景的动态不平衡是一个关键问题,主要由前景目标的稀疏性导致。为此,本文提出了一种嵌入密度信息的高效掩码自动编码器计数框架(E-MAC)。通过基于光流的时空协作融合技术,我们对齐多帧特征以计算密度残差,从而有效捕捉动态变化,并利用相邻帧信息提升当前帧的计数精度。为了增强动态前景目标的特征表征能力,我们将密度图作为辅助模态,提出密度嵌入式掩码建模(DEMO)方法,用于多模态自表示学习和密度图回归。然而,DEMO在提供跨模态回归指导的同时,也引入了冗余背景信息,难以聚焦前景区域。为此,我们进一步提出一种基于密度图的高效空间自适应掩码技术来提高前景学习效率。此外,针对现有数据集大多集中于以人为中心场景的问题,我们首次构建了大规模视频鸟类计数数据集DroneBird,用于自然场景下的候鸟保护等活动。在三个人群数据集和DroneBird数据集上的广泛实验表明,我们的方法优于现有方法,验证了其先进性。