论文题目:Reconcile Gradient Modulation for Harmony Multimodal Learning

作者:高西远(博士研究生),曹兵,龚保全(硕士研究生),朱鹏飞

论文概述:

多模态学习常常面临两大相互关联的挑战:模态不平衡——主导模态在训练过程中压制其他模态;以及模态冲突——不同模态间的梯度方向相互对立,从而阻碍优化过程。现有方法通常将这两个问题分开处理,但实际上它们在本质上是耦合且相互影响的,并且这种关系最根本地体现在梯度空间中:严重的不平衡会掩盖冲突,而过度抑制冲突又可能导致特征同质化,从而进一步加剧不平衡,最终影响模态融合性能。为同时应对这一耦合挑战,我们提出了一个统一框架——Reconcile Gradient Modulation (RGM,协调梯度调制)。RGM 能够自适应地调整梯度的幅度与方向,以实现多模态学习的协同与平衡。其核心组件——同步正交梯度,通过最小化 Dirichlet 能量来执行最小化梯度干预。为了准确评估模型当前学习状态,我们提出了累积梯度能量,作为一种可保证收敛的模态进展度量,并基于此构建了平衡-无冲突平面,用于实时诊断与调控训练动态。在多个不同的基准测试上,RGM 均展现出显著的有效性与通用性,持续优于那些仅针对模态不平衡或模态冲突单独设计的对比方法。

论文题目:Dream-IF: Dynamic Relative EnhAnceMent for Image Fusion

作者:徐兴歆(博士研究生), 曹兵, 李冬冬, 胡清华, 朱鹏飞

论文概述:

图像融合技术旨在整合来自多个数据源的图像信息。然而,不同传感器采集的图像常受到各类退化的影响,从而降低融合质量。传统融合方法通常将图像增强与融合视为两个独立步骤,忽略了二者之间固有的内在联系。值得注意的是,在融合图像中,某一模态的优势区域往往暗示着另一模态可能存在需要增强的区域。受此启发,我们引入了“优势区域”的概念,并提出一种动态相对增强图像融合框架(Dream-IF)。该框架能够量化不同层级中各模态间的相对优势,并利用该信息促进跨模态的互惠增强。通过融合过程中提取的相对优势信息,我们的方法不仅可用于图像复原,还可拓展至更广泛的图像增强任务。此外,我们采用基于提示的编码机制,以捕捉特定退化细节,从而动态引导复原过程,并在多模态图像融合与图像增强场景中实现协同提升。大量实验结果表明,Dream-IF 在性能上优于当前同类算法。

论文题目:VTD-CLIP: Video-to-Text Discretization via Prompting CLIP

作者:朱文成,王月新(硕士研究生),李洪瑄(硕士研究生),朱鹏飞

论文概述:

视觉-语言模型融合了视觉与语言理解能力,并在视频识别任务中展现出强大性能。现有方法主要依赖于对预训练图像-文本模型进行参数高效的微调,但由于时序建模能力不足,存在可解释性有限和泛化能力较差的问题。为解决这些局限性,我们提出了一种简单而有效的视频-文本离散化框架。该方法利用预冻结的文本编码器,基于视频类别标签构建视觉码本,通过挖掘多模态预训练中视觉与文本嵌入之间的多对一对比对齐关系,将视觉特征通过码本查询转化为离散的文本标记,从而通过显式建模方式生成可解释的视频表征。为进一步提升模型对噪声帧或无关帧的鲁棒性,本方法引入了置信感知融合模块,该模块根据码本度量的语义相关性对关键帧进行动态加权。此外,通过引入可学习的文本提示词,在训练过程中实现自适应的码本更新。广泛的实验验证了本方法的优越性。

论文题目:Point Cloud Quantization through Multimodal Prompting for 3D Understanding

作者:李洪瑄(硕士研究生),朱文成,徐慧英,朱信忠,朱鹏飞

论文概述:

向量量化已成为大规模多模态模型中的一种重要工具,通过离散化的标记编码实现异构表征的统一。然而,其有效性在很大程度上依赖于稳健的码本设计。现有基于原型的方法通常依赖可训练向量或聚类质心,在代表性和可解释性方面仍存在不足,即使多模态对齐在视觉语言模型中展现出巨大潜力。为了解决这些问题,本文提出了一种基于多模态提示驱动的点云量化框架。该方法基于两个核心洞见:预训练模型的文本嵌入通过多对一的对比对齐天然地编码了视觉语义,因此可作为稳健的原型先验;多模态提示能够自适应地优化这些原型,从而有效缓解视觉与语言之间的语义差距。该框架引入了一个由紧致性和分离性正则项共同约束的双约束量化空间,在视觉特征与原型特征之间实现无缝融合,生成同时包含几何与语义信息的混合表征。此外,本文采用 Gumbel-Softmax 松弛策略以实现可微分的离散化过程,同时保持量化的稀疏性。在 ModelNet40 和 ScanObjectNN 数据集上的大量实验结果表明,所提出的方法在性能上显著优于现有方案。

论文题目:CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion

作者:孙一铭,阮媛(硕士研究生),胡清华,朱鹏飞

论文概述:

红外与可见光图像融合技术通过结合互补模态,生成具备全天候感知能力的图像,从而增强智能无人系统的环境感知力。现有方法或侧重于像素级融合而忽视下游任务适应性,或通过级联检测/分割模型隐式学习固定语义,无法交互式应对多样化的语义目标感知需求。我们提出可控的图像融合框架 CtrlFuse,能够通过掩码提示实现交互式动态融合。该模型集成多模态特征提取器、参考提示编码器(RPE)及提示语义融合模块(PSFM)。RPE 通过预训练分割模型在输入掩码引导下微调,动态编码任务特定语义提示;PSFM 则将这些语义显式注入融合特征。通过并行分割分支与融合分支的协同优化,我们的方法实现了任务性能与融合质量的相互促进。实验表明,该方法在融合可控性与分割精度方面均达到 SOTA 水平,经适配的任务分支甚至超越原始分割模型的性能表现。