逻辑之思（LoT）：通过逻辑规则结构化思维过程的推理框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

SimVG: 一种用于视觉定位的解耦多模态融合简单框架

作者： Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang

提交/修订日期： 2024年9月26日提交，2024年10月28日修订 (v2)

主题分类： 计算机视觉与模式识别 (cs.CV)；人工智能 (cs.AI)

摘要：
视觉定位是一项常见的视觉任务，旨在将描述性句子定位到图像中的对应区域。现有的大多数方法采用独立的图像-文本编码，并应用复杂的手工模块或编码器-解码器架构进行模态交互和查询推理。然而，在处理复杂的文本表达时，它们的性能会显著下降。这是因为前者仅利用有限的下游数据来拟合多模态特征融合，因此仅在文本表达相对简单时有效。相比之下，考虑到文本表达的广泛多样性和下游训练数据的独特性，现有的从视觉-语言上下文中提取多模态内容的融合模块尚未得到充分研究。本文提出了一种简单而鲁棒的基于Transformer的视觉定位框架SimVG。具体来说，我们通过利用现有的多模态预训练模型，并引入额外的对象标记来促进下游任务与预训练任务的深度融合，从而将视觉-语言特征融合与下游任务解耦。此外，我们在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法，以增强较简单分支（仅由一个轻量级MLP构成，简化了结构并提高了推理速度）的表征能力。在六个广泛使用的VG数据集（即RefCOCO/+/g, ReferIt, Flickr30K和GRefCOCO）上的实验证明了SimVG的优越性。所提出的方法不仅在效率和收敛速度上有所提升，还在这些基准测试中取得了新的最先进性能。

代码与模型： 代码和模型将在 https://github.com/Dmmm1997/SimVG 提供。

备注： 24页，18张图，NeurIPS 2024。

论文地址：https://arxiv.org/abs/2409.17531

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复