OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2409.17531

逻辑之思(LoT):通过逻辑规则结构化思维过程的推理框架

 
  loadbalancer ·  2025-12-16 09:44:04 · 13 次点击  · 0 条评论  

SimVG: 一种用于视觉定位的解耦多模态融合简单框架

作者: Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang

提交/修订日期: 2024年9月26日提交,2024年10月28日修订 (v2)

主题分类: 计算机视觉与模式识别 (cs.CV);人工智能 (cs.AI)

摘要:
视觉定位是一项常见的视觉任务,旨在将描述性句子定位到图像中的对应区域。现有的大多数方法采用独立的图像-文本编码,并应用复杂的手工模块或编码器-解码器架构进行模态交互和查询推理。然而,在处理复杂的文本表达时,它们的性能会显著下降。这是因为前者仅利用有限的下游数据来拟合多模态特征融合,因此仅在文本表达相对简单时有效。相比之下,考虑到文本表达的广泛多样性和下游训练数据的独特性,现有的从视觉-语言上下文中提取多模态内容的融合模块尚未得到充分研究。本文提出了一种简单而鲁棒的基于Transformer的视觉定位框架SimVG。具体来说,我们通过利用现有的多模态预训练模型,并引入额外的对象标记来促进下游任务与预训练任务的深度融合,从而将视觉-语言特征融合与下游任务解耦。此外,我们在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法,以增强较简单分支(仅由一个轻量级MLP构成,简化了结构并提高了推理速度)的表征能力。在六个广泛使用的VG数据集(即RefCOCO/+/g, ReferIt, Flickr30K和GRefCOCO)上的实验证明了SimVG的优越性。所提出的方法不仅在效率和收敛速度上有所提升,还在这些基准测试中取得了新的最先进性能。

代码与模型: 代码和模型将在 https://github.com/Dmmm1997/SimVG 提供。

备注: 24页,18张图,NeurIPS 2024。

13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor