OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.08680

MotionLM:统一建模人体动作生成与理解的语言模型方法

 
  available ·  2026-06-17 11:01:20 · 12 次点击  · 0 条评论  

Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance

作者: Linxi Zhao, Yihe Deng, Weitong Zhang, Quanquan Gu

摘要:
大型视觉语言模型(LVLMs)的进步日益凸显出其倾向于在图像中幻觉出不存在对象的严重问题。为解决这一问题,先前的工作侧重于使用专门整理的数集或强大的大语言模型(LLMs)纠正 LVLMs 的输出。然而,这些方法要么需要高昂的训练或微调成本,要么需要访问专有 LLMs 的 API 以进行生成后修正。针对这些局限性,我们提出MARINE(Mitigating hallucinAtion via image-gRounded guIdaNcE),一个既无需训练也无需 API 的框架。MARINE 通过向 LVLMs 引入基于图像的基础引导,在推理过程中有效且高效地减少对象幻觉。这是通过利用开源视觉模型提取对象级信息,从而提高 LVLM 生成内容的精确性实现的。该框架的灵活性还允许集成多个视觉模型,提供更可靠和鲁棒的对象级引导。通过在 5 个主流 LVLMs 上使用多种评估指标和基准进行全面评估,我们展示了 MARINE 的有效性,其表现甚至优于现有的基于微调的方法。值得注意的是,它能够在 GPT-4V 辅助评估中持续减少幻觉,同时保持 LVLMs 生成的详细程度。代码已开源:https://github.com/Linxi-ZHAO/MARINE。

主题/分类:
- 主要主题:Machine Learning (cs.LG)
- 其他相关主题:Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

提交/修订历史:
- v1: 2024年2月13日提交
- v2: 2025年6月11日最后修订

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor