Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance

作者： Linxi Zhao, Yihe Deng, Weitong Zhang, Quanquan Gu

摘要：
大型视觉语言模型（LVLMs）的进步日益凸显出其倾向于在图像中幻觉出不存在对象的严重问题。为解决这一问题，先前的工作侧重于使用专门整理的数集或强大的大语言模型（LLMs）纠正 LVLMs 的输出。然而，这些方法要么需要高昂的训练或微调成本，要么需要访问专有 LLMs 的 API 以进行生成后修正。针对这些局限性，我们提出MARINE（Mitigating hallucinAtion via image-gRounded guIdaNcE），一个既无需训练也无需 API 的框架。MARINE 通过向 LVLMs 引入基于图像的基础引导，在推理过程中有效且高效地减少对象幻觉。这是通过利用开源视觉模型提取对象级信息，从而提高 LVLM 生成内容的精确性实现的。该框架的灵活性还允许集成多个视觉模型，提供更可靠和鲁棒的对象级引导。通过在 5 个主流 LVLMs 上使用多种评估指标和基准进行全面评估，我们展示了 MARINE 的有效性，其表现甚至优于现有的基于微调的方法。值得注意的是，它能够在 GPT-4V 辅助评估中持续减少幻觉，同时保持 LVLMs 生成的详细程度。代码已开源：https://github.com/Linxi-ZHAO/MARINE。

主题/分类：
- 主要主题：Machine Learning (cs.LG)
- 其他相关主题：Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

提交/修订历史：
- v1: 2024年2月13日提交
- v2: 2025年6月11日最后修订

论文地址：https://arxiv.org/abs/2402.08680

12 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MotionLM：统一建模人体动作生成与理解的语言模型方法

Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance