作者: Linxi Zhao, Yihe Deng, Weitong Zhang, Quanquan Gu
摘要:
大型视觉语言模型(LVLMs)的进步日益凸显出其倾向于在图像中幻觉出不存在对象的严重问题。为解决这一问题,先前的工作侧重于使用专门整理的数集或强大的大语言模型(LLMs)纠正 LVLMs 的输出。然而,这些方法要么需要高昂的训练或微调成本,要么需要访问专有 LLMs 的 API 以进行生成后修正。针对这些局限性,我们提出MARINE(Mitigating hallucinAtion via image-gRounded guIdaNcE),一个既无需训练也无需 API 的框架。MARINE 通过向 LVLMs 引入基于图像的基础引导,在推理过程中有效且高效地减少对象幻觉。这是通过利用开源视觉模型提取对象级信息,从而提高 LVLM 生成内容的精确性实现的。该框架的灵活性还允许集成多个视觉模型,提供更可靠和鲁棒的对象级引导。通过在 5 个主流 LVLMs 上使用多种评估指标和基准进行全面评估,我们展示了 MARINE 的有效性,其表现甚至优于现有的基于微调的方法。值得注意的是,它能够在 GPT-4V 辅助评估中持续减少幻觉,同时保持 LVLMs 生成的详细程度。代码已开源:https://github.com/Linxi-ZHAO/MARINE。
主题/分类:
- 主要主题:Machine Learning (cs.LG)
- 其他相关主题:Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
提交/修订历史:
- v1: 2024年2月13日提交
- v2: 2025年6月11日最后修订