作者: Guowei Xu, Peng Jin, Ziang Wu, Hao Li, Yibing Song, Lichao Sun, Li Yuan
提交日期: 2024年11月15日 (最终修订于2025年7月21日)
主题分类: 计算机视觉与模式识别 (cs.CV)
会议信息: 17页,ICCV 2025
大语言模型在推理能力方面已取得显著进展。然而,当前的视觉语言模型在处理复杂的视觉问答任务时,往往难以进行系统化和结构化的推理。在本工作中,我们提出了 LLaVA-CoT,一个旨在进行自主多阶段推理的大型视觉语言模型。与思维链提示不同,LLaVA-CoT 能够独立地进行总结、视觉解释、逻辑推理和结论生成等顺序阶段。这种结构化方法使 LLaVA-CoT 在推理密集型任务上取得了显著改进。
为实现此目标,我们构建了 LLaVA-CoT-100k 数据集,该数据集整合了来自多个视觉问答来源的样本,并提供了结构化的推理标注。此外,我们提出了一种测试时阶段回溯搜索方法,实现了有效且高效的测试时扩展。
值得注意的是,仅使用 10 万个训练样本和测试时扩展,LLaVA-CoT 不仅在广泛的多模态推理基准上比其基础模型性能高出 9.4%,而且超越了更大甚至闭源模型的性能,例如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。
代码、数据集和预训练权重已在以下地址公开:https://github.com/PKU-YuanGroup/LLaVA-CoT