Skywork-o1：开源首个类 o1 推理模型的技术方案

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

LLaVA-CoT: 让视觉语言模型进行逐步推理

作者: Guowei Xu, Peng Jin, Ziang Wu, Hao Li, Yibing Song, Lichao Sun, Li Yuan

提交日期: 2024年11月15日 (最终修订于2025年7月21日)

主题分类: 计算机视觉与模式识别 (cs.CV)

会议信息: 17页，ICCV 2025

摘要

大语言模型在推理能力方面已取得显著进展。然而，当前的视觉语言模型在处理复杂的视觉问答任务时，往往难以进行系统化和结构化的推理。在本工作中，我们提出了 LLaVA-CoT，一个旨在进行自主多阶段推理的大型视觉语言模型。与思维链提示不同，LLaVA-CoT 能够独立地进行总结、视觉解释、逻辑推理和结论生成等顺序阶段。这种结构化方法使 LLaVA-CoT 在推理密集型任务上取得了显著改进。

为实现此目标，我们构建了 LLaVA-CoT-100k 数据集，该数据集整合了来自多个视觉问答来源的样本，并提供了结构化的推理标注。此外，我们提出了一种测试时阶段回溯搜索方法，实现了有效且高效的测试时扩展。

值得注意的是，仅使用 10 万个训练样本和测试时扩展，LLaVA-CoT 不仅在广泛的多模态推理基准上比其基础模型性能高出 9.4%，而且超越了更大甚至闭源模型的性能，例如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

代码、数据集和预训练权重已在以下地址公开：https://github.com/PKU-YuanGroup/LLaVA-CoT

论文地址：https://arxiv.org/abs/2411.10440

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复