OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2411.10440

Skywork-o1:开源首个类 o1 推理模型的技术方案

 
  cipher ·  2025-12-23 00:57:49 · 12 次点击  · 0 条评论  

LLaVA-CoT: 让视觉语言模型进行逐步推理

作者: Guowei Xu, Peng Jin, Ziang Wu, Hao Li, Yibing Song, Lichao Sun, Li Yuan

提交日期: 2024年11月15日 (最终修订于2025年7月21日)

主题分类: 计算机视觉与模式识别 (cs.CV)

会议信息: 17页,ICCV 2025

摘要

大语言模型在推理能力方面已取得显著进展。然而,当前的视觉语言模型在处理复杂的视觉问答任务时,往往难以进行系统化和结构化的推理。在本工作中,我们提出了 LLaVA-CoT,一个旨在进行自主多阶段推理的大型视觉语言模型。与思维链提示不同,LLaVA-CoT 能够独立地进行总结、视觉解释、逻辑推理和结论生成等顺序阶段。这种结构化方法使 LLaVA-CoT 在推理密集型任务上取得了显著改进。

为实现此目标,我们构建了 LLaVA-CoT-100k 数据集,该数据集整合了来自多个视觉问答来源的样本,并提供了结构化的推理标注。此外,我们提出了一种测试时阶段回溯搜索方法,实现了有效且高效的测试时扩展。

值得注意的是,仅使用 10 万个训练样本和测试时扩展,LLaVA-CoT 不仅在广泛的多模态推理基准上比其基础模型性能高出 9.4%,而且超越了更大甚至闭源模型的性能,例如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

代码、数据集和预训练权重已在以下地址公开:https://github.com/PKU-YuanGroup/LLaVA-CoT

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor