OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2304.08485v2

LLaVA:视觉指令微调打造强大的多模态对话模型

 
  before ·  2026-03-22 11:01:22 · 2 次点击  · 0 条评论  

Visual Instruction Tuning

作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交/修订日期: 2023年4月17日提交,2023年12月11日修订 (v2)

主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要:
使用机器生成的指令遵循数据对大型语言模型 (LLMs) 进行指令调优,已经提升了其在未见任务上的零样本能力,但这一思路在多模态领域的探索较少。本文首次尝试使用纯语言模型 GPT-4 来生成多模态的语言-图像指令遵循数据。通过对这类生成数据进行指令调优,我们提出了 LLaVA (Large Language and Vision Assistant),这是一个端到端训练的大型多模态模型,它连接了一个视觉编码器和一个大型语言模型,用于通用的视觉和语言理解。

我们的早期实验表明,LLaVA 展示了令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为,并且在一个合成的多模态指令遵循数据集上,相对于 GPT-4 取得了 85.1% 的相对分数。当在 Science QA 数据集上进行微调时,LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新准确率。我们将 GPT-4 生成的视觉指令调优数据、我们的模型和代码库公开提供。

备注: NeurIPS 2023 Oral; 项目页面: https://llava-vl.github.io/

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor