OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2304.08485

LLaVA:视觉指令微调与多模态理解

 
  airpods ·  2026-01-10 08:54:46 · 9 次点击  · 0 条评论  

Visual Instruction Tuning

作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交/修订日期: 2023年4月17日提交,2023年12月11日修订 (v2)

主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

会议信息: NeurIPS 2023 Oral

摘要:
使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调,已经提升了其在未见任务上的零样本能力,但这一思路在多模态领域尚未得到充分探索。本文首次尝试使用纯语言的 GPT-4 来生成多模态的语言-图像指令遵循数据。通过对这些生成的数据进行指令微调,我们提出了 LLaVA(Large Language and Vision Assistant),这是一个端到端训练的大型多模态模型,它将视觉编码器与大型语言模型连接起来,用于通用的视觉和语言理解。

我们的早期实验表明,LLaVA 展现出令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为,并且在一个合成的多模态指令遵循数据集上,获得了相对于 GPT-4 85.1% 的相对得分。当在 Science QA 数据集上进行微调时,LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新准确率。我们公开了 GPT-4 生成的视觉指令微调数据、我们的模型和代码库。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor