LLaVA：视觉指令微调与多模态理解

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Visual Instruction Tuning

作者： Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交/修订日期： 2023年4月17日提交，2023年12月11日修订 (v2)

主题/分类： 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

会议信息： NeurIPS 2023 Oral

摘要：
使用机器生成的指令遵循数据对大型语言模型（LLMs）进行指令微调，已经提升了其在未见任务上的零样本能力，但这一思路在多模态领域尚未得到充分探索。本文首次尝试使用纯语言的 GPT-4 来生成多模态的语言-图像指令遵循数据。通过对这些生成的数据进行指令微调，我们提出了 LLaVA（Large Language and Vision Assistant），这是一个端到端训练的大型多模态模型，它将视觉编码器与大型语言模型连接起来，用于通用的视觉和语言理解。

我们的早期实验表明，LLaVA 展现出令人印象深刻的多模态聊天能力，有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为，并且在一个合成的多模态指令遵循数据集上，获得了相对于 GPT-4 85.1% 的相对得分。当在 Science QA 数据集上进行微调时，LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新准确率。我们公开了 GPT-4 生成的视觉指令微调数据、我们的模型和代码库。

论文地址：https://arxiv.org/abs/2304.08485

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复