Visual Instruction Tuning

作者： Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交/修订日期： 2023年4月17日提交，2023年12月11日修订 (v2)

主题/分类： 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要：
使用机器生成的指令遵循数据对大型语言模型 (LLMs) 进行指令调优，已经提升了其在未见任务上的零样本能力，但这一思路在多模态领域的探索较少。本文首次尝试使用纯语言模型 GPT-4 来生成多模态的语言-图像指令遵循数据。通过对这类生成数据进行指令调优，我们提出了 LLaVA (Large Language and Vision Assistant)，这是一个端到端训练的大型多模态模型，它连接了一个视觉编码器和一个大型语言模型，用于通用的视觉和语言理解。

我们的早期实验表明，LLaVA 展示了令人印象深刻的多模态聊天能力，有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为，并且在一个合成的多模态指令遵循数据集上，相对于 GPT-4 取得了 85.1% 的相对分数。当在 Science QA 数据集上进行微调时，LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新准确率。我们将 GPT-4 生成的视觉指令调优数据、我们的模型和代码库公开提供。

备注： NeurIPS 2023 Oral; 项目页面: https://llava-vl.github.io/

论文地址：https://arxiv.org/abs/2304.08485v2

42 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

LLaVA：视觉指令微调打造强大的多模态对话模型

Visual Instruction Tuning