Visual Instruction Tuning

作者： Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交日期： 2023 年 4 月 17 日（v1）

摘要

利用机器生成的指令跟随数据对大型语言模型（LLMs）进行指令微调，已提升了模型在新任务上的零样本能力，但这一思想在多模态领域尚未得到充分探索。本文首次尝试使用仅基于语言的 GPT-4 来生成多模态语言-图像指令跟随数据。通过对这些生成数据进行指令微调，我们提出了 LLaVA（Large Language and Vision Assistant）——一个端到端训练的大型多模态模型，它将视觉编码器与 LLM 连接起来，用于通用的视觉与语言理解。

早期实验表明，LLaVA 展现出了令人印象深刻的多模态对话能力，有时在未见过的图像/指令上表现出多模态 GPT-4 的行为，并在合成多模态指令跟随数据集上取得了 GPT-4 相对得分的 85.1%。当在 Science QA 上微调时，LLaVA 与 GPT-4 的协同作用达到了 92.53% 的最新准确率。作者公开提供了 GPT-4 生成的视觉指令微调数据、模型和代码。

主题/分类

主要分类： 计算机视觉与模式识别（cs.CV）
其他分类： 人工智能（cs.AI）、计算与语言（cs.CL）、机器学习（cs.LG）

其他信息

项目页面： https://llava-vl.github.io
arXiv ID： 2304.08485

论文地址：https://arxiv.org/abs/2304.08485v1

39 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Visual Instruction Tuning：将语言模型扩展到视觉指令跟随场景

Visual Instruction Tuning

摘要

主题/分类

其他信息