作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
提交日期: 2023 年 4 月 17 日(v1)
利用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令微调,已提升了模型在新任务上的零样本能力,但这一思想在多模态领域尚未得到充分探索。本文首次尝试使用仅基于语言的 GPT-4 来生成多模态语言-图像指令跟随数据。通过对这些生成数据进行指令微调,我们提出了 LLaVA(Large Language and Vision Assistant)——一个端到端训练的大型多模态模型,它将视觉编码器与 LLM 连接起来,用于通用的视觉与语言理解。
早期实验表明,LLaVA 展现出了令人印象深刻的多模态对话能力,有时在未见过的图像/指令上表现出多模态 GPT-4 的行为,并在合成多模态指令跟随数据集上取得了 GPT-4 相对得分的 85.1%。当在 Science QA 上微调时,LLaVA 与 GPT-4 的协同作用达到了 92.53% 的最新准确率。作者公开提供了 GPT-4 生成的视觉指令微调数据、模型和代码。