作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
提交/修订日期: 2023年4月17日提交,2023年12月11日修订 (v2)
主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
会议信息: NeurIPS 2023 Oral
摘要:
使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调,已经提升了其在未见任务上的零样本能力,但这一思路在多模态领域尚未得到充分探索。本文首次尝试使用纯语言的 GPT-4 来生成多模态的语言-图像指令遵循数据。通过对这些生成的数据进行指令微调,我们提出了 LLaVA(Large Language and Vision Assistant),这是一个端到端训练的大型多模态模型,它将视觉编码器与大型语言模型连接起来,用于通用的视觉和语言理解。
我们的早期实验表明,LLaVA 展现出令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为,并且在一个合成的多模态指令遵循数据集上,获得了相对于 GPT-4 85.1% 的相对得分。当在 Science QA 数据集上进行微调时,LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新准确率。我们公开了 GPT-4 生成的视觉指令微调数据、我们的模型和代码库。