标题:Improved Baselines with Visual Instruction Tuning
作者
- Haotian Liu
- Chunyuan Li
- Yuheng Li
- Yong Jae Lee
摘要
大型多模态模型(LMM)近来通过视觉指令调优取得了令人鼓舞的进展。本文表明,LLaVA中的全连接视觉-语言跨模态连接器具有出人意料的强大能力和数据效率。通过对LLaVA进行简单的修改,即,使用带有MLP投影的CLIP-ViT-L-336px,并添加带有简单响应格式化提示的面向学术任务的VQA数据,我们建立了更强的基线模型,在11个基准测试中达到了最先进的性能。我们的最终13B检查点仅使用了1.2M的公开可用数据,并在单个8-A100节点上约1天内完成了全部训练。我们希望这能使最先进的LMM研究更具可访问性。代码和模型将公开提供。
主题/分类
- 主要主题:计算机视觉与模式识别 (cs.CV)
- 相关主题:人工智能 (cs.AI);计算与语言 (cs.CL);机器学习 (cs.LG)
备注
- 技术报告,4页。
- LLaVA项目页面:https://llava-vl.github.io
- 提交日期:2023年10月5日(v1),最新版本:2024年5月15日(v2)