Improved Baselines with Visual Instruction Tuning

作者： Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee

提交/修订日期： 2023年10月5日提交，2024年5月15日修订 (v2)

状态： CVPR 2024 会议亮点论文 (Camera ready)

摘要：
大型多模态模型 (LMM) 最近在视觉指令微调方面取得了令人鼓舞的进展。在本研究中，作者指出，LLaVA 模型中全连接的视觉-语言跨模态连接器具有出乎意料的强大能力和数据效率。通过对 LLaVA 进行简单的修改——即使用 CLIP-ViT-L-336px 视觉编码器配合 MLP 投影层，并添加面向学术任务的视觉问答 (VQA) 数据及简单的响应格式化提示——作者建立了更强的基础模型，在 11 个基准测试中达到了最先进的性能。其最终的 130亿参数模型检查点仅使用了 120 万公开可用的数据，并在单个 8 卡 A100 节点上约 1 天内完成了完整训练。作者希望这项工作能使最前沿的 LMM 研究更容易进行。代码和模型将公开提供。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

项目页面： https://llava-vl.github.io

论文地址：https://arxiv.org/abs/2310.03744

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

LLaVA-1.5：更强视觉指令微调带来高效多模态对话能力

Improved Baselines with Visual Instruction Tuning