作者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
提交/修订日期: 2023年10月5日提交,2024年5月15日修订 (v2)
状态: CVPR 2024 会议亮点论文 (Camera ready)
摘要:
大型多模态模型 (LMM) 最近在视觉指令微调方面取得了令人鼓舞的进展。在本研究中,作者指出,LLaVA 模型中全连接的视觉-语言跨模态连接器具有出乎意料的强大能力和数据效率。通过对 LLaVA 进行简单的修改——即使用 CLIP-ViT-L-336px 视觉编码器配合 MLP 投影层,并添加面向学术任务的视觉问答 (VQA) 数据及简单的响应格式化提示——作者建立了更强的基础模型,在 11 个基准测试中达到了最先进的性能。其最终的 130亿参数模型检查点仅使用了 120 万公开可用的数据,并在单个 8 卡 A100 节点上约 1 天内完成了完整训练。作者希望这项工作能使最前沿的 LMM 研究更容易进行。代码和模型将公开提供。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)