LLaVA-1.5：更强视觉指令跟随能力的多模态助手

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

标题：Improved Baselines with Visual Instruction Tuning

作者

Haotian Liu
Chunyuan Li
Yuheng Li
Yong Jae Lee

摘要

大型多模态模型（LMM）近来通过视觉指令调优取得了令人鼓舞的进展。本文表明，LLaVA中的全连接视觉-语言跨模态连接器具有出人意料的强大能力和数据效率。通过对LLaVA进行简单的修改，即，使用带有MLP投影的CLIP-ViT-L-336px，并添加带有简单响应格式化提示的面向学术任务的VQA数据，我们建立了更强的基线模型，在11个基准测试中达到了最先进的性能。我们的最终13B检查点仅使用了1.2M的公开可用数据，并在单个8-A100节点上约1天内完成了全部训练。我们希望这能使最先进的LMM研究更具可访问性。代码和模型将公开提供。

主题/分类

主要主题：计算机视觉与模式识别 (cs.CV)
相关主题：人工智能 (cs.AI)；计算与语言 (cs.CL)；机器学习 (cs.LG)

备注

技术报告，4页。
LLaVA项目页面：https://llava-vl.github.io
提交日期：2023年10月5日（v1），最新版本：2024年5月15日（v2）

论文地址：https://arxiv.org/abs/2310.03744v1

16 次点击 ∙ 0 人收藏

登录后收藏

0 条回复