OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.03744

LLaVA-1.5:更强视觉指令微调带来高效多模态对话能力

 
  macos ·  2026-03-11 07:33:06 · 3 次点击  · 0 条评论  

Improved Baselines with Visual Instruction Tuning

作者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee

提交/修订日期: 2023年10月5日提交,2024年5月15日修订 (v2)

状态: CVPR 2024 会议亮点论文 (Camera ready)

摘要:
大型多模态模型 (LMM) 最近在视觉指令微调方面取得了令人鼓舞的进展。在本研究中,作者指出,LLaVA 模型中全连接的视觉-语言跨模态连接器具有出乎意料的强大能力和数据效率。通过对 LLaVA 进行简单的修改——即使用 CLIP-ViT-L-336px 视觉编码器配合 MLP 投影层,并添加面向学术任务的视觉问答 (VQA) 数据及简单的响应格式化提示——作者建立了更强的基础模型,在 11 个基准测试中达到了最先进的性能。其最终的 130亿参数模型检查点仅使用了 120 万公开可用的数据,并在单个 8 卡 A100 节点上约 1 天内完成了完整训练。作者希望这项工作能使最前沿的 LMM 研究更容易进行。代码和模型将公开提供。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

项目页面: https://llava-vl.github.io

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 18 ms
Developed with Cursor