OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.03744v1

LLaVA-1.5:更强视觉指令跟随能力的多模态助手

 
  become ·  2026-06-09 11:01:23 · 16 次点击  · 0 条评论  

标题:Improved Baselines with Visual Instruction Tuning

作者

  • Haotian Liu
  • Chunyuan Li
  • Yuheng Li
  • Yong Jae Lee

摘要

大型多模态模型(LMM)近来通过视觉指令调优取得了令人鼓舞的进展。本文表明,LLaVA中的全连接视觉-语言跨模态连接器具有出人意料的强大能力和数据效率。通过对LLaVA进行简单的修改,即,使用带有MLP投影的CLIP-ViT-L-336px,并添加带有简单响应格式化提示的面向学术任务的VQA数据,我们建立了更强的基线模型,在11个基准测试中达到了最先进的性能。我们的最终13B检查点仅使用了1.2M的公开可用数据,并在单个8-A100节点上约1天内完成了全部训练。我们希望这能使最先进的LMM研究更具可访问性。代码和模型将公开提供。

主题/分类

  • 主要主题:计算机视觉与模式识别 (cs.CV)
  • 相关主题:人工智能 (cs.AI);计算与语言 (cs.CL);机器学习 (cs.LG)

备注

  • 技术报告,4页。
  • LLaVA项目页面:https://llava-vl.github.io
  • 提交日期:2023年10月5日(v1),最新版本:2024年5月15日(v2)
16 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 18 ms
Developed with Cursor