OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2311.05437

LLaVA-Plus:将多模态理解与工具使用统一到视觉语言助手中

 
  five ·  2026-03-27 11:01:34 · 12 次点击  · 0 条评论  

LLaVA-Plus: 学习使用工具创建多模态智能体

作者: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li

提交日期: 2023年11月9日

摘要:
LLaVA-Plus 是一个通用的多模态助手,旨在扩展大型多模态模型的能力。它维护了一个由预训练的视觉和视觉-语言模型组成的技能库,并能够根据用户的输入激活相关工具来完成现实世界的任务。LLaVA-Plus 通过在多模态指令遵循数据上进行训练,获得了使用工具的能力,涵盖视觉理解、生成、外部知识检索以及组合任务。实证结果表明,LLaVA-Plus 在现有能力上超越了 LLaVA,并展现出新的能力。其独特之处在于,图像查询在整个人机交互会话中被直接关联并积极参与,这显著提高了工具使用的性能,并实现了新的应用场景。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)
- 多媒体 (cs.MM)

备注: 25页,文件大小25M。项目页面: https://llava-vl.github.io/llava-plus/

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 45 ms
Developed with Cursor