OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2304.08485v1

Visual Instruction Tuning:将语言模型扩展到视觉指令跟随场景

 
  fossil ·  2026-05-27 11:01:26 · 1 次点击  · 0 条评论  

Visual Instruction Tuning

作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

提交日期: 2023 年 4 月 17 日(v1)

摘要

利用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令微调,已提升了模型在新任务上的零样本能力,但这一思想在多模态领域尚未得到充分探索。本文首次尝试使用仅基于语言的 GPT-4 来生成多模态语言-图像指令跟随数据。通过对这些生成数据进行指令微调,我们提出了 LLaVA(Large Language and Vision Assistant)——一个端到端训练的大型多模态模型,它将视觉编码器与 LLM 连接起来,用于通用的视觉与语言理解。

早期实验表明,LLaVA 展现出了令人印象深刻的多模态对话能力,有时在未见过的图像/指令上表现出多模态 GPT-4 的行为,并在合成多模态指令跟随数据集上取得了 GPT-4 相对得分的 85.1%。当在 Science QA 上微调时,LLaVA 与 GPT-4 的协同作用达到了 92.53% 的最新准确率。作者公开提供了 GPT-4 生成的视觉指令微调数据、模型和代码。

主题/分类

  • 主要分类: 计算机视觉与模式识别(cs.CV)
  • 其他分类: 人工智能(cs.AI)、计算与语言(cs.CL)、机器学习(cs.LG)

其他信息

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor