OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2308.12966

Qwen-VL:具备强视觉理解能力的大规模多模态模型

 
  testing ·  2026-03-21 11:01:23 · 2 次点击  · 0 条评论  

Qwen-VL:一个用于理解、定位、文本阅读及更多任务的多功能视觉语言模型

作者:Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

提交/修订日期:2023年8月24日提交,2023年10月13日修订(版本v3)

摘要
本文介绍了Qwen-VL系列,这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该工作以Qwen-LM为基础,通过精心设计的(i)视觉接收器、(ii)输入输出接口、(iii)三阶段训练流程以及(iv)多语言多模态清洗语料库,为其赋予了视觉能力。除了传统的图像描述和问答功能外,Qwen-VL还通过对齐图像-描述-边界框三元组,实现了视觉定位和文本阅读能力。最终得到的模型,包括Qwen-VL和Qwen-VL-Chat,在广泛的以视觉为中心的基准测试(如图像描述、问答、视觉定位)和不同设置(如零样本、少样本)下,为相似模型规模的通才模型创造了新的记录。此外,在真实世界的对话基准测试中,经过指令微调的Qwen-VL-Chat也展现出优于现有视觉语言聊天模型的能力。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。

主题/分类
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor