作者:Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
提交/修订日期:2023年8月24日提交,2023年10月13日修订(版本v3)
摘要:
本文介绍了Qwen-VL系列,这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该工作以Qwen-LM为基础,通过精心设计的(i)视觉接收器、(ii)输入输出接口、(iii)三阶段训练流程以及(iv)多语言多模态清洗语料库,为其赋予了视觉能力。除了传统的图像描述和问答功能外,Qwen-VL还通过对齐图像-描述-边界框三元组,实现了视觉定位和文本阅读能力。最终得到的模型,包括Qwen-VL和Qwen-VL-Chat,在广泛的以视觉为中心的基准测试(如图像描述、问答、视觉定位)和不同设置(如零样本、少样本)下,为相似模型规模的通才模型创造了新的记录。此外,在真实世界的对话基准测试中,经过指令微调的Qwen-VL-Chat也展现出优于现有视觉语言聊天模型的能力。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)