Qwen-VL：一个用于理解、定位、文本阅读及更多任务的多功能视觉语言模型

作者：Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

提交/修订日期：2023年8月24日提交，2023年10月13日修订（版本v3）

摘要：
本文介绍了Qwen-VL系列，这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该工作以Qwen-LM为基础，通过精心设计的（i）视觉接收器、（ii）输入输出接口、（iii）三阶段训练流程以及（iv）多语言多模态清洗语料库，为其赋予了视觉能力。除了传统的图像描述和问答功能外，Qwen-VL还通过对齐图像-描述-边界框三元组，实现了视觉定位和文本阅读能力。最终得到的模型，包括Qwen-VL和Qwen-VL-Chat，在广泛的以视觉为中心的基准测试（如图像描述、问答、视觉定位）和不同设置（如零样本、少样本）下，为相似模型规模的通才模型创造了新的记录。此外，在真实世界的对话基准测试中，经过指令微调的Qwen-VL-Chat也展现出优于现有视觉语言聊天模型的能力。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)

论文地址：https://arxiv.org/abs/2308.12966

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Qwen-VL：具备强视觉理解能力的大规模多模态模型

Qwen-VL：一个用于理解、定位、文本阅读及更多任务的多功能视觉语言模型