Qwen-VL: 一个用于理解、定位、文本阅读及更多任务的多功能视觉语言模型

作者： Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

提交/修订日期： 2023年8月24日提交，2023年9月14日修订 (v2)

摘要：
本文介绍了Qwen-VL系列，这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该系列包含Qwen-VL和Qwen-VL-Chat，这些模型在图像描述、问答、视觉定位和灵活交互等任务中表现出卓越的性能。评估涵盖了广泛的任务，包括零样本描述、视觉或文档视觉问答以及接地任务。我们证明了Qwen-VL的性能优于现有的大规模视觉语言模型。我们介绍了其架构、训练过程、能力和性能，强调了它们对推进多模态人工智能的贡献。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。