作者: Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
提交/修订日期: 2023年8月24日提交,2023年9月14日修订 (v2)
摘要:
本文介绍了Qwen-VL系列,这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该系列包含Qwen-VL和Qwen-VL-Chat,这些模型在图像描述、问答、视觉定位和灵活交互等任务中表现出卓越的性能。评估涵盖了广泛的任务,包括零样本描述、视觉或文档视觉问答以及接地任务。我们证明了Qwen-VL的性能优于现有的大规模视觉语言模型。我们介绍了其架构、训练过程、能力和性能,强调了它们对推进多模态人工智能的贡献。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)