OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2308.12966v2

Qwen-VL:具备多语言理解能力的通用视觉语言模型

 
  above ·  2026-03-22 11:01:26 · 2 次点击  · 0 条评论  

Qwen-VL: 一个用于理解、定位、文本阅读及更多任务的多功能视觉语言模型

作者: Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

提交/修订日期: 2023年8月24日提交,2023年9月14日修订 (v2)

摘要:
本文介绍了Qwen-VL系列,这是一组旨在感知和理解文本与图像的大规模视觉语言模型。该系列包含Qwen-VL和Qwen-VL-Chat,这些模型在图像描述、问答、视觉定位和灵活交互等任务中表现出卓越的性能。评估涵盖了广泛的任务,包括零样本描述、视觉或文档视觉问答以及接地任务。我们证明了Qwen-VL的性能优于现有的大规模视觉语言模型。我们介绍了其架构、训练过程、能力和性能,强调了它们对推进多模态人工智能的贡献。代码、演示和模型可在 https://github.com/QwenLM/Qwen-VL 获取。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 17 ms
Developed with Cursor