作者: Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang
提交/修订日期: 2023年11月6日提交,2024年2月4日修订 (v2)
主题/分类: Computer Vision and Pattern Recognition (cs.CV)
摘要:
本文介绍了 CogVLM,一个强大的开源视觉语言基础模型。与流行的浅层对齐方法(将图像特征映射到语言模型的输入空间)不同,CogVLM 通过在注意力层和前馈网络层中引入可训练的视觉专家模块,弥合了冻结的预训练语言模型与图像编码器之间的鸿沟。因此,CogVLM 能够实现视觉语言特征的深度融合,同时不牺牲任何 NLP 任务的性能。CogVLM-17B 在 10 个经典跨模态基准测试中取得了最先进的性能,包括 NoCaps、Flicker30k 字幕生成、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,并在 VQAv2、OKVQA、TextVQA、COCO 字幕生成等任务中排名第二,其性能达到或超越了 PaLI-X 55B。代码和模型权重可在 https://github.com/THUDM/CogVLM 获取。