InternVL: 扩展视觉基础模型并针对通用视觉-语言任务进行对齐

作者: Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai

提交日期: 2023年12月21日 (最后修订于2024年1月15日)

主题: 计算机视觉与模式识别 (cs.CV)

摘要

大型语言模型（LLMs）的指数级增长为多模态通用人工智能（AGI）系统开辟了众多可能性。然而，作为多模态AGI关键组成部分的视觉和视觉-语言基础模型的进展尚未跟上LLMs的步伐。在这项工作中，我们设计了一个大规模视觉-语言基础模型（InternVL），将视觉基础模型扩展到60亿参数，并利用来自不同来源的网络规模图文数据，逐步将其与LLM对齐。该模型可广泛应用于32个通用视觉-语言基准测试，并在这些任务上取得了最先进的性能，包括图像级或像素级识别等视觉感知任务，零样本图像/视频分类、零样本图像/视频-文本检索等视觉-语言任务，以及与LLMs连接以创建多模态对话系统。它具有强大的视觉能力，可以作为ViT-22B的良好替代品。我们希望我们的研究能为多模态大模型的发展做出贡献。代码和模型可在 https://github.com/OpenGVLab/InternVL 获取。

论文信息: 25页，5张图，28个表格

论文地址：https://arxiv.org/abs/2312.14238

22 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

InternVL：提升多模态大模型跨模态感知与对话能力

InternVL: 扩展视觉基础模型并针对通用视觉-语言任务进行对齐

摘要