InternLM-XComposer2: 在视觉语言大模型中掌握自由形式的图文组合与理解

作者： Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang

提交日期： 2024年1月29日

摘要：
本文介绍了InternLM-XComposer2，一个在自由形式图文组合与理解方面表现卓越的先进视觉语言模型。该模型超越了传统的视觉语言理解能力，能够熟练地根据大纲、详细的文本描述和参考图像等多种输入，创作出图文交织的内容，从而实现高度可定制的内容创作。InternLM-XComposer2提出了一种部分LoRA（PLoRA）方法，该方法将额外的LoRA参数仅应用于图像标记，以保持预训练语言知识的完整性，从而在精确的视觉理解与富有文采的文本创作之间取得平衡。实验结果表明，基于InternLM2-7B的InternLM-XComposer2在生成高质量的长文本多模态内容方面具有优越性，并在各种基准测试中展现出卓越的视觉语言理解性能。它不仅显著优于现有的多模态模型，而且在某些评估中与GPT-4V和Gemini Pro相当甚至超越。这突显了其在多模态理解领域的卓越能力。拥有70亿参数的InternLM-XComposer2模型系列已在 https://github.com/InternLM/InternLM-XComposer 公开提供。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)

代码与模型：
代码和模型可在 https://github.com/InternLM/InternLM-XComposer 获取。

论文地址：https://arxiv.org/abs/2401.16420

53 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

InternLM-XComposer2：长上下文与图文写作能力增强的多模态模型

InternLM-XComposer2: 在视觉语言大模型中掌握自由形式的图文组合与理解