InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

基本信息

论文标题： InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition（InternLM-XComposer：面向高级图文理解与合成的视觉语言大模型）
作者： Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Haodong Duan, Songyang Zhang, Shuangrui Ding, Wenwei Zhang, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
提交日期： 2023年9月26日（v1），最后修订日期：2023年12月14日（v5）
主题分类： Computer Vision and Pattern Recognition (cs.CV)
代码与模型： https://github.com/InternLM/InternLM-XComposer

本文提出了 InternLM-XComposer，一种能够实现高级图文理解与合成的视觉语言大模型。该模型的创新性体现在以下三个吸引人的特性上：

交错文本-图像合成： InternLM-XComposer 可以轻松生成连贯且具有上下文关联的文章，并能够无缝地将图像整合其中，提供更具吸引力和沉浸感的阅读体验。只需提供一个写作指令，系统即可生成相应的稿件。它能够智能地识别文本中需要插入图像的位置，并自动插入最合适的视觉候选。
丰富的多语言知识理解： 通过对大规模多模态多语言数据库进行训练，并采用精心设计的策略，该模型增强了对视觉内容的深层理解。
最先进的性能： 该模型在 MME Benchmark、MMBench、MMBench-CN、Seed-Bench、CCBench（中国文化基准）、QBench 和 Tiny LVLM 等多个主流视觉语言基础模型基准测试中，始终达到最先进的结果。

针对目前缺乏用于定量评估图文合成效果的既定指标，作者设计了一套稳健的评估流程，结合了人工评估和 GPT4-Vision（GPT4-V）以确保可靠性。值得注意的是，InternLM-XComposer 在图文合成评分上达到了与 GPT4-V 和 GPT3.5 等公开方案相当的水平。

总之，InternLM-XComposer 无缝融合了高级图文理解与合成能力，革新了视觉语言交互，并提供了新的见解和机遇。

论文地址：https://arxiv.org/abs/2309.15112

19 次点击 ∙ 0 人收藏

登录后收藏

0 条回复