MM-LLMs: Recent Advances in MultiModal Large Language Models

作者： Duzhen Zhang, Yahan Yu, Jiahua Dong, Chenxing Li, Dan Su, Chenhui Chu, Dong Yu

提交/修订日期： 2024年1月24日提交，2024年5月28日修订 (v5)

主题/分类： 计算机科学 > 计算与语言 (cs.CL)

状态： 已被 ACL 2024 (findings) 接收

摘要：
在过去的一年中，多模态大语言模型 (MM-LLMs) 取得了实质性进展。它们通过高效的训练策略，增强了现成的 LLMs，使其能够支持多模态输入或输出。由此产生的模型不仅保留了 LLMs 固有的推理和决策能力，还赋能了广泛的多模态任务。本文提供了一份全面的综述，旨在促进 MM-LLMs 的进一步研究。首先，我们概述了模型架构和训练流程的通用设计范式。随后，我们引入了一个涵盖 126 个 MM-LLMs 的分类法，每个模型都有其特定的设计范式。此外，我们回顾了选定 MM-LLMs 在主流基准测试上的性能，并总结了增强 MM-LLMs 效能的关键训练方案。最后，我们探讨了 MM-LLMs 有前景的研究方向，同时为该领域的最新进展维护了一个实时追踪网站。我们希望本综述能为 MM-LLMs 领域的持续发展做出贡献。

论文地址：https://arxiv.org/abs/2401.13601

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

OpenDevin：面向通用软件开发任务的开源 AI Agent 框架

MM-LLMs: Recent Advances in MultiModal Large Language Models