作者: Duzhen Zhang, Yahan Yu, Jiahua Dong, Chenxing Li, Dan Su, Chenhui Chu, Dong Yu
提交/修订日期: 2024年1月24日提交,2024年5月28日修订 (v5)
主题/分类: 计算机科学 > 计算与语言 (cs.CL)
状态: 已被 ACL 2024 (findings) 接收
摘要:
在过去的一年中,多模态大语言模型 (MM-LLMs) 取得了实质性进展。它们通过高效的训练策略,增强了现成的 LLMs,使其能够支持多模态输入或输出。由此产生的模型不仅保留了 LLMs 固有的推理和决策能力,还赋能了广泛的多模态任务。本文提供了一份全面的综述,旨在促进 MM-LLMs 的进一步研究。首先,我们概述了模型架构和训练流程的通用设计范式。随后,我们引入了一个涵盖 126 个 MM-LLMs 的分类法,每个模型都有其特定的设计范式。此外,我们回顾了选定 MM-LLMs 在主流基准测试上的性能,并总结了增强 MM-LLMs 效能的关键训练方案。最后,我们探讨了 MM-LLMs 有前景的研究方向,同时为该领域的最新进展维护了一个实时追踪网站。我们希望本综述能为 MM-LLMs 领域的持续发展做出贡献。