MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

作者: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang

提交/修订日期: 2024年3月14日提交，2024年4月18日修订 (v4)

摘要:
本文探讨了如何构建高性能的多模态大语言模型 (MLLMs)。研究重点在于分析各种架构组件和数据选择的重要性。通过对图像编码器、视觉-语言连接器以及各种预训练数据选择进行细致全面的消融实验，研究者总结出几个关键的设计经验。例如，研究表明，与已发表的其他预训练结果相比，为了实现跨多个基准测试的先进 (SOTA) 少样本结果，在大规模多模态预训练中，精心混合图像-描述对数据、交错图像-文本数据和纯文本数据至关重要。此外，研究还表明，图像编码器、图像分辨率和图像标记数量具有重大影响，而视觉-语言连接器的设计相对而言重要性较低。通过扩展所提出的方案，研究者构建了 MM1，一个参数规模高达 300 亿的多模态模型家族，包括密集模型和混合专家 (MoE) 变体。这些模型在预训练指标上达到了 SOTA 水平，并在经过一系列成熟的多模态基准测试的监督微调后，取得了有竞争力的性能。得益于大规模预训练，MM1 具备了一些吸引人的特性，例如增强的上下文学习能力和多图像推理能力，从而能够实现少样本的思维链提示。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

论文地址：https://arxiv.org/abs/2403.09611

45 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MM1：大规模多模态模型的训练配方与能力研究

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training