MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

作者: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang

提交日期: 2024年3月14日

摘要:
本文探讨了如何构建高性能的多模态大语言模型（MLLMs）。研究重点在于分析各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器以及各种预训练数据选择进行细致全面的消融实验，我们总结出几个关键的设计经验。例如，研究表明，与已发表的其他预训练结果相比，在大规模多模态预训练中，精心混合图像-描述对数据、交错图像-文本数据以及纯文本数据，对于在多个基准测试中实现最先进的少样本结果至关重要。此外，研究还表明，图像编码器、图像分辨率和图像标记数量具有重大影响，而视觉语言连接器的设计相对而言重要性较低。通过扩展所提出的方案，我们构建了MM1模型系列，这是一个参数规模高达300亿的多模态模型家族，包含稠密模型和混合专家（MoE）变体。该系列模型在预训练指标上达到了最先进水平，并在经过一系列成熟多模态基准的监督微调后，取得了有竞争力的性能。得益于大规模预训练，MM1具备了一些吸引人的特性，例如增强的上下文学习能力和多图像推理能力，从而能够实现少样本的思维链提示。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

论文地址：https://arxiv.org/abs/2403.09611v1

13 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MM1：大规模多模态预训练模型的设计与训练经验

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training