构建视觉语言模型时，什么才是关键？

作者： Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

提交日期： 2024年5月3日

摘要：
对视觉语言模型（VLMs）日益增长的兴趣是由大语言模型和视觉Transformer的改进所驱动的。尽管关于该主题的文献众多，但我们观察到，关于VLM设计的关键决策往往缺乏充分的论证。我们认为，这些缺乏支持的决策阻碍了该领域的进展，因为它使得难以确定哪些选择能提升模型性能。为了解决这个问题，我们围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。我们整合了研究发现，其中包括开发了Idefics2，这是一个拥有80亿参数的高效基础VLM。Idefics2在其规模类别内的各种多模态基准测试中达到了最先进的性能，并且通常与规模是其四倍的模型表现相当。我们发布了该模型（基础版、指令调优版和聊天版）以及为其训练创建的数据集。