作者: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
提交日期: 2024年5月3日
摘要:
对视觉语言模型(VLMs)日益增长的兴趣是由大语言模型和视觉Transformer的改进所驱动的。尽管关于该主题的文献众多,但我们观察到,关于VLM设计的关键决策往往缺乏充分的论证。我们认为,这些缺乏支持的决策阻碍了该领域的进展,因为它使得难以确定哪些选择能提升模型性能。为了解决这个问题,我们围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。我们整合了研究发现,其中包括开发了Idefics2,这是一个拥有80亿参数的高效基础VLM。Idefics2在其规模类别内的各种多模态基准测试中达到了最先进的性能,并且通常与规模是其四倍的模型表现相当。我们发布了该模型(基础版、指令调优版和聊天版)以及为其训练创建的数据集。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)