OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2405.02246

IDEFICS 2:面向开放场景视觉语言理解的新一代多模态模型

 
  commit ·  2026-03-13 11:09:05 · 3 次点击  · 0 条评论  

构建视觉语言模型时,什么才是关键?

作者: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

提交日期: 2024年5月3日

摘要:
对视觉语言模型(VLMs)日益增长的兴趣是由大语言模型和视觉Transformer的改进所驱动的。尽管关于该主题的文献众多,但我们观察到,关于VLM设计的关键决策往往缺乏充分的论证。我们认为,这些缺乏支持的决策阻碍了该领域的进展,因为它使得难以确定哪些选择能提升模型性能。为了解决这个问题,我们围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。我们整合了研究发现,其中包括开发了Idefics2,这是一个拥有80亿参数的高效基础VLM。Idefics2在其规模类别内的各种多模态基准测试中达到了最先进的性能,并且通常与规模是其四倍的模型表现相当。我们发布了该模型(基础版、指令调优版和聊天版)以及为其训练创建的数据集。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor