OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2312.13286

Emu2:统一多模态生成与理解的基础模型

 
  firefly ·  2026-05-24 11:01:24 · 8 次点击  · 0 条评论  

Generative Multimodal Models are In-Context Learners

基本信息

  • 标题: Generative Multimodal Models are In-Context Learners
  • 作者: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
  • 提交日期: 2023年12月20日(v1);最后修订于2024年5月8日(v2)
  • 分类: Computer Vision and Pattern Recognition (cs.CV)
  • 论文链接: arXiv:2312.13286
  • 接收信息: Accepted to CVPR 2024

摘要

人类能够轻松地在上下文中解决多模态任务(即仅需少量示例或简单指令),而当前的多模态系统在这方面仍难以匹敌。本文证明,通过有效的规模化扩展,大型多模态模型的任务无关上下文学习能力可以得到显著增强。

作者介绍了Emu2,一个拥有370亿参数的生成式多模态模型,在大规模多模态序列上使用统一的自回归目标函数进行训练。Emu2展现出强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,例如视觉提示目标驱动生成。该模型在少样本设置下的多个多模态理解任务中创下了新纪录。

经过指令微调以遵循特定指令后,Emu2在具有挑战性的任务上进一步取得了最先进的结果,例如大型多模态模型的问答基准测试开放式主题驱动生成。这些成就表明,Emu2可作为广泛多模态任务的基础模型通用接口。代码和模型已公开,以促进未来研究。

项目与代码

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor