Generative Multimodal Models are In-Context Learners
基本信息
- 标题: Generative Multimodal Models are In-Context Learners
- 作者: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
- 提交日期: 2023年12月20日(v1);最后修订于2024年5月8日(v2)
- 分类: Computer Vision and Pattern Recognition (cs.CV)
- 论文链接: arXiv:2312.13286
- 接收信息: Accepted to CVPR 2024
摘要
人类能够轻松地在上下文中解决多模态任务(即仅需少量示例或简单指令),而当前的多模态系统在这方面仍难以匹敌。本文证明,通过有效的规模化扩展,大型多模态模型的任务无关上下文学习能力可以得到显著增强。
作者介绍了Emu2,一个拥有370亿参数的生成式多模态模型,在大规模多模态序列上使用统一的自回归目标函数进行训练。Emu2展现出强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,例如视觉提示和目标驱动生成。该模型在少样本设置下的多个多模态理解任务中创下了新纪录。
经过指令微调以遵循特定指令后,Emu2在具有挑战性的任务上进一步取得了最先进的结果,例如大型多模态模型的问答基准测试和开放式主题驱动生成。这些成就表明,Emu2可作为广泛多模态任务的基础模型和通用接口。代码和模型已公开,以促进未来研究。
项目与代码