Generative Multimodal Models are In-Context Learners

基本信息

标题: Generative Multimodal Models are In-Context Learners
作者: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
提交日期: 2023年12月20日（v1）；最后修订于2024年5月8日（v2）
分类: Computer Vision and Pattern Recognition (cs.CV)
论文链接: arXiv:2312.13286
接收信息: Accepted to CVPR 2024

摘要

人类能够轻松地在上下文中解决多模态任务（即仅需少量示例或简单指令），而当前的多模态系统在这方面仍难以匹敌。本文证明，通过有效的规模化扩展，大型多模态模型的任务无关上下文学习能力可以得到显著增强。

作者介绍了Emu2，一个拥有370亿参数的生成式多模态模型，在大规模多模态序列上使用统一的自回归目标函数进行训练。Emu2展现出强大的多模态上下文学习能力，甚至能够解决需要即时推理的任务，例如视觉提示和目标驱动生成。该模型在少样本设置下的多个多模态理解任务中创下了新纪录。

经过指令微调以遵循特定指令后，Emu2在具有挑战性的任务上进一步取得了最先进的结果，例如大型多模态模型的问答基准测试和开放式主题驱动生成。这些成就表明，Emu2可作为广泛多模态任务的基础模型和通用接口。代码和模型已公开，以促进未来研究。

项目与代码

项目页面: https://baaivision.github.io/emu2
代码和模型已公开

论文地址：https://arxiv.org/abs/2312.13286

37 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Emu2：统一多模态生成与理解的基础模型

Generative Multimodal Models are In-Context Learners

基本信息

摘要

项目与代码