作者: Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
提交/修订日期: 2023年11月27日提交,2024年6月13日修订 (v4)
摘要:
本文介绍了 MMMU,这是一个旨在评估多模态模型在需要大学学科知识和深思熟虑推理的大规模多学科任务上的新基准。MMMU 包含了从大学考试、测验和教科书中精心收集的 11.5K 个多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题横跨 30 个学科和 183 个子领域,包含 30 种高度异构的图像类型,例如图表、示意图、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 侧重于结合领域特定知识的高级感知和推理,挑战模型执行类似于专家所面临的任务。对 14 个开源 LMM 以及专有的 GPT-4V(ision) 和 Gemini 的评估突显了 MMMU 带来的巨大挑战。即使是先进的 GPT-4V 和 Gemini Ultra 也仅分别达到 56% 和 59% 的准确率,表明仍有巨大的改进空间。我们相信 MMMU 将激励社区构建面向专家级通用人工智能的下一代多模态基础模型。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 计算机视觉与模式识别 (cs.CV)
备注: CVPR 2024 Oral