作者: Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
提交/修订日期: 2023年10月3日提交,2024年1月21日修订 (v3)
主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
摘要:
大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 在许多任务和领域中展现出令人印象深刻的问题解决能力,但它们在视觉上下文中的数学推理能力尚未得到系统研究。为了弥补这一差距,我们提出了 MathVista,这是一个旨在结合来自多样化数学和视觉任务挑战的基准。它包含 6,141 个示例,源自 28 个现有的涉及数学的多模态数据集和 3 个新创建的数据集(即 IQTest、FunctionQA 和 PaperQA)。完成这些任务需要细粒度、深度的视觉理解和组合推理,这是所有最先进的基础模型都面临的挑战。
利用 MathVista,我们对 12 个知名的基础模型进行了全面的定量评估。表现最佳的 GPT-4V 模型实现了 49.9% 的总体准确率,显著优于第二名 Bard 模型 15.1%。我们的深入分析表明,GPT-4V 的优越性主要归因于其增强的视觉感知和数学推理能力。然而,GPT-4V 仍比人类表现低 10.4%,因为它经常难以理解复杂的图形并进行严格的推理。这一显著差距凸显了 MathVista 在开发能够处理数学密集型和视觉丰富的现实世界任务的通用人工智能代理中将发挥的关键作用。我们进一步探索了自我验证的新能力、自洽性的应用以及 GPT-4V 的交互式聊天机器人能力,突出了其未来研究的潜力。
项目地址: https://mathvista.github.io/
备注: 116 页,120 张图。已被 ICLR 2024 接收。