作者: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
提交日期: 2023年7月30日 (v1),2023年8月2日修订 (v2)
主题分类: 计算与语言 (cs.CL);计算机视觉与模式识别 (cs.CV)
摘要:
基于强大的大语言模型(LLMs),近期生成式多模态大语言模型(MLLMs)已成为一个关键研究领域,在理解和生成方面都展现出卓越的能力。在本工作中,我们通过引入一个名为 SEED-Bench 的基准,来解决对 MLLMs 生成式理解的评估问题,这是迈向全面评估生成模型的第一步。SEED-Bench 包含 19,000 道带有人工精确标注的多项选择题(规模是现有基准的 6 倍),涵盖 12 个评估维度,包括对图像和视频模态的理解。我们开发了一个先进的流水线来生成针对特定评估维度的多项选择题,集成了自动过滤和人工验证流程。通过人工标注获得标准答案选项的多项选择题,能够客观、高效地评估模型性能,无需在评估过程中进行人工或 GPT 干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能,涵盖了空间和时间理解。通过评估结果揭示现有 MLLMs 的局限性,我们希望 SEED-Bench 能为激励未来研究提供见解。我们将启动并持续维护一个排行榜,为社区提供一个评估和调查模型能力的平台。
备注: 技术报告;项目发布于:https://github.com/AILab-CVC/SEED-Bench