OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2009.03300

MMLU:大规模多任务语言理解基准测试

 
  arrowx ·  2026-01-28 13:10:54 · 10 次点击  · 0 条评论  

Measuring Massive Multitask Language Understanding

作者: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt

提交/修订日期: 2020年9月7日提交,2021年1月12日修订 (v3)

摘要:
本文提出了一种新的测试方法,用于衡量文本模型的多任务准确性。该测试涵盖了57个任务,包括基础数学、美国历史、计算机科学、法律等。要在该测试中获得高准确率,模型必须具备广泛的世界知识和解决问题的能力。研究发现,尽管大多数近期模型的表现接近随机猜测水平,但最大的GPT-3模型将平均准确率比随机猜测提高了近20个百分点。然而,在这57个任务中的每一个上,最佳模型仍需大幅改进才能达到专家级准确率。模型的性能表现也不均衡,且常常无法意识到自己的错误。更糟的是,在一些社会重要性高的科目(如道德和法律)上,模型的表现仍接近随机水平。通过全面评估模型在学术和专业理解上的广度和深度,本测试可用于分析模型在众多任务上的表现,并识别其重要缺陷。

主题/分类:
- 主要分类: 计算机与社会 (cs.CY)
- 其他分类: 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

备注: ICLR 2021;测试与代码可在 https://github.com/hendrycks/test 获取。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 22 ms
Developed with Cursor