Measuring Massive Multitask Language Understanding

作者： Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt

提交/修订日期： 2020年9月7日提交，2021年1月12日修订 (v3)

摘要：
本文提出了一种新的测试方法，用于衡量文本模型的多任务准确性。该测试涵盖了57个任务，包括基础数学、美国历史、计算机科学、法律等。要在该测试中获得高准确率，模型必须具备广泛的世界知识和解决问题的能力。研究发现，尽管大多数近期模型的表现接近随机猜测水平，但最大的GPT-3模型将平均准确率比随机猜测提高了近20个百分点。然而，在这57个任务中的每一个上，最佳模型仍需大幅改进才能达到专家级准确率。模型的性能表现也不均衡，且常常无法意识到自己的错误。更糟的是，在一些社会重要性高的科目（如道德和法律）上，模型的表现仍接近随机水平。通过全面评估模型在学术和专业理解上的广度和深度，本测试可用于分析模型在众多任务上的表现，并识别其重要缺陷。

主题/分类：
- 主要分类： 计算机与社会 (cs.CY)
- 其他分类： 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

备注： ICLR 2021；测试与代码可在 https://github.com/hendrycks/test 获取。

论文地址：https://arxiv.org/abs/2009.03300

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MMLU：大规模多任务语言理解基准测试

Measuring Massive Multitask Language Understanding