作者: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt
提交/修订日期: 2020年9月7日提交,2021年1月12日修订 (v3)
摘要:
本文提出了一种新的测试方法,用于衡量文本模型的多任务准确性。该测试涵盖了57个任务,包括基础数学、美国历史、计算机科学、法律等。要在该测试中获得高准确率,模型必须具备广泛的世界知识和解决问题的能力。研究发现,尽管大多数近期模型的表现接近随机猜测水平,但最大的GPT-3模型将平均准确率比随机猜测提高了近20个百分点。然而,在这57个任务中的每一个上,最佳模型仍需大幅改进才能达到专家级准确率。模型的性能表现也不均衡,且常常无法意识到自己的错误。更糟的是,在一些社会重要性高的科目(如道德和法律)上,模型的表现仍接近随机水平。通过全面评估模型在学术和专业理解上的广度和深度,本测试可用于分析模型在众多任务上的表现,并识别其重要缺陷。
主题/分类:
- 主要分类: 计算机与社会 (cs.CY)
- 其他分类: 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
备注: ICLR 2021;测试与代码可在 https://github.com/hendrycks/test 获取。