GPT-3：基于大规模参数的少样本学习语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

标题: Language Models are Few-Shot Learners

作者: Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei

摘要:
近期研究表明，在大规模文本语料库上进行预训练，然后在特定任务上进行微调，可以在许多自然语言处理（NLP）任务和基准测试上取得显著提升。虽然这种方法在架构上通常是任务无关的，但仍需要包含数千或数万个样本的任务特定微调数据集。相比之下，人类通常只需几个示例或简单的指令就能执行新的语言任务——这是当前NLP系统在很大程度上仍然难以做到的。本文表明，扩大语言模型的规模极大地改善了任务无关的小样本性能，有时甚至达到了与先前最先进的微调方法相竞争的水平。具体来说，我们训练了GPT-3，这是一个拥有1750亿参数的自回归语言模型，其参数量是之前任何非稀疏语言模型的10倍，并在小样本设置下测试其性能。对于所有任务，GPT-3的应用都不进行任何梯度更新或微调，任务和小样本演示完全通过与模型的文本交互来指定。GPT-3在许多NLP数据集上取得了强大的性能，包括翻译、问答和完形填空任务，以及一些需要即时推理或领域适应的任务，例如解构单词、在句子中使用新词或执行三位数算术。同时，我们也发现了一些GPT-3的小样本学习仍然存在困难的数据集，以及一些GPT-3因在大型网络语料库上训练而面临方法论问题的数据集。最后，我们发现GPT-3可以生成新闻文章样本，人类评估者难以将其与人类撰写的文章区分开来。我们讨论了这一发现以及GPT-3更广泛的社会影响。

主题/分类: 计算与语言 (cs.CL)

提交/修订日期: 2020年5月28日提交，2020年7月22日最后修订 (版本 v4)

论文地址：https://arxiv.org/abs/2005.14165

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复