PaLM: Scaling Language Modeling with Pathways

作者: Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel (共67位作者)

摘要: 大语言模型已证明能够通过小样本学习（few-shot learning）在各种自然语言任务上取得卓越性能，这极大地减少了使模型适应特定应用所需的任务特定训练示例数量。为了进一步理解模型规模对小样本学习的影响，我们训练了一个拥有5400亿参数、密集激活的Transformer语言模型，我们称之为Pathways语言模型（PaLM）。我们使用Pathways（一个新的机器学习系统，能够在多个TPU Pod上实现高效训练）在6144个TPU v4芯片上训练了PaLM。我们通过在数百个语言理解和生成基准测试上取得最先进的小样本学习结果，证明了模型规模扩展的持续收益。在许多任务上，PaLM 540B取得了突破性性能，在一系列多步推理任务上超越了经过微调的最先进模型，并在最近发布的BIG-bench基准测试上超过了人类的平均表现。大量BIG-bench任务显示出模型规模带来的非连续性能提升，这意味着随着我们扩展到最大模型，性能急剧上升。PaLM在多语言任务和源代码生成方面也具备强大能力，我们在广泛的基准测试中展示了这一点。此外，我们还提供了关于偏见和毒性的全面分析，并研究了训练数据记忆程度与模型规模的关系。最后，我们讨论了与大语言模型相关的伦理考量以及潜在的缓解策略。

主题/分类: Computation and Language (cs.CL)

提交/修订日期: 提交于2022年4月5日，最后修订于2022年10月5日 (版本 v5)

arXiv标识符: arXiv:2204.02311

论文地址：https://arxiv.org/abs/2204.02311

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

PaLM：通过通路架构扩展语言模型

PaLM: Scaling Language Modeling with Pathways