扩展语言模型：训练 Gopher 的方法、分析与洞见

作者: Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d'Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, Geoffrey Irving

提交/修订日期: 2021年12月8日提交，2022年1月21日修订

主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)

摘要:
语言建模通过利用大量书面人类知识库来更好地预测和理解世界，为智能通信系统迈出了一步。本文分析了基于 Transformer 的语言模型在广泛模型规模下的性能——从参数数千万的模型到名为 Gopher 的 2800 亿参数模型。这些模型在 152 个多样化任务上进行了评估，在大多数任务上达到了最先进的性能。规模带来的收益在阅读理解、事实核查和有害语言识别等领域最大，但逻辑和数学推理方面的收益较少。我们对训练数据集和模型行为进行了全面分析，涵盖了模型规模与偏见和毒性的交叉点。最后，我们讨论了语言模型在 AI 安全中的应用以及减轻下游危害的方法。

论文地址：https://arxiv.org/abs/2112.11446

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Gopher：语言模型在 2800 亿参数规模下的表现分析

扩展语言模型：训练 Gopher 的方法、分析与洞见