Chinchilla：探索训练计算量最优的大语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

训练计算最优的大型语言模型

标题: Training Compute-Optimal Large Language Models
作者: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
提交日期: 2022年3月29日
主题/分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要/简介

本研究旨在探索在给定计算预算下，训练 Transformer 语言模型的最优模型规模和训练数据量（token 数量）。研究发现，当前的大型语言模型（LLMs）普遍存在训练不足的问题，这主要是由于近期研究过于关注扩大模型规模，而保持训练数据量不变所致。

通过训练超过 400 个语言模型（参数规模从 7000 万到超过 160 亿，训练 token 数量从 50 亿到 5000 亿），作者发现，为了实现计算最优的训练，模型规模和训练 token 数量应该等比例缩放：模型规模每翻一倍，训练 token 数量也应翻一倍。

为了验证这一假设，作者训练了一个预测为计算最优的模型——Chinchilla。该模型使用了与 Gopher 模型相同的计算预算，但采用了 700 亿参数和 4 倍于 Gopher 的训练数据。在广泛的下游评估任务中，Chinchilla 模型在性能上一致且显著地超越了 Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B) 和 Megatron-Turing NLG (530B)。这意味着 Chinchilla 在微调和推理阶段所需的计算量也大幅减少，极大地便利了下游应用。一个突出的亮点是，Chinchilla 在 MMLU 基准测试中达到了 67.5% 的平均准确率，比 Gopher 提高了超过 7%，创造了新的技术水平。

论文地址：https://arxiv.org/abs/2203.15556

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复