Scaling Laws：神经语言模型的缩放定律研究

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

神经语言模型的缩放定律

标题: Scaling Laws for Neural Language Models

作者: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

提交日期: 2020年1月23日

摘要:
本文研究了语言模型在交叉熵损失上的经验缩放定律。研究发现，损失值随模型规模、数据集大小以及训练所用计算量呈幂律关系缩放，某些趋势跨越了七个数量级以上。在较宽范围内，网络宽度或深度等其他架构细节的影响微乎其微。简单的方程描述了过拟合与模型/数据集大小的关系，以及训练速度与模型大小的关系。这些关系使我们能够确定固定计算预算的最优分配方案。更大的模型具有显著更高的样本效率，因此计算效率最优的训练方式涉及在相对适度的数据量上训练非常大的模型，并在远未收敛之前就停止训练。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 次要: 机器学习 (stat.ML)

论文信息:
- arXiv标识符: arXiv:2001.08361
- 页数: 19页，15张图

论文地址：https://arxiv.org/abs/2001.08361

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复