标题: Scaling Laws for Neural Language Models
作者: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
提交日期: 2020年1月23日
摘要:
本文研究了语言模型在交叉熵损失上的经验缩放定律。研究发现,损失值随模型规模、数据集大小以及训练所用计算量呈幂律关系缩放,某些趋势跨越了七个数量级以上。在较宽范围内,网络宽度或深度等其他架构细节的影响微乎其微。简单的方程描述了过拟合与模型/数据集大小的关系,以及训练速度与模型大小的关系。这些关系使我们能够确定固定计算预算的最优分配方案。更大的模型具有显著更高的样本效率,因此计算效率最优的训练方式涉及在相对适度的数据量上训练非常大的模型,并在远未收敛之前就停止训练。
主题/分类:
- 主要: 机器学习 (cs.LG)
- 次要: 机器学习 (stat.ML)
论文信息:
- arXiv标识符: arXiv:2001.08361
- 页数: 19页,15张图