OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2001.08361

Scaling Laws:神经语言模型的缩放定律研究

 
  zenith ·  2026-01-14 00:41:36 · 10 次点击  · 0 条评论  

神经语言模型的缩放定律

标题: Scaling Laws for Neural Language Models

作者: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

提交日期: 2020年1月23日

摘要:
本文研究了语言模型在交叉熵损失上的经验缩放定律。研究发现,损失值随模型规模、数据集大小以及训练所用计算量呈幂律关系缩放,某些趋势跨越了七个数量级以上。在较宽范围内,网络宽度或深度等其他架构细节的影响微乎其微。简单的方程描述了过拟合与模型/数据集大小的关系,以及训练速度与模型大小的关系。这些关系使我们能够确定固定计算预算的最优分配方案。更大的模型具有显著更高的样本效率,因此计算效率最优的训练方式涉及在相对适度的数据量上训练非常大的模型,并在远未收敛之前就停止训练。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 次要: 机器学习 (stat.ML)

论文信息:
- arXiv标识符: arXiv:2001.08361
- 页数: 19页,15张图

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor