OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2110.14168

GSM8K:训练语言模型解决多步数学应用题

 
  rocket ·  2026-01-29 06:45:54 · 9 次点击  · 0 条评论  

训练验证器以解决数学应用题

作者: Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

提交/修订日期: 2021年10月27日提交,2021年11月18日修订 (v2)

摘要:
最先进的语言模型在许多任务上可以匹敌人类的表现,但它们仍然难以稳健地进行多步数学推理。为了诊断当前模型的失败原因并支持相关研究,我们引入了GSM8K数据集,这是一个包含8.5K个高质量、语言多样的小学数学应用题的数据集。我们发现,即使最大的Transformer模型也无法在此概念简单的问题分布上取得较高的测试性能。为了提高性能,我们提出训练验证器来判断模型生成答案的正确性。在测试时,我们生成多个候选答案,并选择验证器评分最高的那个。我们证明,验证方法显著提高了在GSM8K数据集上的性能,并且我们提供了强有力的经验证据,表明验证方法比微调基线能更有效地随数据量的增加而扩展。

主题/分类:
- 主要:机器学习 (cs.LG)
- 交叉:计算与语言 (cs.CL)

arXiv标识符: arXiv:2110.14168

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor