训练验证器以解决数学应用题

作者： Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

提交/修订日期： 2021年10月27日提交，2021年11月18日修订 (v2)

摘要：
最先进的语言模型在许多任务上可以匹敌人类的表现，但它们仍然难以稳健地进行多步数学推理。为了诊断当前模型的失败原因并支持相关研究，我们引入了GSM8K数据集，这是一个包含8.5K个高质量、语言多样的小学数学应用题的数据集。我们发现，即使最大的Transformer模型也无法在此概念简单的问题分布上取得较高的测试性能。为了提高性能，我们提出训练验证器来判断模型生成答案的正确性。在测试时，我们生成多个候选答案，并选择验证器评分最高的那个。我们证明，验证方法显著提高了在GSM8K数据集上的性能，并且我们提供了强有力的经验证据，表明验证方法比微调基线能更有效地随数据量的增加而扩展。

主题/分类：
- 主要：机器学习 (cs.LG)
- 交叉：计算与语言 (cs.CL)

arXiv标识符： arXiv:2110.14168

论文地址：https://arxiv.org/abs/2110.14168

52 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

GSM8K：训练语言模型解决多步数学应用题

训练验证器以解决数学应用题