作者: Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
提交/修订日期: 2021年10月27日提交,2021年11月18日修订 (v2)
摘要:
最先进的语言模型在许多任务上可以匹敌人类的表现,但它们仍然难以稳健地进行多步数学推理。为了诊断当前模型的失败原因并支持相关研究,我们引入了GSM8K数据集,这是一个包含8.5K个高质量、语言多样的小学数学应用题的数据集。我们发现,即使最大的Transformer模型也无法在此概念简单的问题分布上取得较高的测试性能。为了提高性能,我们提出训练验证器来判断模型生成答案的正确性。在测试时,我们生成多个候选答案,并选择验证器评分最高的那个。我们证明,验证方法显著提高了在GSM8K数据集上的性能,并且我们提供了强有力的经验证据,表明验证方法比微调基线能更有效地随数据量的增加而扩展。
主题/分类:
- 主要:机器学习 (cs.LG)
- 交叉:计算与语言 (cs.CL)
arXiv标识符: arXiv:2110.14168