作者:Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui
提交日期:2023年12月14日
主题分类:Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)
大语言模型(LLMs)已在广泛任务中展现出卓越能力。然而,即使是最先进的开源LLMs(如LLaMA系列模型),在准确解决复杂的多步骤数学问题时仍面临挑战。本文提出了一种创新的过程导向数学验证器——Math-Shepherd,它能为LLM在数学问题上的输出每一步分配一个奖励分数。Math-Shepherd的训练通过自动构建的过程监督数据实现,打破了现有工作中严重依赖人工标注的瓶颈。
在Math-Shepherd的指导下,一系列开源LLMs展现出卓越性能。其中,DeepSeek 67B模型表现突出,在不借助外部工具增强的情况下,在GSM8K数据集上达到了93.3%的准确率,在MATH数据集上达到了48.1%的准确率。我们的Math-Shepherd也优于自洽性方法和其他现有的验证模型。我们相信,自动过程监督对LLMs的未来发展具有巨大潜力。
关键词:Large Language Models; Mathematical Reasoning; Process Reward Models; Automatic Process Supervision