作者: Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui
提交/修订日期: 2023年12月14日提交,2023年12月28日修订(v2)
主题/分类: 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
摘要:
本文提出了一种创新的、面向过程的数学过程奖励模型,名为 Math-Shepherd。该模型能为数学问题解决方案的每一步分配一个奖励分数。Math-Shepherd 的训练是通过自动构建的过程监督数据实现的,打破了现有工作中严重依赖人工标注的瓶颈。我们探索了 Math-Shepherd 在两种场景下的有效性:1) 验证:利用 Math-Shepherd 对大语言模型 (LLMs) 生成的多个输出进行重排序;2) 强化学习:利用 Math-Shepherd 通过逐步近端策略优化 (PPO) 来增强 LLMs。借助 Math-Shepherd,一系列开源 LLMs 展现了卓越的性能。例如,使用 Math-Shepherd 的逐步 PPO 显著提升了 Mistral-7B 的准确率(在 GSM8K 上从 77.9% 提升至 84.1%,在 MATH 上从 28.6% 提升至 33.0%)。通过 Math-Shepherd 的验证,准确率可以进一步提升,在 GSM8K 和 MATH 上分别达到 89.1% 和 43.5%。我们相信,自动过程监督对于 LLMs 的未来发展具有巨大潜力。