Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

作者： Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

提交/修订日期： 2023年12月14日提交，2023年12月28日修订（v2）

主题/分类： 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要：
本文提出了一种创新的、面向过程的数学过程奖励模型，名为 Math-Shepherd。该模型能为数学问题解决方案的每一步分配一个奖励分数。Math-Shepherd 的训练是通过自动构建的过程监督数据实现的，打破了现有工作中严重依赖人工标注的瓶颈。我们探索了 Math-Shepherd 在两种场景下的有效性：1) 验证：利用 Math-Shepherd 对大语言模型 (LLMs) 生成的多个输出进行重排序；2) 强化学习：利用 Math-Shepherd 通过逐步近端策略优化 (PPO) 来增强 LLMs。借助 Math-Shepherd，一系列开源 LLMs 展现了卓越的性能。例如，使用 Math-Shepherd 的逐步 PPO 显著提升了 Mistral-7B 的准确率（在 GSM8K 上从 77.9% 提升至 84.1%，在 MATH 上从 28.6% 提升至 33.0%）。通过 Math-Shepherd 的验证，准确率可以进一步提升，在 GSM8K 和 MATH 上分别达到 89.1% 和 43.5%。我们相信，自动过程监督对于 LLMs 的未来发展具有巨大潜力。

论文地址：https://arxiv.org/abs/2312.08935v2

22 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Math-Shepherd：面向过程监督的数学推理数据集与方法

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations