Math-Shepherd: 无需人工标注即可逐步验证与增强大语言模型

作者： Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

提交/修订日期： 2023年12月14日提交，2024年2月19日修订（v3）

主题/分类： 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要：
本文提出了一种创新的过程导向的数学过程奖励模型，称为 Math-Shepherd，该模型为数学问题解决方案的每一步分配一个奖励分数。Math-Shepherd 的训练通过使用自动构建的过程级监督数据实现，打破了现有工作中严重依赖人工标注的瓶颈。我们探索了 Math-Shepherd 在两种场景下的有效性：1) 验证：利用 Math-Shepherd 对大语言模型（LLMs）生成的多个输出进行重排序；2) 强化学习：利用 Math-Shepherd 通过逐步近端策略优化（PPO）来增强大语言模型。借助 Math-Shepherd，一系列开源大语言模型展现了卓越的性能。例如，使用 Math-Shepherd 的逐步 PPO 显著提升了 Mistral-7B 的准确率（在 GSM8K 上从 77.9% 提升至 84.1%，在 MATH 上从 28.6% 提升至 33.0%）。通过 Math-Shepherd 的验证，准确率可以进一步提升，在 GSM8K 和 MATH 上分别达到 89.1% 和 43.5%。我们相信，自动过程监督对大语言模型的未来发展具有巨大潜力。

论文地址：https://arxiv.org/abs/2312.08935

44 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Math-Shepherd：用过程监督提升数学推理能力

Math-Shepherd: 无需人工标注即可逐步验证与增强大语言模型