OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2312.08935

Math-Shepherd:用过程监督提升数学推理能力

 
  bravo ·  2026-02-17 18:39:34 · 3 次点击  · 0 条评论  

Math-Shepherd: 无需人工标注即可逐步验证与增强大语言模型

作者: Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

提交/修订日期: 2023年12月14日提交,2024年2月19日修订(v3)

主题/分类: 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要:
本文提出了一种创新的过程导向的数学过程奖励模型,称为 Math-Shepherd,该模型为数学问题解决方案的每一步分配一个奖励分数。Math-Shepherd 的训练通过使用自动构建的过程级监督数据实现,打破了现有工作中严重依赖人工标注的瓶颈。我们探索了 Math-Shepherd 在两种场景下的有效性:1) 验证:利用 Math-Shepherd 对大语言模型(LLMs)生成的多个输出进行重排序;2) 强化学习:利用 Math-Shepherd 通过逐步近端策略优化(PPO)来增强大语言模型。借助 Math-Shepherd,一系列开源大语言模型展现了卓越的性能。例如,使用 Math-Shepherd 的逐步 PPO 显著提升了 Mistral-7B 的准确率(在 GSM8K 上从 77.9% 提升至 84.1%,在 MATH 上从 28.6% 提升至 33.0%)。通过 Math-Shepherd 的验证,准确率可以进一步提升,在 GSM8K 和 MATH 上分别达到 89.1% 和 43.5%。我们相信,自动过程监督对大语言模型的未来发展具有巨大潜力。

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 29 ms
Developed with Cursor