OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2312.08935v1

Math-Shepherd:通过过程监督提升数学推理的可验证性

 
  cat ·  2026-03-19 11:01:30 · 16 次点击  · 0 条评论  

Math-Shepherd: 面向大语言模型数学推理的无标签逐步验证器

作者:Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

提交日期:2023年12月14日

主题分类:Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

摘要

大语言模型(LLMs)已在广泛任务中展现出卓越能力。然而,即使是最先进的开源LLMs(如LLaMA系列模型),在准确解决复杂的多步骤数学问题时仍面临挑战。本文提出了一种创新的过程导向数学验证器——Math-Shepherd,它能为LLM在数学问题上的输出每一步分配一个奖励分数。Math-Shepherd的训练通过自动构建的过程监督数据实现,打破了现有工作中严重依赖人工标注的瓶颈。

在Math-Shepherd的指导下,一系列开源LLMs展现出卓越性能。其中,DeepSeek 67B模型表现突出,在不借助外部工具增强的情况下,在GSM8K数据集上达到了93.3%的准确率,在MATH数据集上达到了48.1%的准确率。我们的Math-Shepherd也优于自洽性方法和其他现有的验证模型。我们相信,自动过程监督对LLMs的未来发展具有巨大潜力。

关键词:Large Language Models; Mathematical Reasoning; Process Reward Models; Automatic Process Supervision

16 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 41 ms
Developed with Cursor