Math-Shepherd: 面向大语言模型数学推理的无标签逐步验证器

作者：Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

提交日期：2023年12月14日

主题分类：Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

摘要

大语言模型（LLMs）已在广泛任务中展现出卓越能力。然而，即使是最先进的开源LLMs（如LLaMA系列模型），在准确解决复杂的多步骤数学问题时仍面临挑战。本文提出了一种创新的过程导向数学验证器——Math-Shepherd，它能为LLM在数学问题上的输出每一步分配一个奖励分数。Math-Shepherd的训练通过自动构建的过程监督数据实现，打破了现有工作中严重依赖人工标注的瓶颈。

在Math-Shepherd的指导下，一系列开源LLMs展现出卓越性能。其中，DeepSeek 67B模型表现突出，在不借助外部工具增强的情况下，在GSM8K数据集上达到了93.3%的准确率，在MATH数据集上达到了48.1%的准确率。我们的Math-Shepherd也优于自洽性方法和其他现有的验证模型。我们相信，自动过程监督对LLMs的未来发展具有巨大潜力。

关键词：Large Language Models; Mathematical Reasoning; Process Reward Models; Automatic Process Supervision

论文地址：https://arxiv.org/abs/2312.08935v1

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Math-Shepherd：通过过程监督提升数学推理的可验证性

Math-Shepherd: 面向大语言模型数学推理的无标签逐步验证器

摘要