OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.20050

让我们逐步骤验证:基于过程监督的推理增强 (PRM800K)

 
  banner ·  2025-12-21 14:39:12 · 9 次点击  · 0 条评论  

Let's Verify Step by Step

作者: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

提交日期: 2023年5月31日

主题/分类: 机器学习 (cs.LG); 人工智能 (cs.AI); 计算与语言 (cs.CL)

摘要:
近年来,大型语言模型在执行复杂多步推理方面的能力有了显著提升。然而,即使是最先进的模型也经常产生逻辑错误。为了训练更可靠的模型,我们可以采用两种监督方式:结果监督(为最终结果提供反馈)或过程监督(为每个中间推理步骤提供反馈)。考虑到训练可靠模型的重要性以及人类反馈的高昂成本,仔细比较这两种方法至关重要。近期研究已开始进行这种比较,但仍存在许多问题。我们进行了自己的研究,发现对于训练模型解决具有挑战性的 MATH 数据集中的问题,过程监督显著优于结果监督。我们的过程监督模型在 MATH 测试集的一个代表性子集上解决了 78% 的问题。此外,我们还表明,主动学习显著提高了过程监督的有效性。为了支持相关研究,我们还发布了 PRM800K,这是一个包含 80 万个步骤级人类反馈标签的完整数据集,用于训练我们最好的奖励模型。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor