让我们逐步骤验证：基于过程监督的推理增强 (PRM800K)

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Let's Verify Step by Step

作者： Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

提交日期： 2023年5月31日

主题/分类： 机器学习 (cs.LG); 人工智能 (cs.AI); 计算与语言 (cs.CL)

摘要：
近年来，大型语言模型在执行复杂多步推理方面的能力有了显著提升。然而，即使是最先进的模型也经常产生逻辑错误。为了训练更可靠的模型，我们可以采用两种监督方式：结果监督（为最终结果提供反馈）或过程监督（为每个中间推理步骤提供反馈）。考虑到训练可靠模型的重要性以及人类反馈的高昂成本，仔细比较这两种方法至关重要。近期研究已开始进行这种比较，但仍存在许多问题。我们进行了自己的研究，发现对于训练模型解决具有挑战性的 MATH 数据集中的问题，过程监督显著优于结果监督。我们的过程监督模型在 MATH 测试集的一个代表性子集上解决了 78% 的问题。此外，我们还表明，主动学习显著提高了过程监督的有效性。为了支持相关研究，我们还发布了 PRM800K，这是一个包含 80 万个步骤级人类反馈标签的完整数据集，用于训练我们最好的奖励模型。

论文地址：https://arxiv.org/abs/2305.20050

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复