作者: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
提交日期: 2023年5月31日
主题/分类: 机器学习 (cs.LG); 人工智能 (cs.AI); 计算与语言 (cs.CL)
摘要:
近年来,大型语言模型在执行复杂多步推理方面的能力有了显著提升。然而,即使是最先进的模型也经常产生逻辑错误。为了训练更可靠的模型,我们可以采用两种监督方式:结果监督(为最终结果提供反馈)或过程监督(为每个中间推理步骤提供反馈)。考虑到训练可靠模型的重要性以及人类反馈的高昂成本,仔细比较这两种方法至关重要。近期研究已开始进行这种比较,但仍存在许多问题。我们进行了自己的研究,发现对于训练模型解决具有挑战性的 MATH 数据集中的问题,过程监督显著优于结果监督。我们的过程监督模型在 MATH 测试集的一个代表性子集上解决了 78% 的问题。此外,我们还表明,主动学习显著提高了过程监督的有效性。为了支持相关研究,我们还发布了 PRM800K,这是一个包含 80 万个步骤级人类反馈标签的完整数据集,用于训练我们最好的奖励模型。