作者: Dan Zhang, Sining Zhoubian, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang
提交/修订日期: 2024年6月6日提交,2024年11月18日修订 (v3)
主题/分类: 计算与语言 (cs.CL)
状态: 已被 NeurIPS 2024 接收
摘要:
当前的大语言模型(LLM)自训练方法大多依赖于让LLM生成回复,然后筛选出具有正确答案的回复作为训练数据。这种方法通常会产生低质量的微调训练集(例如,包含错误的计划或中间推理步骤)。本文提出了一种强化自训练方法,名为 ReST-MCTS,该方法将过程奖励引导与树搜索 MCTS 相结合,以收集更高质量的推理轨迹以及每一步的价值,用于训练策略模型和奖励模型。
ReST-MCTS 通过基于树搜索的强化学习,绕过了通常用于训练过程奖励的逐步骤人工标注:在给定最终正确答案(oracle)的情况下,ReST-MCTS 能够通过估计当前步骤有助于导向正确答案的概率来推断出正确的过程奖励。这些推断出的奖励具有双重作用:它们可以作为进一步优化过程奖励模型的价值目标,同时也有助于为策略模型自训练选择高质量的轨迹。
我们首先展示了在相同的搜索预算下,ReST-MCTS* 中的树搜索策略相较于先前的LLM推理基线(如 Best-of-N 和 Tree-of-Thought)实现了更高的准确率。然后我们证明,通过使用该树搜索策略搜索到的轨迹作为训练数据,我们可以持续迭代增强三个语言模型,并超越其他自训练算法,如 ReST$^\text{EM}$ 和 Self-Rewarding LM。
代码: 所有代码发布于 https://github.com/THUDM/ReST-MCTS