语言模型即规划者：基于蒙特卡洛树搜索的推理增强 (RAP)

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

论文介绍：Reasoning with Language Model is Planning with World Model

标题：Reasoning with Language Model is Planning with World Model

作者：Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu

提交/修订日期：2023年5月24日提交，2023年10月23日修订 (v2)

主题/分类：计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG)

摘要/简介：
大型语言模型 (LLMs) 在生成中间推理步骤（如思维链，CoT）时展现出了卓越的推理能力。然而，对于人类来说很简单的问题，例如在给定环境中生成执行任务的动作计划，或进行复杂的数学、逻辑和常识推理，LLMs 仍然存在困难。这种不足源于一个关键事实：LLMs 缺乏一个内部的世界模型来预测世界状态（例如，环境状态、中间变量值）并模拟行动的长期结果。这阻碍了 LLMs 执行类似于人脑的深思熟虑的规划，该过程涉及探索替代推理路径、预测未来状态和奖励，以及迭代地改进现有推理步骤。

为了克服这些限制，我们提出了一种新的 LLM 推理框架，Reasoning via Planning (RAP)。RAP 将 LLM 重新用作世界模型和推理代理，并整合了一种基于蒙特卡洛树搜索的原则性规划算法，用于在广阔的推理空间中进行战略性探索。在推理过程中，LLM（作为代理）在 LLM（作为世界模型）和任务特定奖励的指导下，逐步构建一个推理树，并通过在探索与利用之间取得适当平衡，高效地获得一条高奖励的推理路径。

我们将 RAP 应用于各种具有挑战性的推理问题，包括计划生成、数学推理和逻辑推理。在这些任务上的实证结果表明，RAP 优于包括 CoT 和自洽的最小到最多提示在内的各种强基线。在计划生成场景中，基于 LLAMA-33B 的 RAP 相对于基于 GPT-4 的 CoT 实现了 33% 的相对性能提升。

备注：该论文发表于 EMNLP 2023。代码可在 https://github.com/Ber666/llm-reasoners 获取。

论文地址：https://arxiv.org/abs/2305.14992

28 次点击 ∙ 0 人收藏

登录后收藏

0 条回复