标题:Reasoning with Language Model is Planning with World Model
作者:Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu
提交/修订日期:2023年5月24日提交,2023年10月23日修订 (v2)
主题/分类:计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG)
摘要/简介:
大型语言模型 (LLMs) 在生成中间推理步骤(如思维链,CoT)时展现出了卓越的推理能力。然而,对于人类来说很简单的问题,例如在给定环境中生成执行任务的动作计划,或进行复杂的数学、逻辑和常识推理,LLMs 仍然存在困难。这种不足源于一个关键事实:LLMs 缺乏一个内部的世界模型来预测世界状态(例如,环境状态、中间变量值)并模拟行动的长期结果。这阻碍了 LLMs 执行类似于人脑的深思熟虑的规划,该过程涉及探索替代推理路径、预测未来状态和奖励,以及迭代地改进现有推理步骤。
为了克服这些限制,我们提出了一种新的 LLM 推理框架,Reasoning via Planning (RAP)。RAP 将 LLM 重新用作世界模型和推理代理,并整合了一种基于蒙特卡洛树搜索的原则性规划算法,用于在广阔的推理空间中进行战略性探索。在推理过程中,LLM(作为代理)在 LLM(作为世界模型)和任务特定奖励的指导下,逐步构建一个推理树,并通过在探索与利用之间取得适当平衡,高效地获得一条高奖励的推理路径。
我们将 RAP 应用于各种具有挑战性的推理问题,包括计划生成、数学推理和逻辑推理。在这些任务上的实证结果表明,RAP 优于包括 CoT 和自洽的最小到最多提示在内的各种强基线。在计划生成场景中,基于 LLAMA-33B 的 RAP 相对于基于 GPT-4 的 CoT 实现了 33% 的相对性能提升。
备注:该论文发表于 EMNLP 2023。代码可在 https://github.com/Ber666/llm-reasoners 获取。