OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.14992

语言模型即规划者:基于蒙特卡洛树搜索的推理增强 (RAP)

 
  integration ·  2025-11-08 01:35:45 · 8 次点击  · 0 条评论  

论文介绍:Reasoning with Language Model is Planning with World Model

标题:Reasoning with Language Model is Planning with World Model

作者:Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu

提交/修订日期:2023年5月24日提交,2023年10月23日修订 (v2)

主题/分类:计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG)

摘要/简介
大型语言模型 (LLMs) 在生成中间推理步骤(如思维链,CoT)时展现出了卓越的推理能力。然而,对于人类来说很简单的问题,例如在给定环境中生成执行任务的动作计划,或进行复杂的数学、逻辑和常识推理,LLMs 仍然存在困难。这种不足源于一个关键事实:LLMs 缺乏一个内部的世界模型来预测世界状态(例如,环境状态、中间变量值)并模拟行动的长期结果。这阻碍了 LLMs 执行类似于人脑的深思熟虑的规划,该过程涉及探索替代推理路径、预测未来状态和奖励,以及迭代地改进现有推理步骤。

为了克服这些限制,我们提出了一种新的 LLM 推理框架,Reasoning via Planning (RAP)。RAP 将 LLM 重新用作世界模型和推理代理,并整合了一种基于蒙特卡洛树搜索的原则性规划算法,用于在广阔的推理空间中进行战略性探索。在推理过程中,LLM(作为代理)在 LLM(作为世界模型)和任务特定奖励的指导下,逐步构建一个推理树,并通过在探索与利用之间取得适当平衡,高效地获得一条高奖励的推理路径。

我们将 RAP 应用于各种具有挑战性的推理问题,包括计划生成、数学推理和逻辑推理。在这些任务上的实证结果表明,RAP 优于包括 CoT 和自洽的最小到最多提示在内的各种强基线。在计划生成场景中,基于 LLAMA-33B 的 RAP 相对于基于 GPT-4 的 CoT 实现了 33% 的相对性能提升。

备注:该论文发表于 EMNLP 2023。代码可在 https://github.com/Ber666/llm-reasoners 获取。

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor