ReAct：推理与行动结合的大模型框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者： Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao

提交/修订日期： 2022年10月6日提交，2023年3月10日最后修订（v3，ICLR最终版）

主题/分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

摘要：
虽然大语言模型（LLMs）在语言理解和交互式决策任务中展现了令人印象深刻的能力，但其推理（例如思维链提示）和行动（例如行动计划生成）能力此前主要被作为独立课题进行研究。在本文中，我们探索了让LLMs以交错方式生成推理轨迹和任务特定行动的方法，从而实现两者之间更强的协同作用：推理轨迹帮助模型推导、跟踪和更新行动计划以及处理异常，而行动则允许其与外部源（如知识库或环境）交互以收集额外信息。我们将这一名为ReAct的方法应用于一系列语言和决策任务，并证明了其相对于最先进基线的有效性，以及与缺乏推理或行动组件的方法相比，在人类可解释性和可信度方面的提升。具体而言，在问答（HotpotQA）和事实核查（Fever）任务上，ReAct通过与一个简单的维基百科API交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，并生成了比没有推理轨迹的基线方法更具可解释性、更类人的任务解决轨迹。在两个交互式决策基准（ALFWorld和WebShop）上，ReAct分别以34%和10%的绝对成功率优于模仿学习和强化学习方法，并且仅使用一个或两个上下文示例进行提示。

项目与代码： https://react-lm.github.io

论文地址：https://arxiv.org/abs/2210.03629

28 次点击 ∙ 0 人收藏

登录后收藏

0 条回复