作者: Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao
提交/修订日期: 2023年3月20日提交,2023年10月10日修订 (v4)
主题/分类: 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
摘要:
大型语言模型 (LLMs) 越来越多地被用作目标驱动的智能体,以与外部环境(如游戏、编译器、API)进行交互。然而,这些语言智能体要像传统强化学习方法那样从试错中快速高效地学习仍然具有挑战性,因为传统方法需要大量的训练样本和昂贵的模型微调。我们提出了 Reflexion,一个新颖的框架,它不通过更新权重,而是通过语言反馈来强化语言智能体。具体来说,Reflexion 智能体对任务反馈信号进行语言层面的反思,然后将自己的反思文本保存在情景记忆缓冲区中,以在后续尝试中做出更好的决策。Reflexion 足够灵活,可以整合各种类型(标量值或自由形式的语言)和来源(外部或内部模拟)的反馈信号,并在多种任务(顺序决策、编码、语言推理)上相比基线智能体取得了显著改进。例如,Reflexion 在 HumanEval 编码基准测试中达到了 91% 的 pass@1 准确率,超过了之前最先进的 GPT-4(80%)。我们还使用不同的反馈信号、反馈整合方法和智能体类型进行了消融和分析研究,并提供了关于它们如何影响性能的见解。