Executable Code Actions Elicit Better LLM Agents

作者： Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji

提交日期： 2024年2月1日

主题分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

摘要：
能够执行广泛操作（例如调用工具和控制机器人）的大语言模型（LLM）智能体在应对现实世界挑战方面展现出巨大潜力。目前，LLM智能体通常通过生成预定义格式的JSON或文本来产生动作，这通常受到受限的动作空间（例如，预定义工具的范围）和有限的灵活性（例如，无法组合多个工具）的限制。本研究提出使用可执行的Python代码将LLM智能体的动作整合到一个统一的动作空间中（CodeAct）。通过与Python解释器集成，CodeAct可以执行代码动作，并通过多轮交互，根据新的观察结果动态修改先前的动作或发出新的动作。我们在API-Bank和一个新策划的基准上对17个LLM进行的广泛分析表明，CodeAct优于广泛使用的替代方案（成功率最高可提升20%）。CodeAct的出色表现促使我们构建一个开源的LLM智能体，它通过执行可解释的代码与环境交互，并使用自然语言与用户协作。为此，我们收集了一个指令调优数据集CodeActInstruct，该数据集包含7k个使用CodeAct的多轮交互。我们证明，它可以与现有数据结合使用，在不损害模型通用能力的情况下，提升模型在面向智能体任务上的性能。基于Llama2和Mistral微调的CodeActAgent集成了Python解释器，并专门设计用于使用现有库执行复杂任务（例如，模型训练）并自主进行自我调试。

备注：
代码、数据、模型和演示可在 https://github.com/xingyaoww/code-act 获取。

论文地址：https://arxiv.org/abs/2402.01030v1

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CodeAct：以可执行动作统一代码生成与智能体交互

Executable Code Actions Elicit Better LLM Agents