SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

作者: John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press

摘要:
语言模型（LM）智能体正越来越多地被用于在数字环境中自动化复杂任务。正如人类从强大的软件应用程序（如集成开发环境）中受益以完成软件工程等复杂任务一样，我们认为 LM 智能体代表了一类具有自身需求和能力的新终端用户，它们将受益于为其使用的软件专门构建的界面。我们研究了界面设计如何影响语言模型智能体的性能。基于这一探索，我们提出了 SWE-agent：一个促进 LM 智能体自主使用计算机解决软件工程任务的系统。SWE-agent 定制的智能体-计算机接口（ACI）显著增强了智能体创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在 SWE-bench 和 HumanEvalFix 上评估了 SWE-agent，在两个基准上都取得了最先进的性能，pass@1 率分别为 12.5% 和 87.7%，远超之前非交互式 LM 达到的最佳水平。最后，我们深入探讨了 ACI 的设计如何影响智能体的行为和性能。

主题/分类:
- 主要类别：软件工程 (cs.SE)
- 相关类别：人工智能 (cs.AI)、计算与语言 (cs.CL)、人机交互 (cs.HC)、机器学习 (cs.LG)

其他信息:
- 提交日期：2024年5月6日
- 最新修订日期：2024年11月11日
- 代码、数据和演示可在 https://swe-agent.com 获取。

论文地址：https://arxiv.org/abs/2405.15793

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

SWE-agent：利用语言模型自动修复真实软件仓库问题

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering