SWE-agent：让语言模型代理自动修复 GitHub 仓库中的真实软件问题

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

# SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

## 作者
John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press

## 摘要
语言模型（LM）智能体正越来越多地被用于自动化数字环境中的复杂任务。正如人类在执行软件工程等复杂任务时受益于强大的软件应用（如集成开发环境）一样，我们认为 LM 智能体代表了一类新的最终用户，他们有自己的需求和能力，并且会受益于为其使用的软件专门构建的界面。我们研究了界面设计如何影响语言模型智能体的性能。通过这一探索，我们引入了 SWE-agent：一个帮助 LM 智能体自主使用计算机解决软件工程任务的系统。SWE-agent 定制的智能体-计算机界面（ACI）显著增强了智能体创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在 SWE-bench 和 HumanEvalFix 上评估了 SWE-agent，分别取得了 12.5% 和 87.7% 的 pass@1 率，在这两个基准测试上都达到了当前最佳性能，远超之前使用非交互式 LM 取得的最高水平。最后，我们深入分析了 ACI 的设计如何影响智能体的行为和性能。

## 主题/分类
- **主要分类：** 软件工程 (cs.SE)
- **相关分类：** 人工智能 (cs.AI); 计算与语言 (cs.CL); 人机交互 (cs.HC); 机器学习 (cs.LG)

## 其他信息
- **论文链接：** [arXiv:2405.15793v2 [cs.SE]](https://arxiv.org/abs/2405.15793v2)
- **代码、数据和演示：** 可在 [https://swe-agent.com](https://swe-agent.com) 获取
- **提交历史：** 初版提交于 2024 年 5 月 6 日 (v1); 修订于 2024 年 5 月 30 日 (v2); 最新版本 (v3) 提交于 2024 年 11 月 11 日

论文地址：https://arxiv.org/abs/2405.15793v2

43 次点击 ∙ 0 人收藏

登录后收藏

0 条回复