SWE-bench：评估大语言模型解决软件工程问题的基准

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

SWE-bench: 语言模型能否解决现实世界的 GitHub Issues？

作者： Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan

摘要：
语言模型的发展速度已超过我们有效评估它们的能力，但为了其未来发展，研究其能力前沿至关重要。我们发现现实世界的软件工程是一个丰富、可持续且具有挑战性的测试平台，可用于评估下一代语言模型。为此，我们引入了 SWE-bench，这是一个评估框架，包含从 12 个流行的 Python 仓库的真实 GitHub issues 和对应 pull requests 中提取的 2,294 个软件工程问题。给定一个代码库以及待解决问题的描述，语言模型的任务是编辑代码库以解决该问题。解决 SWE-bench 中的问题通常需要同时理解和协调跨多个函数、类甚至文件的更改，这要求模型能够与执行环境交互、处理极长的上下文并进行复杂的推理，这远远超出了传统的代码生成任务。我们的评估表明，无论是当前最先进的专有模型还是我们微调的模型 SWE-Llama，都只能解决最简单的问题。表现最佳的模型 Claude 2 仅能解决 1.96% 的问题。在 SWE-bench 上的进展代表了朝着更实用、更智能、更自主的语言模型迈出的步伐。

主题/分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 软件工程 (cs.SE)

提交/修订日期： 2023年10月10日提交，2024年11月11日最后修订 (v3)

备注： 数据、代码和排行榜可在 https://www.swebench.com 获取。ICLR 2024 论文。

论文地址：https://arxiv.org/abs/2310.06770

29 次点击 ∙ 0 人收藏

登录后收藏

0 条回复