OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.06770

SWE-bench:评估大语言模型解决软件工程问题的基准

 
  ghost ·  2025-11-19 18:25:30 · 13 次点击  · 0 条评论  

SWE-bench: 语言模型能否解决现实世界的 GitHub Issues?

作者: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan

摘要:
语言模型的发展速度已超过我们有效评估它们的能力,但为了其未来发展,研究其能力前沿至关重要。我们发现现实世界的软件工程是一个丰富、可持续且具有挑战性的测试平台,可用于评估下一代语言模型。为此,我们引入了 SWE-bench,这是一个评估框架,包含从 12 个流行的 Python 仓库的真实 GitHub issues 和对应 pull requests 中提取的 2,294 个软件工程问题。给定一个代码库以及待解决问题的描述,语言模型的任务是编辑代码库以解决该问题。解决 SWE-bench 中的问题通常需要同时理解和协调跨多个函数、类甚至文件的更改,这要求模型能够与执行环境交互、处理极长的上下文并进行复杂的推理,这远远超出了传统的代码生成任务。我们的评估表明,无论是当前最先进的专有模型还是我们微调的模型 SWE-Llama,都只能解决最简单的问题。表现最佳的模型 Claude 2 仅能解决 1.96% 的问题。在 SWE-bench 上的进展代表了朝着更实用、更智能、更自主的语言模型迈出的步伐。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 软件工程 (cs.SE)

提交/修订日期: 2023年10月10日提交,2024年11月11日最后修订 (v3)

备注: 数据、代码和排行榜可在 https://www.swebench.com 获取。ICLR 2024 论文。

13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 36 ms
Developed with Cursor