作者: Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica
提交/修订日期: 2024年3月12日提交,2024年6月6日修订 (v2)
摘要:
应用于代码相关任务的大语言模型 (LLMs) 已成为一个重要的研究领域,吸引了学术界和工业界的广泛关注。然而,随着新的、改进的 LLMs 不断涌现,现有的评估基准(例如 HumanEval、MBPP)已不足以充分评估它们的能力。本文提出了 LiveCodeBench,一个用于代码 LLMs 的全面且无污染的评估基准。该基准持续从三个竞赛平台(LeetCode、AtCoder 和 CodeForces)收集随时间发布的新问题。值得注意的是,除了代码生成,该基准还关注更广泛的代码相关能力,例如自我修复、代码执行和测试输出预测。目前,LiveCodeBench 包含了 2023年5月至2024年5月期间发布的 400 个高质量编程问题。我们已在 LiveCodeBench 上评估了 18 个基础 LLMs 和 34 个指令微调 LLMs。我们展示了关于数据污染、整体性能比较、现有基准中潜在的过拟合问题以及个体模型比较的实证发现。我们将发布所有提示词和模型生成结果以供社区进一步分析,同时提供一个用于添加新场景和模型的通用工具包。
主题/分类:
- 主要:软件工程 (cs.SE)
- 相关:计算与语言 (cs.CL);机器学习 (cs.LG)
arXiv ID: 2403.07974