LiveCodeBench：大语言模型代码能力的全方位评估基准

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

LiveCodeBench: 用于代码大语言模型的全面且无污染评估

作者： Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica

提交/修订日期： 2024年3月12日提交，2024年6月6日修订 (v2)

摘要：
应用于代码相关任务的大语言模型 (LLMs) 已成为一个重要的研究领域，吸引了学术界和工业界的广泛关注。然而，随着新的、改进的 LLMs 不断涌现，现有的评估基准（例如 HumanEval、MBPP）已不足以充分评估它们的能力。本文提出了 LiveCodeBench，一个用于代码 LLMs 的全面且无污染的评估基准。该基准持续从三个竞赛平台（LeetCode、AtCoder 和 CodeForces）收集随时间发布的新问题。值得注意的是，除了代码生成，该基准还关注更广泛的代码相关能力，例如自我修复、代码执行和测试输出预测。目前，LiveCodeBench 包含了 2023年5月至2024年5月期间发布的 400 个高质量编程问题。我们已在 LiveCodeBench 上评估了 18 个基础 LLMs 和 34 个指令微调 LLMs。我们展示了关于数据污染、整体性能比较、现有基准中潜在的过拟合问题以及个体模型比较的实证发现。我们将发布所有提示词和模型生成结果以供社区进一步分析，同时提供一个用于添加新场景和模型的通用工具包。

主题/分类：
- 主要：软件工程 (cs.SE)
- 相关：计算与语言 (cs.CL)；机器学习 (cs.LG)

arXiv ID： 2403.07974

论文地址：https://arxiv.org/abs/2403.07974

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复