OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2403.07974

LiveCodeBench:大语言模型代码能力的全方位评估基准

 
  breeze ·  2025-12-26 08:31:59 · 12 次点击  · 0 条评论  

LiveCodeBench: 用于代码大语言模型的全面且无污染评估

作者: Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica

提交/修订日期: 2024年3月12日提交,2024年6月6日修订 (v2)

摘要:
应用于代码相关任务的大语言模型 (LLMs) 已成为一个重要的研究领域,吸引了学术界和工业界的广泛关注。然而,随着新的、改进的 LLMs 不断涌现,现有的评估基准(例如 HumanEval、MBPP)已不足以充分评估它们的能力。本文提出了 LiveCodeBench,一个用于代码 LLMs 的全面且无污染的评估基准。该基准持续从三个竞赛平台(LeetCode、AtCoder 和 CodeForces)收集随时间发布的新问题。值得注意的是,除了代码生成,该基准还关注更广泛的代码相关能力,例如自我修复、代码执行和测试输出预测。目前,LiveCodeBench 包含了 2023年5月至2024年5月期间发布的 400 个高质量编程问题。我们已在 LiveCodeBench 上评估了 18 个基础 LLMs 和 34 个指令微调 LLMs。我们展示了关于数据污染、整体性能比较、现有基准中潜在的过拟合问题以及个体模型比较的实证发现。我们将发布所有提示词和模型生成结果以供社区进一步分析,同时提供一个用于添加新场景和模型的通用工具包。

主题/分类:
- 主要:软件工程 (cs.SE)
- 相关:计算与语言 (cs.CL);机器学习 (cs.LG)

arXiv ID: 2403.07974

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 27 ms
Developed with Cursor