evaluating-code-models：评估代码模型性能的行业标准

bloom · 2026-02-21 09:21:51 · 53 次点击 · 0 条评论

Evaluates code generation models across HumanEval, MBPP, MultiPL-E, and 15+ benchmarks with pass@k metrics. Use when benchmarking code models, comparing coding abilities, testing multi-language support, or measuring code generation quality. Industry standard from BigCode Project used by HuggingFace leaderboards.

技能包地址：https://skillsmp.com/skills/davila7-claude-code-templates-cli-tool-components-skills-ai-research-evaluation-bigcode-evaluation-harness-skill-md

53 次点击 ∙ 0 人收藏

登录后收藏

0 条回复