evaluating-llms-harness：评估60+学术基准的LLM性能

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

技能包地址：https://skillsmp.com/skills/davila7-claude-code-templates-cli-tool-components-skills-ai-research-evaluation-lm-evaluation-harness-skill-md

20 次点击 ∙ 0 人收藏

登录后收藏

0 条回复