OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  LightEval — Hugging Face 推出的轻量模型评测工具

LightEval — Hugging Face 推出的轻量模型评测工具

 
  four ·  2026-02-18 20:17:08 · 6 次点击  · 0 条评论  


lighteval 库徽标

来自 Hugging Face 排行榜与评估团队的,用于闪电般快速、灵活评估大语言模型的一站式工具包。

[![测试](https://github.com/huggingface/lighteval/actions/workflows/tests.yaml/badge.svg?branch=main)](https://github.com/huggingface/lighteval/actions/workflows/tests.yaml?query=branch%3Amain) [![质量](https://github.com/huggingface/lighteval/actions/workflows/quality.yaml/badge.svg?branch=main)](https://github.com/huggingface/lighteval/actions/workflows/quality.yaml?query=branch%3Amain) [![Python 版本](https://img.shields.io/pypi/pyversions/lighteval)](https://www.python.org/downloads/) [![许可证](https://img.shields.io/badge/License-MIT-green.svg)](https://github.com/huggingface/lighteval/blob/main/LICENSE) [![版本](https://img.shields.io/pypi/v/lighteval)](https://pypi.org/project/lighteval/)

文档 开放基准索引


Lighteval 是您评估大语言模型的一站式工具包,支持多种后端——无论您的模型是部署在别处还是已加载到内存中。通过保存和探索详细的、逐样本的结果来深入分析模型性能,进行调试并了解模型的排名情况。

触手可及的自定义能力:您可以浏览我们所有的现有任务和指标,也可以轻松创建符合您需求的自定义任务自定义指标

可用任务

Lighteval 支持跨多个领域和语言的 1000+ 个评估任务。您可以使用这个空间来查找所需内容,或者,这里是一些热门基准测试的概览:

📚 知识

  • 通用知识:MMLU, MMLU-Pro, MMMU, BIG-Bench
  • 问答:TriviaQA, Natural Questions, SimpleQA, Humanity's Last Exam (HLE)
  • 专业领域:GPQA, AGIEval

🧮 数学与代码

  • 数学问题:GSM8K, GSM-Plus, MATH, MATH500
  • 竞赛数学:AIME24, AIME25
  • 多语言数学:MGSM (10+ 种语言的小学数学)
  • 代码基准测试:LCB (LiveCodeBench)

🎯 聊天模型评估

  • 指令遵循:IFEval, IFEval-fr
  • 推理:MUSR, DROP (离散推理)
  • 长上下文:RULER
  • 对话:MT-Bench
  • 整体评估:HELM, BIG-Bench

🌍 多语言评估

  • 跨语言:XTREME, Flores200 (200 种语言), XCOPA, XQuAD
  • 特定语言
  • 阿拉伯语:ArabicMMLU
  • 菲律宾语:FilBench
  • 法语:IFEval-fr, GPQA-fr, BAC-fr
  • 德语:German RAG Eval
  • 塞尔维亚语:Serbian LLM Benchmark, OZ Eval
  • 突厥语系:TUMLU (9 种突厥语)
  • 中文:CMMLU, CEval, AGIEval
  • 俄语:RUMMLU, Russian SQuAD
  • 吉尔吉斯语:Kyrgyz LLM Benchmark
  • 以及更多...

🧠 核心语言理解

  • 自然语言理解:GLUE, SuperGLUE, TriviaQA, Natural Questions
  • 常识推理:HellaSwag, WinoGrande, ProtoQA
  • 自然语言推理:XNLI
  • 阅读理解:SQuAD, XQuAD, MLQA, Belebele

⚡️ 安装

注意:lighteval 目前尚未在 Windows 上进行任何测试,我们暂不支持 Windows 系统。(在 Mac/Linux 上应该可以完全正常运行

pip install lighteval

Lighteval 在安装时支持许多额外选项,请参阅此处获取完整列表

如果您想将结果推送到 Hugging Face Hub,请将您的访问令牌设置为环境变量:

hf auth login

🚀 快速开始

Lighteval 提供以下入口点用于模型评估:

  • lighteval eval:使用 inspect-ai 作为后端评估模型(推荐)。
  • lighteval accelerate:使用 🤗 Accelerate 在 CPU 或一个/多个 GPU 上评估模型。
  • lighteval nanotron:使用 ⚡️ Nanotron 在分布式环境中评估模型。
  • lighteval vllm:使用 🚀 VLLM 在一个/多个 GPU 上评估模型。
  • lighteval sglang:使用 SGLang 作为后端评估模型。
  • lighteval endpoint:使用各种端点作为后端评估模型。
  • lighteval endpoint inference-endpoint:使用 Hugging Face 的 Inference Endpoints API 评估模型。
  • lighteval endpoint tgi:使用本地运行的 🔗 Text Generation Inference 评估模型。
  • lighteval endpoint litellm:使用 LiteLLM 在任何兼容的 API 上评估模型。
  • lighteval endpoint inference-providers:使用 HuggingFace 的推理提供商 作为后端评估模型。

没找到您需要的?您始终可以按照本指南创建您的自定义模型 API。
- lighteval custom:评估自定义模型(可以是任何模型)。

这里是一个使用远程推理服务进行评估的快速命令

lighteval eval "hf-inference-providers/openai/gpt-oss-20b" gpqa:diamond

或者使用 Python API 来运行一个已加载到内存中的模型!

from transformers import AutoModelForCausalLM

from lighteval.logging.evaluation_tracker import EvaluationTracker
from lighteval.models.transformers.transformers_model import TransformersModel, TransformersModelConfig
from lighteval.pipeline import ParallelismManager, Pipeline, PipelineParameters


MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
BENCHMARKS = "gsm8k"

evaluation_tracker = EvaluationTracker(output_dir="./results")
pipeline_params = PipelineParameters(
    launcher_type=ParallelismManager.NONE,
    max_samples=2
)

model = AutoModelForCausalLM.from_pretrained(
  MODEL_NAME, device_map="auto"
)
config = TransformersModelConfig(model_name=MODEL_NAME, batch_size=1)
model = TransformersModel.from_model(model, config)

pipeline = Pipeline(
    model=model,
    pipeline_parameters=pipeline_params,
    evaluation_tracker=evaluation_tracker,
    tasks=BENCHMARKS,
)

results = pipeline.evaluate()
pipeline.show_results()
results = pipeline.get_results()

🙏 致谢

Lighteval 从以下出色的框架中汲取了灵感:Eleuther 的 AI Harness 和斯坦福的 HELM。我们感谢他们的团队在 LLM 评估方面的开创性工作

我们还要感谢所有为这个库做出贡献的社区成员,他们添加了新功能,报告或修复了错误。

🌟 欢迎贡献 💙💚💛💜🧡

有想法? 发现了错误? 想要添加一个任务指标? 我们热烈欢迎您的贡献!

如果您要添加新功能,请先开一个 issue

如果您提交了 PR,别忘了运行代码风格检查

# 用于基础开发(代码质量、测试)
pip install -e ".[dev]"

# 或用于 GPU/vllm 开发和慢速测试
pip install -e ".[dev-gpu]"

pre-commit install
pre-commit run --all-files

📜 引用

@misc{lighteval,
  author = {Habib, Nathan and Fourrier, Clémentine and Kydlíček, Hynek and Wolf, Thomas and Tunstall, Lewis},
  title = {LightEval: A lightweight framework for LLM evaluation},
  year = {2023},
  version = {0.11.0},
  url = {https://github.com/huggingface/lighteval}
}
6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 53 ms
Developed with Cursor