LightEval — Hugging Face 推出的轻量模型评测工具

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

lighteval 库徽标

来自 Hugging Face 排行榜与评估团队的，用于闪电般快速、灵活评估大语言模型的一站式工具包。

[![测试](https://github.com/huggingface/lighteval/actions/workflows/tests.yaml/badge.svg?branch=main)](https://github.com/huggingface/lighteval/actions/workflows/tests.yaml?query=branch%3Amain) [![质量](https://github.com/huggingface/lighteval/actions/workflows/quality.yaml/badge.svg?branch=main)](https://github.com/huggingface/lighteval/actions/workflows/quality.yaml?query=branch%3Amain) [![Python 版本](https://img.shields.io/pypi/pyversions/lighteval)](https://www.python.org/downloads/) [![许可证](https://img.shields.io/badge/License-MIT-green.svg)](https://github.com/huggingface/lighteval/blob/main/LICENSE) [![版本](https://img.shields.io/pypi/v/lighteval)](https://pypi.org/project/lighteval/)

Lighteval 是您评估大语言模型的一站式工具包，支持多种后端——无论您的模型是部署在别处还是已加载到内存中。通过保存和探索详细的、逐样本的结果来深入分析模型性能，进行调试并了解模型的排名情况。

触手可及的自定义能力：您可以浏览我们所有的现有任务和指标，也可以轻松创建符合您需求的自定义任务和自定义指标。

可用任务

Lighteval 支持跨多个领域和语言的 1000+ 个评估任务。您可以使用这个空间来查找所需内容，或者，这里是一些热门基准测试的概览：

📚 知识

通用知识：MMLU, MMLU-Pro, MMMU, BIG-Bench
问答：TriviaQA, Natural Questions, SimpleQA, Humanity's Last Exam (HLE)
专业领域：GPQA, AGIEval

🧮 数学与代码

数学问题：GSM8K, GSM-Plus, MATH, MATH500
竞赛数学：AIME24, AIME25
多语言数学：MGSM (10+ 种语言的小学数学)
代码基准测试：LCB (LiveCodeBench)

🎯 聊天模型评估

指令遵循：IFEval, IFEval-fr
推理：MUSR, DROP (离散推理)
长上下文：RULER
对话：MT-Bench
整体评估：HELM, BIG-Bench

🌍 多语言评估

跨语言：XTREME, Flores200 (200 种语言), XCOPA, XQuAD
特定语言：
阿拉伯语：ArabicMMLU
菲律宾语：FilBench
法语：IFEval-fr, GPQA-fr, BAC-fr
德语：German RAG Eval
塞尔维亚语：Serbian LLM Benchmark, OZ Eval
突厥语系：TUMLU (9 种突厥语)
中文：CMMLU, CEval, AGIEval
俄语：RUMMLU, Russian SQuAD
吉尔吉斯语：Kyrgyz LLM Benchmark
以及更多...

🧠 核心语言理解

自然语言理解：GLUE, SuperGLUE, TriviaQA, Natural Questions
常识推理：HellaSwag, WinoGrande, ProtoQA
自然语言推理：XNLI
阅读理解：SQuAD, XQuAD, MLQA, Belebele

⚡️ 安装

注意：lighteval 目前尚未在 Windows 上进行任何测试，我们暂不支持 Windows 系统。（在 Mac/Linux 上应该可以完全正常运行）

pip install lighteval

Lighteval 在安装时支持许多额外选项，请参阅此处获取完整列表。

如果您想将结果推送到 Hugging Face Hub，请将您的访问令牌设置为环境变量：

hf auth login

🚀 快速开始

Lighteval 提供以下入口点用于模型评估：

lighteval eval：使用 inspect-ai 作为后端评估模型（推荐）。
lighteval accelerate：使用 🤗 Accelerate 在 CPU 或一个/多个 GPU 上评估模型。
lighteval nanotron：使用 ⚡️ Nanotron 在分布式环境中评估模型。
lighteval vllm：使用 🚀 VLLM 在一个/多个 GPU 上评估模型。
lighteval sglang：使用 SGLang 作为后端评估模型。
lighteval endpoint：使用各种端点作为后端评估模型。
lighteval endpoint inference-endpoint：使用 Hugging Face 的 Inference Endpoints API 评估模型。
lighteval endpoint tgi：使用本地运行的 🔗 Text Generation Inference 评估模型。
lighteval endpoint litellm：使用 LiteLLM 在任何兼容的 API 上评估模型。
lighteval endpoint inference-providers：使用 HuggingFace 的推理提供商作为后端评估模型。

没找到您需要的？您始终可以按照本指南创建您的自定义模型 API。
- lighteval custom：评估自定义模型（可以是任何模型）。

这里是一个使用远程推理服务进行评估的快速命令：

lighteval eval "hf-inference-providers/openai/gpt-oss-20b" gpqa:diamond

或者使用 Python API 来运行一个已加载到内存中的模型！

from transformers import AutoModelForCausalLM

from lighteval.logging.evaluation_tracker import EvaluationTracker
from lighteval.models.transformers.transformers_model import TransformersModel, TransformersModelConfig
from lighteval.pipeline import ParallelismManager, Pipeline, PipelineParameters


MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
BENCHMARKS = "gsm8k"

evaluation_tracker = EvaluationTracker(output_dir="./results")
pipeline_params = PipelineParameters(
    launcher_type=ParallelismManager.NONE,
    max_samples=2
)

model = AutoModelForCausalLM.from_pretrained(
  MODEL_NAME, device_map="auto"
)
config = TransformersModelConfig(model_name=MODEL_NAME, batch_size=1)
model = TransformersModel.from_model(model, config)

pipeline = Pipeline(
    model=model,
    pipeline_parameters=pipeline_params,
    evaluation_tracker=evaluation_tracker,
    tasks=BENCHMARKS,
)

results = pipeline.evaluate()
pipeline.show_results()
results = pipeline.get_results()

🙏 致谢

Lighteval 从以下出色的框架中汲取了灵感：Eleuther 的 AI Harness 和斯坦福的 HELM。我们感谢他们的团队在 LLM 评估方面的开创性工作。

我们还要感谢所有为这个库做出贡献的社区成员，他们添加了新功能，报告或修复了错误。

🌟 欢迎贡献 💙💚💛💜🧡

有想法？ 发现了错误？想要添加一个任务或指标？我们热烈欢迎您的贡献！

如果您要添加新功能，请先开一个 issue。

如果您提交了 PR，别忘了运行代码风格检查！

# 用于基础开发（代码质量、测试）
pip install -e ".[dev]"

# 或用于 GPU/vllm 开发和慢速测试
pip install -e ".[dev-gpu]"

pre-commit install
pre-commit run --all-files

📜 引用

@misc{lighteval,
  author = {Habib, Nathan and Fourrier, Clémentine and Kydlíček, Hynek and Wolf, Thomas and Tunstall, Lewis},
  title = {LightEval: A lightweight framework for LLM evaluation},
  year = {2023},
  version = {0.11.0},
  url = {https://github.com/huggingface/lighteval}
}

项目地址：https://github.com/huggingface/lighteval

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复