OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  OpenCompass — 大模型评测与对比分析平台

OpenCompass — 大模型评测与对比分析平台

 
  shell ·  2026-02-19 17:48:01 · 3 次点击  · 0 条评论  


[![][github-release-shield]][github-release-link] [![][github-releasedate-shield]][github-releasedate-link] [![][github-contributors-shield]][github-contributors-link]
[![][github-forks-shield]][github-forks-link] [![][github-stars-shield]][github-stars-link] [![][github-issues-shield]][github-issues-link] [![][github-license-shield]][github-license-link] [🌐官方网站](https://opencompass.org.cn/) | [📖CompassHub](https://hub.opencompass.org.cn/home) | [📊CompassRank](https://rank.opencompass.org.cn/home) | [📘文档](https://opencompass.readthedocs.io/en/latest/) | [🛠️安装指南](https://opencompass.readthedocs.io/en/latest/get_started/installation.html) | [🤔报告问题](https://github.com/open-compass/opencompass/issues/new/choose) [English](README.md) | 简体中文 [![][github-trending-shield]][github-trending-url]

👋 加入我们的 Discord微信

[!IMPORTANT]

为我们点 Star,你将通过 GitHub 及时收到所有版本发布通知 ~ ⭐️

Star 历史

🧭 欢迎

来到 OpenCompass

正如指南针指引我们的旅程,OpenCompass 将引导你穿越评估大语言模型的复杂领域。凭借其强大的算法和直观的界面,OpenCompass 让评估你的 NLP 模型的质量和效果变得轻而易举。

🚩🚩🚩 探索 OpenCompass 的工作机会!我们正在招聘全职研究员/工程师和实习生。如果你对 LLM 和 OpenCompass 充满热情,请随时通过邮件联系我们。我们期待你的来信!

🔥🔥🔥 我们很高兴地宣布,OpenCompass 已获得 Meta AI 的推荐,点击 Llama 的 Get Started 了解更多信息。

注意

重大变更通知:在版本 0.4.0 中,我们将所有 AMOTIC 配置文件(之前位于 ./configs/datasets、./configs/models 和 ./configs/summarizers)整合到 opencompass 包中。建议用户更新其配置引用以反映此结构变化。

🚀 最新动态

  • [2026.02.05] OpenCompass 现已支持 Intern-S1-Pro 相关的通用和科学评估基准。请查看 Intern-S1-Pro 评估示例模型卡片 了解更多详情!🔥🔥🔥
  • [2025.12.08] OpenCompass 现已支持 SciReasoner 的评估。请查看 SciReasoner 评估示例项目 GitHub 仓库 了解更多详情!🔥🔥🔥
  • [2025.07.26] OpenCompass 现已支持 Intern-S1 相关的通用和科学评估基准。请查看 Intern-S1 评估教程 了解更多详情!🔥🔥🔥
  • [2025.04.01] OpenCompass 现已支持 CascadeEvaluator,这是一种灵活的评估机制,允许多个评估器按顺序工作。这使得可以为复杂的评估场景创建自定义的评估流水线。查看文档了解更多详情!🔥🔥🔥
  • [2025.03.11] 我们已支持 SuperGPQA 的评估,这是一个衡量 LLM 知识能力的优秀基准 🔥🔥🔥
  • [2025.02.28] 我们为 DeepSeek-R1 系列模型添加了教程,请查看 评估推理模型 了解更多详情!🔥🔥🔥
  • [2025.02.15] 我们添加了两个强大的评估工具:用于 LLM-as-judge 评估的 GenericLLMEvaluator 和用于数学推理评估的 MATHVerifyEvaluator。查看 LLM 评判数学评估 的文档了解更多详情!🔥🔥🔥
  • [2025.01.16] 我们现在支持 InternLM3-8B-Instruct 模型,该模型在推理和知识密集型任务上具有增强的性能。
  • [2024.12.17] 我们提供了 12 月 CompassAcademic 的评估脚本,用户可以通过配置轻松复现官方评估结果。
  • [2024.11.14] OpenCompass 现在支持一个用于评估复杂推理能力的精密基准——MuSR。查看演示并试试看!🔥🔥🔥
  • [2024.11.14] OpenCompass 现在支持全新的长上下文语言模型评估基准——BABILong。看看演示并试试看!🔥🔥🔥
  • [2024.10.14] 我们现在支持 OpenAI 多语言 QA 数据集 MMMLU。欢迎尝试!🔥🔥🔥
  • [2024.09.19] 我们现在支持 Qwen2.5(0.5B 到 72B)及多种后端(huggingface/vllm/lmdeploy)。欢迎尝试!🔥🔥🔥
  • [2024.09.17] 我们现在支持 OpenAI o1(o1-mini-2024-09-12o1-preview-2024-09-12)。欢迎尝试!🔥🔥🔥
  • [2024.09.05] 我们现在支持通过模型后处理进行答案提取,以更准确地表示模型的能力。作为此次更新的一部分,我们集成了 XFinder 作为我们的第一个后处理模型。更多详细信息,请参阅文档,并试试看!🔥🔥🔥
  • [2024.08.20] OpenCompass 现在支持 SciCode:一个由科学家策划的研究编码基准。🔥🔥🔥
  • [2024.08.16] OpenCompass 现在支持全新的长上下文语言模型评估基准——RULER。RULER 通过灵活的配置,提供了对长上下文的评估,包括检索、多跳追踪、聚合和问答。立即查看 RULER 评估配置!🔥🔥🔥
  • [2024.08.09] 我们发布了 CompassBench-202408 的示例数据和配置,欢迎访问 CompassBench 了解更多详情。🔥🔥🔥
  • [2024.08.01] 我们支持了 Gemma2 模型。欢迎尝试!🔥🔥🔥
  • [2024.07.23] 我们支持了 ModelScope 数据集,你可以按需加载它们,而无需将所有数据下载到本地磁盘。欢迎尝试!🔥🔥🔥
  • [2024.07.17] 我们很高兴地宣布 NeedleBench 的技术报告已发布。我们邀请你访问我们的支持文档以获取详细的评估指南。🔥🔥🔥
  • [2024.07.04] OpenCompass 现在支持 InternLM2.5,它具有出色的推理能力1M 上下文窗口更强的工具使用能力,你可以在 OpenCompass 配置InternLM 中尝试这些模型。🔥🔥🔥。
  • [2024.06.20] OpenCompass 现在支持一键切换推理加速后端,提升评估过程效率。除了默认的 HuggingFace 推理后端,现在还支持流行的后端 LMDeployvLLM。此功能可通过简单的命令行开关和部署 API 使用。详细用法请见文档。🔥🔥🔥。

更多动态

📊 排行榜

我们为社区提供 OpenCompass 排行榜,用于对所有公开模型和 API 模型进行排名。如果你想参与评估,请将模型仓库 URL 或标准 API 接口发送至邮箱 opencompass@pjlab.org.cn

你也可以参考 复现 CompassAcademic 排行榜结果指南 来快速复现排行榜结果。

🔝返回顶部

🛠️ 安装

以下是快速安装和数据准备的步骤。

💻 环境设置

我们强烈建议使用 conda 管理你的 Python 环境。

  • 创建虚拟环境

bash conda create --name opencompass python=3.10 -y conda activate opencompass

  • 通过 pip 安装 OpenCompass

```bash
pip install -U opencompass

## 完整安装(支持更多数据集)
# pip install "opencompass[full]"

## 包含模型加速框架的环境
## 由于它们通常存在依赖冲突,建议使用虚拟环境管理不同的加速框架。
# pip install "opencompass[lmdeploy]"
# pip install "opencompass[vllm]"

## API 评估(例如 Openai, Qwen)
# pip install "opencompass[api]"

```

  • 从源码安装 OpenCompass

如果你想使用 opencompass 的最新功能,或开发新功能,也可以从源码构建。

bash git clone https://github.com/open-compass/opencompass opencompass cd opencompass pip install -e . # pip install -e ".[full]" # pip install -e ".[vllm]"

📂 数据准备

你可以选择以下方法之一来准备数据集。

离线准备

你可以使用以下命令下载并解压数据集:

# 下载数据集到 data/ 文件夹
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

从 OpenCompass 自动下载

我们支持从 OpenCompass 存储服务器自动下载数据集。你可以通过运行评估时添加 --dry-run 来下载这些数据集。
目前支持的列表在这里。更多数据集将陆续上传。

(可选)使用 ModelScope 自动下载

你也可以使用 ModelScope 按需加载数据集。

安装:

pip install modelscope[framework]
export DATASET_SOURCE=ModelScope

然后提交评估任务,无需将所有数据下载到本地磁盘。可用的数据集包括:

humaneval, triviaqa, commonsenseqa, tydiqa, strategyqa, cmmlu, lambada, piqa, ceval, math, LCSTS, Xsum, winogrande, openbookqa, AGIEval, gsm8k, nq, race, siqa, mbpp, mmlu, hellaswag, ARC, BBH, xstory_cloze, summedits, GAOKAO-BENCH, OCNLI, cmnli

一些第三方功能,如 Humaneval 和 Llama,可能需要额外的步骤才能正常工作,详细步骤请参考安装指南

🔝返回顶部

🏗️ 评估

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,现在你可以使用 OpenCompass 开始你的第一次评估了!

使用 OpenCompass 进行首次评估!

OpenCompass 支持通过 CLI 或 Python 脚本设置配置。对于简单的评估设置,我们推荐使用 CLI;对于更复杂的评估,建议使用脚本方式。你可以在 configs 文件夹下找到更多示例脚本。

# CLI
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen

# Python 脚本
opencompass examples/eval_chat_demo.py

你可以在 examples 文件夹下找到更多脚本示例。

API 评估

OpenCompass 在设计上并不真正区分开源模型和 API 模型。你可以以相同的方式评估这两种模型类型,甚至可以在一个设置中同时评估。

export OPENAI_API_KEY="YOUR_OPEN_API_KEY"
# CLI
opencompass --models gpt_4o_2024_05_13 --datasets demo_gsm8k_chat_gen

# Python 脚本
opencompass examples/eval_api_demo.py

# 对于 o1 模型,你可以使用 o1_mini_2024_09_12/o1_preview_2024_09_12,我们默认设置 max_completion_tokens=8192。

加速评估

此外,如果你想使用 HuggingFace 以外的推理后端进行加速评估,例如 LMDeploy 或 vLLM,可以使用下面的命令。请确保已安装所选后端所需的包,并且你的模型支持使用该后端进行加速推理。更多信息,请参阅关于推理加速后端的文档。以下是使用 LMDeploy 的示例:

# CLI
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen -a lmdeploy

# Python 脚本
opencompass examples/eval_lmdeploy_demo.py

支持的模型和数据集

OpenCompass 为许多模型和数据集预定义了配置。你可以使用 工具 列出所有可用的模型和数据集配置。

# 列出所有配置
python tools/list_configs.py
# 列出与 llama 和 mmlu 相关的所有配置
python tools/list_configs.py llama mmlu

支持的模型

如果模型不在列表中,但受 Huggingface AutoModel 类或基于 OpenAI 接口封装的推理引擎支持(详见文档),你也可以使用 OpenCompass 进行评估。欢迎你为维护 OpenCompass 支持的模型和数据集列表做出贡献。

opencompass --datasets demo_gsm8k_chat_gen --hf-type chat --hf-path internlm/internlm2_5-1_8b-chat

支持的数据集

目前,OpenCompass 为数据集提供了标准的推荐配置。通常,以 _gen.py_llm_judge_gen.py 结尾的配置文件会指向我们为该数据集提供的推荐配置。更多详情请参考文档

```bash

基于规则的推荐评估配置

opencompass --datasets aime2024_gen --models hf_internlm2_5_1_8b_chat

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor