OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Verifiers — 用于评估与校验 LLM 输出质量的实用工具集

Verifiers — 用于评估与校验 LLM 输出质量的实用工具集

enginez · 2026-01-25 01:59:50 · 17 次点击 · 0 条评论

Prime Intellect

Verifiers：用于 LLM 强化学习的环境库

文档 • 环境中心 • PRIME-RL

新闻与更新

[03/12/26] 发布 v0.1.11 版本，包含统一的客户端栈、RLMEnv 和环境服务器的主要可靠性改进、大幅优化的评估 TUI、新的 pass@k 和消融扫描支持，以及捆绑的 opencode 环境。
[02/10/26] 发布 v0.1.10 版本，包含 OpenEnv 和 BrowserEnv 集成、恢复的评估功能、改进的 rollout 和 token 追踪、更安全的沙箱生命周期行为、刷新的工作区设置，以及 opencode harbor 的改进。
[01/08/26] 发布 v0.1.9 版本，包含多个新的实验性环境类型、用于自动指标收集的监控评分标准、改进的工作区设置流程、改进的错误处理、错误修复以及文档全面更新。
[11/19/25] 发布 v0.1.8 版本，包含 rollout 系统的重大重构，以使用基于轨迹的追踪来实现跨轮次的 token-in token-out 训练，并支持截断或分支 rollout。
[11/07/25] 发布 Verifiers v0.1.7 版本！包含改进的 prime-rl 训练快速启动配置、新的内置“nano”训练器（vf.RLTrainer，取代 vf.GRPOTrainer），以及若干错误修复和文档改进。
[10/27/25] Prime Intellect 环境计划的新一轮迭代已上线！

概述

Verifiers 是我们用于创建环境来训练和评估 LLM 的库。

环境包含在特定任务上运行和评估模型所需的一切：
- 任务输入的数据集
- 模型的工具套件（工具、沙箱、上下文管理等）
- 评估模型性能的奖励函数或评分标准

环境可用于通过强化学习 (RL) 训练模型、评估能力、生成合成数据、试验智能体工具套件等。

Verifiers 与环境中心、我们的训练框架 prime-rl 以及我们的托管训练平台紧密集成。

快速开始

确保已安装 uv 以及 prime CLI 工具：

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装 prime CLI
uv tool install prime
# 登录 Prime Intellect 平台
prime login

要为开发环境设置新的工作区，请执行：

# ~/dev/my-lab
prime lab setup

这将根据需要设置 Python 项目（使用 uv init），安装 verifiers（使用 uv add verifiers），创建推荐的工作区结构，并下载有用的启动文件：

configs/
├── endpoints.toml      # OpenAI 兼容的 API 端点配置
├── rl/                 # 托管训练的示例配置
├── eval/               # 多环境评估的示例配置
└── gepa/               # 提示优化的示例配置
.prime/
└── skills/             # 用于创建/浏览/审查/评估/GEPA/训练/头脑风暴的捆绑工作流技能
environments/
└── AGENTS.md           # AI 编码智能体文档
AGENTS.md               # AI 编码智能体的顶层文档
CLAUDE.md               # 指向 AGENTS.md 的 Claude 专用说明

或者，将 verifiers 添加到现有项目：

uv add verifiers && prime lab setup --skip-install

使用 Verifiers 构建的环境是自包含的 Python 模块。要初始化一个新的环境模板，请执行：

prime env init my-env # 在 ./environments/my_env 中创建新模板

对于 OpenEnv 集成，请使用：

prime env init my-openenv --openenv

然后将你的 OpenEnv 项目复制到 environments/my_openenv/proj/ 并使用以下命令构建镜像：

uv run vf-build my-openenv

这将创建一个名为 my_env 的新模块，其中包含一个基本的环境模板。

environments/my_env/
├── my_env.py           # 主实现文件
├── pyproject.toml      # 依赖项和元数据
└── README.md           # 文档

环境模块应公开一个 load_environment 函数，该函数返回一个 Environment 对象实例，并且可以接受自定义参数。例如：

# my_env.py
import verifiers as vf

def load_environment(dataset_name: str = 'gsm8k') -> vf.Environment:
    dataset = vf.load_example_dataset(dataset_name) # 'question'
    async def correct_answer(completion, answer) -> float:
        completion_ans = completion[-1]['content']
        return 1.0 if completion_ans == answer else 0.0
    rubric = Rubric(funcs=[correct_answer])
    env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)
    return env

要将环境模块安装到你的项目中，请执行：

prime env install my-env # 从 ./environments/my_env 安装

要从环境中心安装环境到你的项目中，请执行：

prime env install primeintellect/math-python

要使用任何 OpenAI 兼容的模型运行本地评估，请执行：

prime eval run my-env -m gpt-5-nano # 运行并本地保存评估结果

评估默认使用 Prime Inference；你可以在 ./configs/endpoints.toml 中配置自己的 API 端点。

在终端 UI 中查看本地评估结果：

prime eval tui

要将环境发布到环境中心，请执行：

prime env push --path ./environments/my_env

要直接从环境中心运行评估，请执行：

prime eval run primeintellect/math-python

文档

环境 — 创建数据集、评分标准和自定义的多轮交互协议。

评估 — 使用你的环境评估模型。

训练 — 在你的环境中使用强化学习训练模型。

开发 — 为 verifiers 做贡献。

API 参考 — 理解 API 和数据结构。

常见问题 — 其他常见问题。

引用

最初由 Will Brown (@willccbb) 创建。

如果你在研究中使用了此代码，请引用：

@misc{brown_verifiers_2025,
  author       = {William Brown},
  title        = {{Verifiers}: Environments for LLM Reinforcement Learning},
  howpublished = {\url{https://github.com/PrimeIntellect-ai/verifiers}},
  note         = {Commit abcdefg • accessed DD Mon YYYY},
  year         = {2025}
}

项目地址：https://github.com/willccbb/verifiers

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复