OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Verifiers — 用于评估与校验 LLM 输出质量的实用工具集

Verifiers — 用于评估与校验 LLM 输出质量的实用工具集

 
  enginez ·  2026-03-19 11:00:26 · 5 次点击  · 0 条评论  

Prime Intellect


Verifiers:用于 LLM 强化学习的环境库

文档环境中心PRIME-RL


Style Test Envs

新闻与更新

  • [03/12/26] 发布 v0.1.11 版本,包含统一的客户端栈、RLMEnv 和环境服务器的主要可靠性改进、大幅优化的评估 TUI、新的 pass@k 和消融扫描支持,以及捆绑的 opencode 环境。
  • [02/10/26] 发布 v0.1.10 版本,包含 OpenEnv 和 BrowserEnv 集成、恢复的评估功能、改进的 rollout 和 token 追踪、更安全的沙箱生命周期行为、刷新的工作区设置,以及 opencode harbor 的改进。
  • [01/08/26] 发布 v0.1.9 版本,包含多个新的实验性环境类型、用于自动指标收集的监控评分标准、改进的工作区设置流程、改进的错误处理、错误修复以及文档全面更新。
  • [11/19/25] 发布 v0.1.8 版本,包含 rollout 系统的重大重构,以使用基于轨迹的追踪来实现跨轮次的 token-in token-out 训练,并支持截断或分支 rollout。
  • [11/07/25] 发布 Verifiers v0.1.7 版本!包含改进的 prime-rl 训练快速启动配置、新的内置“nano”训练器(vf.RLTrainer,取代 vf.GRPOTrainer),以及若干错误修复和文档改进。
  • [10/27/25] Prime Intellect 环境计划 的新一轮迭代已上线!

概述

Verifiers 是我们用于创建环境来训练和评估 LLM 的库。

环境包含在特定任务上运行和评估模型所需的一切:
- 任务输入的数据集
- 模型的工具套件(工具、沙箱、上下文管理等)
- 评估模型性能的奖励函数或评分标准

环境可用于通过强化学习 (RL) 训练模型、评估能力、生成合成数据、试验智能体工具套件等。

Verifiers 与 环境中心、我们的训练框架 prime-rl 以及我们的 托管训练 平台紧密集成。

快速开始

确保已安装 uv 以及 prime CLI 工具:

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装 prime CLI
uv tool install prime
# 登录 Prime Intellect 平台
prime login

要为开发环境设置新的工作区,请执行:

# ~/dev/my-lab
prime lab setup

这将根据需要设置 Python 项目(使用 uv init),安装 verifiers(使用 uv add verifiers),创建推荐的工作区结构,并下载有用的启动文件:

configs/
├── endpoints.toml      # OpenAI 兼容的 API 端点配置
├── rl/                 # 托管训练的示例配置
├── eval/               # 多环境评估的示例配置
└── gepa/               # 提示优化的示例配置
.prime/
└── skills/             # 用于创建/浏览/审查/评估/GEPA/训练/头脑风暴的捆绑工作流技能
environments/
└── AGENTS.md           # AI 编码智能体文档
AGENTS.md               # AI 编码智能体的顶层文档
CLAUDE.md               # 指向 AGENTS.md 的 Claude 专用说明

或者,将 verifiers 添加到现有项目:

uv add verifiers && prime lab setup --skip-install

使用 Verifiers 构建的环境是自包含的 Python 模块。要初始化一个新的环境模板,请执行:

prime env init my-env # 在 ./environments/my_env 中创建新模板

对于 OpenEnv 集成,请使用:

prime env init my-openenv --openenv

然后将你的 OpenEnv 项目复制到 environments/my_openenv/proj/ 并使用以下命令构建镜像:

uv run vf-build my-openenv

这将创建一个名为 my_env 的新模块,其中包含一个基本的环境模板。

environments/my_env/
├── my_env.py           # 主实现文件
├── pyproject.toml      # 依赖项和元数据
└── README.md           # 文档

环境模块应公开一个 load_environment 函数,该函数返回一个 Environment 对象实例,并且可以接受自定义参数。例如:

# my_env.py
import verifiers as vf

def load_environment(dataset_name: str = 'gsm8k') -> vf.Environment:
    dataset = vf.load_example_dataset(dataset_name) # 'question'
    async def correct_answer(completion, answer) -> float:
        completion_ans = completion[-1]['content']
        return 1.0 if completion_ans == answer else 0.0
    rubric = Rubric(funcs=[correct_answer])
    env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)
    return env

要将环境模块安装到你的项目中,请执行:

prime env install my-env # 从 ./environments/my_env 安装

要从环境中心安装环境到你的项目中,请执行:

prime env install primeintellect/math-python

要使用任何 OpenAI 兼容的模型运行本地评估,请执行:

prime eval run my-env -m gpt-5-nano # 运行并本地保存评估结果

评估默认使用 Prime Inference;你可以在 ./configs/endpoints.toml 中配置自己的 API 端点。

在终端 UI 中查看本地评估结果:

prime eval tui

要将环境发布到环境中心,请执行:

prime env push --path ./environments/my_env

要直接从环境中心运行评估,请执行:

prime eval run primeintellect/math-python

文档

环境 — 创建数据集、评分标准和自定义的多轮交互协议。

评估 — 使用你的环境评估模型。

训练 — 在你的环境中使用强化学习训练模型。

开发 — 为 verifiers 做贡献。

API 参考 — 理解 API 和数据结构。

常见问题 — 其他常见问题。

引用

最初由 Will Brown (@willccbb) 创建。

如果你在研究中使用了此代码,请引用:

@misc{brown_verifiers_2025,
  author       = {William Brown},
  title        = {{Verifiers}: Environments for LLM Reinforcement Learning},
  howpublished = {\url{https://github.com/PrimeIntellect-ai/verifiers}},
  note         = {Commit abcdefg • accessed DD Mon YYYY},
  year         = {2025}
}
5 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 39 ms
Developed with Cursor