RLMEnv 和环境服务器的主要可靠性改进、大幅优化的评估 TUI、新的 pass@k 和消融扫描支持,以及捆绑的 opencode 环境。vf.RLTrainer,取代 vf.GRPOTrainer),以及若干错误修复和文档改进。Verifiers 是我们用于创建环境来训练和评估 LLM 的库。
环境包含在特定任务上运行和评估模型所需的一切:
- 任务输入的数据集
- 模型的工具套件(工具、沙箱、上下文管理等)
- 评估模型性能的奖励函数或评分标准
环境可用于通过强化学习 (RL) 训练模型、评估能力、生成合成数据、试验智能体工具套件等。
Verifiers 与 环境中心、我们的训练框架 prime-rl 以及我们的 托管训练 平台紧密集成。
确保已安装 uv 以及 prime CLI 工具:
# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装 prime CLI
uv tool install prime
# 登录 Prime Intellect 平台
prime login
要为开发环境设置新的工作区,请执行:
# ~/dev/my-lab
prime lab setup
这将根据需要设置 Python 项目(使用 uv init),安装 verifiers(使用 uv add verifiers),创建推荐的工作区结构,并下载有用的启动文件:
configs/
├── endpoints.toml # OpenAI 兼容的 API 端点配置
├── rl/ # 托管训练的示例配置
├── eval/ # 多环境评估的示例配置
└── gepa/ # 提示优化的示例配置
.prime/
└── skills/ # 用于创建/浏览/审查/评估/GEPA/训练/头脑风暴的捆绑工作流技能
environments/
└── AGENTS.md # AI 编码智能体文档
AGENTS.md # AI 编码智能体的顶层文档
CLAUDE.md # 指向 AGENTS.md 的 Claude 专用说明
或者,将 verifiers 添加到现有项目:
uv add verifiers && prime lab setup --skip-install
使用 Verifiers 构建的环境是自包含的 Python 模块。要初始化一个新的环境模板,请执行:
prime env init my-env # 在 ./environments/my_env 中创建新模板
对于 OpenEnv 集成,请使用:
prime env init my-openenv --openenv
然后将你的 OpenEnv 项目复制到 environments/my_openenv/proj/ 并使用以下命令构建镜像:
uv run vf-build my-openenv
这将创建一个名为 my_env 的新模块,其中包含一个基本的环境模板。
environments/my_env/
├── my_env.py # 主实现文件
├── pyproject.toml # 依赖项和元数据
└── README.md # 文档
环境模块应公开一个 load_environment 函数,该函数返回一个 Environment 对象实例,并且可以接受自定义参数。例如:
# my_env.py
import verifiers as vf
def load_environment(dataset_name: str = 'gsm8k') -> vf.Environment:
dataset = vf.load_example_dataset(dataset_name) # 'question'
async def correct_answer(completion, answer) -> float:
completion_ans = completion[-1]['content']
return 1.0 if completion_ans == answer else 0.0
rubric = Rubric(funcs=[correct_answer])
env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)
return env
要将环境模块安装到你的项目中,请执行:
prime env install my-env # 从 ./environments/my_env 安装
要从环境中心安装环境到你的项目中,请执行:
prime env install primeintellect/math-python
要使用任何 OpenAI 兼容的模型运行本地评估,请执行:
prime eval run my-env -m gpt-5-nano # 运行并本地保存评估结果
评估默认使用 Prime Inference;你可以在 ./configs/endpoints.toml 中配置自己的 API 端点。
在终端 UI 中查看本地评估结果:
prime eval tui
要将环境发布到环境中心,请执行:
prime env push --path ./environments/my_env
要直接从环境中心运行评估,请执行:
prime eval run primeintellect/math-python
环境 — 创建数据集、评分标准和自定义的多轮交互协议。
评估 — 使用你的环境评估模型。
训练 — 在你的环境中使用强化学习训练模型。
开发 — 为 verifiers 做贡献。
API 参考 — 理解 API 和数据结构。
常见问题 — 其他常见问题。
最初由 Will Brown (@willccbb) 创建。
如果你在研究中使用了此代码,请引用:
@misc{brown_verifiers_2025,
author = {William Brown},
title = {{Verifiers}: Environments for LLM Reinforcement Learning},
howpublished = {\url{https://github.com/PrimeIntellect-ai/verifiers}},
note = {Commit abcdefg • accessed DD Mon YYYY},
year = {2025}
}