OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

👋 大家好！ verl 是一个由 字节跳动 Seed 团队 发起并由 verl 社区维护的 RL 训练库。

[![GitHub Repo stars](https://img.shields.io/github/stars/volcengine/verl)](https://github.com/volcengine/verl/stargazers) [![Twitter](https://img.shields.io/twitter/follow/verl_project)](https://twitter.com/verl_project)

[![Documentation](https://img.shields.io/badge/documentation-blue)](https://verl.readthedocs.io/en/latest/)

seed logo

verl: 火山引擎大语言模型强化学习库

verl 是一个灵活、高效且可用于生产的大语言模型（LLM）强化学习训练库。

verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。

verl 灵活易用，具有以下特点：

轻松扩展多样化的 RL 算法：混合控制器编程模型能够灵活表示并高效执行复杂的后训练数据流。只需几行代码即可构建 GRPO、PPO 等 RL 数据流。
通过模块化 API 无缝集成现有 LLM 基础设施：解耦计算与数据依赖，可与现有 LLM 框架（如 FSDP、Megatron-LM、vLLM、SGLang 等）无缝集成。
灵活的设备映射：支持将模型灵活部署到不同的 GPU 集合上，以实现高效的资源利用和跨不同集群规模的可扩展性。
开箱即用的 HuggingFace 模型集成

verl 性能卓越，具有以下优势：

业界领先的吞吐量：集成了 SOTA 的 LLM 训练和推理引擎，并提供 SOTA 的 RL 训练吞吐量。
通过 3D-HybridEngine 实现高效的 Actor 模型重分片：消除内存冗余，并显著减少训练和生成阶段切换时的通信开销。

最新动态

[2026/01] verl 已迁移至 verl-project 组织。
[2026/01] verl 首次线下见面会于 01/10 在上海成功举办，由火山引擎和 NVIDIA 联合主办，相关幻灯片已上传至 verl-data。
[2026/01] recipe 目录已迁移至独立仓库：verl-recipe 并作为子模块添加。详情见 https://github.com/volcengine/verl/pull/4795。执行 git submodule update --init --recursive recipe 后即可正常使用。请注意，transfer_queue、fully_async_policy、one_step_off_policy 和 vla 仍保留在 verl/experimental 目录下，因为它们计划合并到主库中。可通过 verl.experimental.{module} 使用它们。
[2025/12] Mind Lab 成功使用 verl 和 Megatron-bridge 在 64 张 H800 GPU 上为万亿参数模型训练了 GRPO LoRA - 参见他们的技术博客。
[2025/10] verl 在 PyTorch Conference 2025 上进行了展示。
[2025/08] verl 在 PyTorch Expert Exchange Webinar 上进行了展示。幻灯片已发布。
[2025/07] ReTool 配方已完全开源。博客
[2025/07] 首次 verl 线下见面会将于 7 月 16 日在 ICML 温哥华举行！如果您在 ICML，请加入我们！（仅限现场）
[2025/06] 结合 Megatron 后端，verl 支持训练大型 MoE 模型，如 DeepSeek-671B 和 Qwen3-235B。
[2025/03] DAPO 是开源的 SOTA RL 算法，基于 Qwen2.5-32B 预训练模型在 AIME 2024 上取得了 50 分，超越了之前由 DeepSeek 的 GRPO（DeepSeek-R1-Zero-Qwen-32B）创造的 SOTA。DAPO 的训练完全由 verl 驱动，复现代码现已在 recipe/dapo 中提供。

更多...

[2025/04] [Seed-Thinking-v1.5](https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf) 技术报告发布！使用 verl 训练，Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分，在 Codeforces 上达到 55.0 分，在 GPQA 上达到 77.3 分，展现了在 STEM 和编程领域卓越的推理能力。该方法在推理任务之外，也表现出跨领域的良好泛化性。
[2025/07] verl 在 [AWS AI Hours Singapore](https://pages.awscloud.com/aws-ai-hours-sg.html#agenda)（7/8）进行主题演讲，在 [Agent for SWE meetup](https://lu.ma/e498qhsi)（7/11，由 LF AI & Data Singapore 组织）分享 verl & verl-agent 项目更新。
[2025/06] verl 团队将于 6 月 7 日在 [PyTorch Day China](https://www.lfasiallc.com/pytorch-day-china/) 分享最新项目进展。在北京与我们的开发团队见面！
[2025/04] [VAPO](https://arxiv.org/pdf/2504.05118)（基于值的增强 PPO）论文介绍了我们最新的推理模型 RL 方法。从 Qwen-32B-base 模型训练，VAPO 在 AIME 2024 上达到 60.4 分，超越了 DAPO-32B。
[2025/05] [PF-PPO](https://arxiv.org/abs/2409.06957)（被 ICML 2025 接收）现已在 verl 中支持！PF-PPO 通过过滤潜在噪声奖励信号和通过回放缓冲区重用高质量经验，提高了策略学习的效率和鲁棒性。
[2025/04] 我们将在 [ICLR 2025 Expo](https://iclr.cc/virtual/2025/calendar?filter_events=Expo+Talk+Panel&filter_rooms=)、[SCI-FM workshop](https://open-foundation-model.github.io/) 和 [LMSys afterparty](https://lu.ma/d23nyynm) 举办关于最新后训练技术和 verl 编程指南的教程。演讲材料见[此处](https://github.com/eric-haibin-lin/verl-community/tree/main/iclr25)。
[2025/03] verl v0.3.0.post1 发布！详情见[发布说明](https://github.com/volcengine/verl/releases/)。与之前版本相比，实现了[约 1.4 倍的加速](https://tongyx361.github.io/blogs/posts/verl-intro/#/verl-flexible-and-efficient-rl-for-llms)。
[2025/05] verl 将在 [A2M Shanghai](https://a2m.msup.com.cn/home/?aid=4488&city=shanghai)（5/16 - 5/17）进行展示。
[2025/05] verl 将在 [GOSIM x PyTorch Day 2025](https://paris2025.gosim.org/) 进行展示。巴黎见！
[2025/03] 我们在 [vLLM 北京见面会](https://mp.weixin.qq.com/s/n77GibL2corAtQHtVEAzfg) 介绍了 verl 的编程模型，并在 [SGLang-LMSYS Org Meetup](https://lu.ma/ntjrr7ig)（Sunnyvale，三月中旬）分享了 [verl 介绍与更新](https://github.com/eric-haibin-lin/verl-community/blob/main/slides/verl-lmsys-meetup.pdf)。
[2025/03] 我们将在 EuroSys 2025 上展示 verl（HybridFlow）。鹿特丹见！
[2025/02] verl v0.2.0.post2 发布！
[2025/02] 我们在 Bytedance/NVIDIA/Anyscale Ray Meetup 上展示了 verl。圣何塞见！
[2025/01] [Doubao-1.5-pro](https://team.doubao.com/zh/special/doubao_1_5_pro) 发布，在 LLM & VLM 上达到 SOTA 水平。其 RL 扩展预览模型使用 verl 训练，在数学基准测试上达到 OpenAI O1 级别性能（AIME 70.0 pass@1）。
[2024/12] verl 在 Ray Forward 2024 上展示。幻灯片见此处
[2024/12] 团队在 NeurIPS 2024 上展示了 Post-training LLMs: From Algorithms to Infrastructure。幻灯片和视频已发布。
[2024/10] verl 在 Ray Summit 上展示。Youtube 视频已发布。
[2024/08] HybridFlow (verl) 被 EuroSys 2025 接收。

核心特性

训练支持：FSDP、FSDP2 和 Megatron-LM。
生成支持：vLLM、SGLang 和 HF Transformers。
兼容 Hugging Face Transformers 和 Modelscope Hub：Qwen-3、Qwen-2.5、Llama3.1、Gemma2、DeepSeek-LLM 等。
监督微调。
强化学习算法支持：PPO、GRPO、GSPO、ReMax、REINFORCE++、RLOO、PRIME、DAPO、DrGRPO、KL_Cov & Clip_Cov 等。
支持基于模型的奖励和基于函数的奖励（可验证奖励），适用于数学、代码等任务。
支持视觉语言模型（VLM）和多模态 RL，如 Qwen2.5-vl、Kimi-VL。
支持多轮对话与工具调用。
LLM 对齐配方，如自对弈偏好优化 (SPPO)。
支持 Flash attention 2、序列打包、通过 DeepSpeed Ulysses 实现的序列并行、LoRA、Liger-kernel。
通过专家并行可扩展至 671B 模型和数百张 GPU。
多 GPU LoRA RL 支持以节省内存。
实验跟踪支持 wandb、swanlab、mlflow 和 tensorboard。
硬件支持：支持 NVIDIA、AMD、昇腾。

即将推出的功能与变更

Q3 路线图 https://github.com/volcengine/verl/issues/2388
结合 Megatron 优化 DeepSeek 671b https://github.com/volcengine/verl/issues/1033
多轮生成与工具调用的优化 https://github.com/volcengine/verl/issues/1882
智能体集成
异步和离策略架构 https://github.com/volcengine/verl/pull/2231
v0.4 以来的破坏性变更列表 https://github.com/volcengine/verl/discussions/2270

快速开始

文档

快速入门：

安装
快速开始
[编程指南](https://verl.readthed

项目地址：https://github.com/volcengine/verl

60 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Verl — 高性能、可扩展的强化学习训练框架

verl: 火山引擎大语言模型强化学习库

最新动态

核心特性

即将推出的功能与变更

快速开始