👋 大家好!
verl 是一个由 字节跳动 Seed 团队 发起并由 verl 社区维护的 RL 训练库。

verl: 火山引擎大语言模型强化学习库
verl 是一个灵活、高效且可用于生产的大语言模型(LLM)强化学习训练库。
verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。
verl 灵活易用,具有以下特点:
- 轻松扩展多样化的 RL 算法:混合控制器编程模型能够灵活表示并高效执行复杂的后训练数据流。只需几行代码即可构建 GRPO、PPO 等 RL 数据流。
- 通过模块化 API 无缝集成现有 LLM 基础设施:解耦计算与数据依赖,可与现有 LLM 框架(如 FSDP、Megatron-LM、vLLM、SGLang 等)无缝集成。
- 灵活的设备映射:支持将模型灵活部署到不同的 GPU 集合上,以实现高效的资源利用和跨不同集群规模的可扩展性。
- 开箱即用的 HuggingFace 模型集成
verl 性能卓越,具有以下优势:
- 业界领先的吞吐量:集成了 SOTA 的 LLM 训练和推理引擎,并提供 SOTA 的 RL 训练吞吐量。
- 通过 3D-HybridEngine 实现高效的 Actor 模型重分片:消除内存冗余,并显著减少训练和生成阶段切换时的通信开销。
最新动态
更多...
- [2025/04] [Seed-Thinking-v1.5](https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf) 技术报告发布!使用 verl 训练,Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展现了在 STEM 和编程领域卓越的推理能力。该方法在推理任务之外,也表现出跨领域的良好泛化性。
- [2025/07] verl 在 [AWS AI Hours Singapore](https://pages.awscloud.com/aws-ai-hours-sg.html#agenda)(7/8)进行主题演讲,在 [Agent for SWE meetup](https://lu.ma/e498qhsi)(7/11,由 LF AI & Data Singapore 组织)分享 verl & verl-agent 项目更新。
- [2025/06] verl 团队将于 6 月 7 日在 [PyTorch Day China](https://www.lfasiallc.com/pytorch-day-china/) 分享最新项目进展。在北京与我们的开发团队见面!
- [2025/04] [VAPO](https://arxiv.org/pdf/2504.05118)(基于值的增强 PPO)论文介绍了我们最新的推理模型 RL 方法。从 Qwen-32B-base 模型训练,VAPO 在 AIME 2024 上达到 60.4 分,超越了 DAPO-32B。
- [2025/05] [PF-PPO](https://arxiv.org/abs/2409.06957)(被 ICML 2025 接收)现已在 verl 中支持!PF-PPO 通过过滤潜在噪声奖励信号和通过回放缓冲区重用高质量经验,提高了策略学习的效率和鲁棒性。
- [2025/04] 我们将在 [ICLR 2025 Expo](https://iclr.cc/virtual/2025/calendar?filter_events=Expo+Talk+Panel&filter_rooms=)、[SCI-FM workshop](https://open-foundation-model.github.io/) 和 [LMSys afterparty](https://lu.ma/d23nyynm) 举办关于最新后训练技术和 verl 编程指南的教程。演讲材料见[此处](https://github.com/eric-haibin-lin/verl-community/tree/main/iclr25)。
- [2025/03] verl v0.3.0.post1 发布!详情见[发布说明](https://github.com/volcengine/verl/releases/)。与之前版本相比,实现了[约 1.4 倍的加速](https://tongyx361.github.io/blogs/posts/verl-intro/#/verl-flexible-and-efficient-rl-for-llms)。
- [2025/05] verl 将在 [A2M Shanghai](https://a2m.msup.com.cn/home/?aid=4488&city=shanghai)(5/16 - 5/17)进行展示。
- [2025/05] verl 将在 [GOSIM x PyTorch Day 2025](https://paris2025.gosim.org/) 进行展示。巴黎见!
- [2025/03] 我们在 [vLLM 北京见面会](https://mp.weixin.qq.com/s/n77GibL2corAtQHtVEAzfg) 介绍了 verl 的编程模型,并在 [SGLang-LMSYS Org Meetup](https://lu.ma/ntjrr7ig)(Sunnyvale,三月中旬)分享了 [verl 介绍与更新](https://github.com/eric-haibin-lin/verl-community/blob/main/slides/verl-lmsys-meetup.pdf)。
- [2025/03] 我们将在 EuroSys 2025 上展示 verl(HybridFlow)。鹿特丹见!
- [2025/02] verl v0.2.0.post2 发布!
- [2025/02] 我们在 Bytedance/NVIDIA/Anyscale Ray Meetup 上展示了 verl。圣何塞见!
- [2025/01] [Doubao-1.5-pro](https://team.doubao.com/zh/special/doubao_1_5_pro) 发布,在 LLM & VLM 上达到 SOTA 水平。其 RL 扩展预览模型使用 verl 训练,在数学基准测试上达到 OpenAI O1 级别性能(AIME 70.0 pass@1)。
- [2024/12] verl 在 Ray Forward 2024 上展示。幻灯片见此处
- [2024/12] 团队在 NeurIPS 2024 上展示了 Post-training LLMs: From Algorithms to Infrastructure。幻灯片和视频已发布。
- [2024/10] verl 在 Ray Summit 上展示。Youtube 视频已发布。
- [2024/08] HybridFlow (verl) 被 EuroSys 2025 接收。
核心特性
即将推出的功能与变更
- Q3 路线图 https://github.com/volcengine/verl/issues/2388
- 结合 Megatron 优化 DeepSeek 671b https://github.com/volcengine/verl/issues/1033
- 多轮生成与工具调用的优化 https://github.com/volcengine/verl/issues/1882
- 智能体集成
- 异步和离策略架构 https://github.com/volcengine/verl/pull/2231
- v0.4 以来的破坏性变更列表 https://github.com/volcengine/verl/discussions/2270
快速开始
文档
快速入门:
- 安装
- 快速开始
- [编程指南](https://verl.readthed