OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Verl — 高性能、可扩展的强化学习训练框架

Verl — 高性能、可扩展的强化学习训练框架

 
  airpods ·  2026-01-19 09:58:48 · 11 次点击  · 0 条评论  
👋 大家好! verl 是一个由 字节跳动 Seed 团队 发起并由 verl 社区维护的 RL 训练库。

Ask DeepWiki.com [![GitHub Repo stars](https://img.shields.io/github/stars/volcengine/verl)](https://github.com/volcengine/verl/stargazers) [![Twitter](https://img.shields.io/twitter/follow/verl_project)](https://twitter.com/verl_project) [![Documentation](https://img.shields.io/badge/documentation-blue)](https://verl.readthedocs.io/en/latest/)

seed logo

verl: 火山引擎大语言模型强化学习库

verl 是一个灵活、高效且可用于生产的大语言模型(LLM)强化学习训练库。

verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。

verl 灵活易用,具有以下特点:

  • 轻松扩展多样化的 RL 算法:混合控制器编程模型能够灵活表示并高效执行复杂的后训练数据流。只需几行代码即可构建 GRPO、PPO 等 RL 数据流。
  • 通过模块化 API 无缝集成现有 LLM 基础设施:解耦计算与数据依赖,可与现有 LLM 框架(如 FSDP、Megatron-LM、vLLM、SGLang 等)无缝集成。
  • 灵活的设备映射:支持将模型灵活部署到不同的 GPU 集合上,以实现高效的资源利用和跨不同集群规模的可扩展性。
  • 开箱即用的 HuggingFace 模型集成

verl 性能卓越,具有以下优势:

  • 业界领先的吞吐量:集成了 SOTA 的 LLM 训练和推理引擎,并提供 SOTA 的 RL 训练吞吐量。
  • 通过 3D-HybridEngine 实现高效的 Actor 模型重分片:消除内存冗余,并显著减少训练和生成阶段切换时的通信开销。
verl-arch.png

最新动态

  • [2026/01] verl 已迁移至 verl-project 组织。
  • [2026/01] verl 首次线下见面会于 01/10 在上海成功举办,由火山引擎和 NVIDIA 联合主办,相关幻灯片已上传至 verl-data
  • [2026/01] recipe 目录已迁移至独立仓库:verl-recipe 并作为子模块添加。详情见 https://github.com/volcengine/verl/pull/4795。执行 git submodule update --init --recursive recipe 后即可正常使用。请注意,transfer_queuefully_async_policyone_step_off_policyvla 仍保留在 verl/experimental 目录下,因为它们计划合并到主库中。可通过 verl.experimental.{module} 使用它们。
  • [2025/12] Mind Lab 成功使用 verlMegatron-bridge 在 64 张 H800 GPU 上为万亿参数模型训练了 GRPO LoRA - 参见他们的技术博客
  • [2025/10] verl 在 PyTorch Conference 2025 上进行了展示。
  • [2025/08] verl 在 PyTorch Expert Exchange Webinar 上进行了展示。幻灯片 已发布。
  • [2025/07] ReTool 配方已完全开源。博客
  • [2025/07] 首次 verl 线下见面会将于 7 月 16 日在 ICML 温哥华举行!如果您在 ICML,请加入我们!(仅限现场)
  • [2025/06] 结合 Megatron 后端,verl 支持训练大型 MoE 模型,如 DeepSeek-671B 和 Qwen3-235B
  • [2025/03] DAPO 是开源的 SOTA RL 算法,基于 Qwen2.5-32B 预训练模型在 AIME 2024 上取得了 50 分,超越了之前由 DeepSeek 的 GRPO(DeepSeek-R1-Zero-Qwen-32B)创造的 SOTA。DAPO 的训练完全由 verl 驱动,复现代码现已在 recipe/dapo 中提供。
更多...
  • [2025/04] [Seed-Thinking-v1.5](https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf) 技术报告发布!使用 verl 训练,Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展现了在 STEM 和编程领域卓越的推理能力。该方法在推理任务之外,也表现出跨领域的良好泛化性。
  • [2025/07] verl 在 [AWS AI Hours Singapore](https://pages.awscloud.com/aws-ai-hours-sg.html#agenda)(7/8)进行主题演讲,在 [Agent for SWE meetup](https://lu.ma/e498qhsi)(7/11,由 LF AI & Data Singapore 组织)分享 verl & verl-agent 项目更新。
  • [2025/06] verl 团队将于 6 月 7 日在 [PyTorch Day China](https://www.lfasiallc.com/pytorch-day-china/) 分享最新项目进展。在北京与我们的开发团队见面!
  • [2025/04] [VAPO](https://arxiv.org/pdf/2504.05118)(基于值的增强 PPO)论文介绍了我们最新的推理模型 RL 方法。从 Qwen-32B-base 模型训练,VAPO 在 AIME 2024 上达到 60.4 分,超越了 DAPO-32B。
  • [2025/05] [PF-PPO](https://arxiv.org/abs/2409.06957)(被 ICML 2025 接收)现已在 verl 中支持!PF-PPO 通过过滤潜在噪声奖励信号和通过回放缓冲区重用高质量经验,提高了策略学习的效率和鲁棒性。
  • [2025/04] 我们将在 [ICLR 2025 Expo](https://iclr.cc/virtual/2025/calendar?filter_events=Expo+Talk+Panel&filter_rooms=)、[SCI-FM workshop](https://open-foundation-model.github.io/) 和 [LMSys afterparty](https://lu.ma/d23nyynm) 举办关于最新后训练技术和 verl 编程指南的教程。演讲材料见[此处](https://github.com/eric-haibin-lin/verl-community/tree/main/iclr25)。
  • [2025/03] verl v0.3.0.post1 发布!详情见[发布说明](https://github.com/volcengine/verl/releases/)。与之前版本相比,实现了[约 1.4 倍的加速](https://tongyx361.github.io/blogs/posts/verl-intro/#/verl-flexible-and-efficient-rl-for-llms)。
  • [2025/05] verl 将在 [A2M Shanghai](https://a2m.msup.com.cn/home/?aid=4488&city=shanghai)(5/16 - 5/17)进行展示。
  • [2025/05] verl 将在 [GOSIM x PyTorch Day 2025](https://paris2025.gosim.org/) 进行展示。巴黎见!
  • [2025/03] 我们在 [vLLM 北京见面会](https://mp.weixin.qq.com/s/n77GibL2corAtQHtVEAzfg) 介绍了 verl 的编程模型,并在 [SGLang-LMSYS Org Meetup](https://lu.ma/ntjrr7ig)(Sunnyvale,三月中旬)分享了 [verl 介绍与更新](https://github.com/eric-haibin-lin/verl-community/blob/main/slides/verl-lmsys-meetup.pdf)。
  • [2025/03] 我们将在 EuroSys 2025 上展示 verl(HybridFlow)。鹿特丹见!
  • [2025/02] verl v0.2.0.post2 发布!
  • [2025/02] 我们在 Bytedance/NVIDIA/Anyscale Ray Meetup 上展示了 verl。圣何塞见!
  • [2025/01] [Doubao-1.5-pro](https://team.doubao.com/zh/special/doubao_1_5_pro) 发布,在 LLM & VLM 上达到 SOTA 水平。其 RL 扩展预览模型使用 verl 训练,在数学基准测试上达到 OpenAI O1 级别性能(AIME 70.0 pass@1)。
  • [2024/12] verl 在 Ray Forward 2024 上展示。幻灯片见此处
  • [2024/12] 团队在 NeurIPS 2024 上展示了 Post-training LLMs: From Algorithms to Infrastructure幻灯片视频已发布。
  • [2024/10] verl 在 Ray Summit 上展示。Youtube 视频已发布。
  • [2024/08] HybridFlow (verl) 被 EuroSys 2025 接收。

核心特性

即将推出的功能与变更

  • Q3 路线图 https://github.com/volcengine/verl/issues/2388
  • 结合 Megatron 优化 DeepSeek 671b https://github.com/volcengine/verl/issues/1033
  • 多轮生成与工具调用的优化 https://github.com/volcengine/verl/issues/1882
  • 智能体集成
  • 异步和离策略架构 https://github.com/volcengine/verl/pull/2231
  • v0.4 以来的破坏性变更列表 https://github.com/volcengine/verl/discussions/2270

快速开始

文档

快速入门:

11 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 31 ms
Developed with Cursor