[2025年12月] DeepSpeed 核心 API 更新:PyTorch 风格的反向传播与低精度主状态
[2025年11月] DeepSpeed ZeRO++ 助力 LinkedIn 推荐系统大规模语言模型蒸馏训练
[2025年10月] 我们在 Anyscale 举办了 Ray x DeepSpeed 技术交流会。会上分享了我们在 SuperOffload、ZenFlow、Muon 优化器支持、Arctic 长序列训练和 DeepCompile 方面的最新工作。交流会幻灯片请见此处。
[2025年10月] SuperOffload:在超级芯片上释放大规模 LLM 训练的潜力
[2025年10月] 结合 DeepSpeed CPU 核心绑定的 ZenFlow 和 ZeRO 卸载性能研究
[2025年8月] ZenFlow:用于 LLM 训练的无停顿卸载引擎
[2025年6月] 使用 DeepSpeed 进行 Arctic 长序列训练 (ALST):面向数百万 Token 序列的可扩展高效训练
[2025年6月] DeepNVMe:面向深度学习应用的经济高效 I/O 扩展方案
DeepSpeed 曾助力训练出当时世界上最强大的语言模型,例如 MT-530B 和 BLOOM。DeepSpeed 融合了多项系统创新,使大规模深度学习训练变得高效且易于使用,并重新定义了深度学习训练在规模上的可能性。这些创新包括 ZeRO、ZeRO-Infinity、3D 并行、Ulysses 序列并行、DeepSpeed-MoE 等。
DeepSpeed 是微软 AI at Scale 计划的重要组成部分,旨在实现下一代规模化 AI 能力,更多信息可在此处找到。
DeepSpeed 已被用于训练许多不同的大规模模型,以下是我们已知的几个示例列表(如果您希望添加您的模型,请提交 PR):
DeepSpeed 已与多个流行的开源深度学习框架集成,例如:
| 文档 | |
|---|---|
![]() ![]() |
Transformers with DeepSpeed |
![]() ![]() |
Accelerate with DeepSpeed |
| Lightning with DeepSpeed | |
| MosaicML with DeepSpeed | |
| Determined with DeepSpeed | |
![]() |
MMEngine with DeepSpeed |
| 描述 | 状态 |
|---|---|
| NVIDIA | |
| AMD | |
| CPU | |
| Intel Gaudi | |
| Intel XPU | |
| 集成 | |
| 其他 | |
| 华为昇腾 NPU |
开始使用 DeepSpeed 最快的方式是通过 pip,这将安装 DeepSpeed 的最新版本,该版本不绑定特定的 PyTorch 或 CUDA 版本。DeepSpeed 包含多个我们通常称为“算子”的 C++/CUDA 扩展。默认情况下,所有这些扩展/算子都将使用 torch 依赖 ninja 的 JIT C++ 扩展加载器进行即时(JIT)编译,并在运行时动态链接。
| 贡献者 | 硬件 | 加速器名称 | 贡献者已验证 | 上游已验证 |
|---|---|---|---|---|
| 华为 | 华为昇腾 NPU | npu | 是 | 否 |
| 英特尔 | Intel(R) Gaudi(R) 2 AI accelerator | hpu | 是 | 是 |
| 英特尔 | Intel(R) Xeon(R) Processors | cpu | 是 | 是 |
| 英特尔 | Intel(R) Data Center GPU Max series | xpu | 是 | 是 |
| Tecorigin | Scalable Data Analytics Accelerator | sdaa | 是 | 否 |
我们定期向 PyPI 推送发布版本,并鼓励用户在大多数情况下从那里安装。
pip install deepspeed
安装后,您可以通过 DeepSpeed 环境报告来验证安装并查看您的机器兼容哪些扩展/算子。
ds_report
如果您希望预安装任何 DeepSpeed 扩展/算子(而不是 JIT 编译)或通过 PyPI 安装预编译的算子,请参阅我们的高级安装说明。
许多 DeepSpeed 功能在 Windows 上支持训练和推理。您可以在原始博客文章此处阅读更多相关信息。目前不支持的功能包括异步 I/O (AIO) 和 GDS(GDS 不支持 Windows)。
1. 安装 PyTorch,例如 pytorch 2.3+cu121。
2. 安装 Visual C++ 生成工具,例如 VS2022 C++ x64/x86 生成工具。
3. 以管理员权限启动 Cmd 控制台以创建所需的符号链接文件夹,并确保 MSVC 工具已添加到您的 PATH 中;或者以管理员权限启动 Visual Studio 2022 的开发者命令提示符。
4. 运行 build_win.bat 在 dist 文件夹中构建 wheel 包。
所有 DeepSpeed 文档、教程和博客都可以在我们的网站上找到:deepspeed.ai
| 描述 | |
|---|---|
| 入门指南 | 使用 DeepSpeed 的第一步 |
| DeepSpeed JSON 配置 | 配置 DeepSpeed |
| API 文档 | 生成的 DeepSpeed API 文档 |
| 教程 | 教程 |
| 博客 | 博客 |
作为一个开源项目,我们依赖他人为我们提供 CI 硬件资源。目前,Modal 通过资助硬件来支持我们的 GPU CI 运行。Modal 是一个用于推理、微调、批处理作业等的 AI 基础设施平台。立即开始使用每月 30 美元的免费额度:https://modal.com。我们得到了 Modal 团队的出色支持,并强烈推荐他们的服务。
DeepSpeed 欢迎您的贡献!