OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  DeepSpeed — 大模型训练优化

DeepSpeed — 大模型训练优化

 
  jwt ·  2026-02-28 00:42:39 · 4 次点击  · 0 条评论  

License Apache 2.0
PyPI version
Downloads
Build
OpenSSF Best Practices
Twitter
Japanese Twitter
Chinese Zhihu
Slack

最新动态

更多新闻

深度学习训练的极致速度与规模

DeepSpeed 曾助力训练出当时世界上最强大的语言模型,例如 MT-530BBLOOM。DeepSpeed 融合了多项系统创新,使大规模深度学习训练变得高效且易于使用,并重新定义了深度学习训练在规模上的可能性。这些创新包括 ZeRO、ZeRO-Infinity、3D 并行、Ulysses 序列并行、DeepSpeed-MoE 等。


DeepSpeed 的采用

DeepSpeed 是微软 AI at Scale 计划的重要组成部分,旨在实现下一代规模化 AI 能力,更多信息可在此处找到。

DeepSpeed 已被用于训练许多不同的大规模模型,以下是我们已知的几个示例列表(如果您希望添加您的模型,请提交 PR):

DeepSpeed 已与多个流行的开源深度学习框架集成,例如:

文档
Transformers with DeepSpeed
Accelerate with DeepSpeed
Lightning with DeepSpeed
MosaicML with DeepSpeed
Determined with DeepSpeed
MMEngine with DeepSpeed

构建流水线状态

描述 状态
NVIDIA nv-pre-compile-ops aws-torch-latest
AMD amd-mi200
CPU torch-latest-cpu
Intel Gaudi hpu-gaudi2
Intel XPU xpu-max1100
集成 aws-accelerate
其他 Formatting pages-build-deployment Documentation Statuspython
华为昇腾 NPU Huawei Ascend NPU

安装

开始使用 DeepSpeed 最快的方式是通过 pip,这将安装 DeepSpeed 的最新版本,该版本不绑定特定的 PyTorch 或 CUDA 版本。DeepSpeed 包含多个我们通常称为“算子”的 C++/CUDA 扩展。默认情况下,所有这些扩展/算子都将使用 torch 依赖 ninja 的 JIT C++ 扩展加载器进行即时(JIT)编译,并在运行时动态链接。

要求

  • 安装 DeepSpeed 之前 必须先安装 PyTorch
  • 为了获得完整的特性支持,我们建议 PyTorch 版本 >= 1.9,最好是 PyTorch 最新的稳定版本。
  • 用于编译 C++/CUDA/HIP 扩展的 CUDA 或 ROCm 编译器,例如 nvcchipcc
  • 我们开发和测试所针对的特定 GPU 如下所列,这并不意味着您的 GPU 如果不属于这些类别就无法工作,只是 DeepSpeed 在以下架构上经过了最充分的测试:
  • NVIDIA:Pascal、Volta、Ampere 和 Hopper 架构
  • AMD:MI100 和 MI200

贡献的硬件支持

  • DeepSpeed 现在支持多种硬件加速器。
贡献者 硬件 加速器名称 贡献者已验证 上游已验证
华为 华为昇腾 NPU npu
英特尔 Intel(R) Gaudi(R) 2 AI accelerator hpu
英特尔 Intel(R) Xeon(R) Processors cpu
英特尔 Intel(R) Data Center GPU Max series xpu
Tecorigin Scalable Data Analytics Accelerator sdaa

PyPI

我们定期向 PyPI 推送发布版本,并鼓励用户在大多数情况下从那里安装。

pip install deepspeed

安装后,您可以通过 DeepSpeed 环境报告来验证安装并查看您的机器兼容哪些扩展/算子。

ds_report

如果您希望预安装任何 DeepSpeed 扩展/算子(而不是 JIT 编译)或通过 PyPI 安装预编译的算子,请参阅我们的高级安装说明

Windows

许多 DeepSpeed 功能在 Windows 上支持训练和推理。您可以在原始博客文章此处阅读更多相关信息。目前不支持的功能包括异步 I/O (AIO) 和 GDS(GDS 不支持 Windows)。
1. 安装 PyTorch,例如 pytorch 2.3+cu121。
2. 安装 Visual C++ 生成工具,例如 VS2022 C++ x64/x86 生成工具。
3. 以管理员权限启动 Cmd 控制台以创建所需的符号链接文件夹,并确保 MSVC 工具已添加到您的 PATH 中;或者以管理员权限启动 Visual Studio 2022 的开发者命令提示符。
4. 运行 build_win.batdist 文件夹中构建 wheel 包。

进一步阅读

所有 DeepSpeed 文档、教程和博客都可以在我们的网站上找到:deepspeed.ai

描述
入门指南 使用 DeepSpeed 的第一步
DeepSpeed JSON 配置 配置 DeepSpeed
API 文档 生成的 DeepSpeed API 文档
教程 教程
博客 博客

CI 资金支持

作为一个开源项目,我们依赖他人为我们提供 CI 硬件资源。目前,Modal 通过资助硬件来支持我们的 GPU CI 运行。Modal 是一个用于推理、微调、批处理作业等的 AI 基础设施平台。立即开始使用每月 30 美元的免费额度:https://modal.com。我们得到了 Modal 团队的出色支持,并强烈推荐他们的服务。

贡献

DeepSpeed 欢迎您的贡献!

4 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor