DeepSeek DeepGEMM 进化：Mega MoE 融合算子与 FP4 精度，重塑大模型算力利用边界

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

在大模型进入“规模红利递减、效率红利上升”的阶段，算子层优化正成为 AI 基础设施竞争的关键战场。4 月 16 日，DeepSeek 对其高性能算子库 DeepGEMM 进行了一次面向大模型场景的深度升级，核心亮点直指当前最受关注的两大方向：MoE（Mixture of Experts）架构优化与超低精度计算。

此次发布的 Mega MoE 融合算子与 FP4 精度支持，并非简单性能补丁，而是一次围绕“计算-通信协同”和“精度-效率权衡”的系统性重构，目标是进一步压榨 GPU 的有效利用率，尤其是在大规模分布式训练与推理场景中。

从“算子拼接”到“融合执行”：Mega MoE 的关键跃迁

MoE 架构已经成为当下大模型扩展参数规模的重要路径，但其性能瓶颈长期集中在两个方面：专家路由带来的通信开销，以及多阶段算子之间的执行割裂。

DeepGEMM 此次推出的 Mega MoE 融合算子，本质上是对 MoE 执行路径的一次“内联化改造”。传统流程中，dispatch（路由分发）、激活函数（如 SwiGLU）、GEMM 计算以及跨 GPU 通信通常分散在多个 kernel 中执行，带来频繁的同步与数据搬运。

Mega MoE 的核心思路是将这些步骤进行融合，并通过与 NVLink 通信的重叠执行，实现“算-传并行”。这带来几个直接收益：

减少 kernel launch 开销与同步等待
提高 GPU SM（Streaming Multiprocessor）占用率
显著降低 MoE 场景中的尾延迟（tail latency）
在多卡环境下提升整体吞吐

从工程视角看，这种融合不仅是 kernel 层优化，更接近于对执行图（execution graph）的重排与压缩，使得原本松散的 pipeline 变成更紧凑的执行单元。

对称内存与通信隐藏：MoE 性能瓶颈的新解法

在多专家模型中，跨设备的数据交换是不可避免的。DeepGEMM 在 Mega MoE 中引入了“对称内存”（symmetric memory）机制，用于优化跨 GPU 的数据访问路径。

其核心思想是让不同 GPU 上的数据布局保持结构一致，从而降低通信复杂度，并配合 NVLink 带宽进行高效数据交换。这一设计与融合算子结合，使通信不再是阻塞点，而是被嵌入到计算流程中“隐形完成”。

这种策略与当前主流分布式训练框架中的通信优化（如 overlap communication）理念一致，但 DeepGEMM 将其下沉到了算子级别，进一步减少了上层框架的调度负担。

FP4 正式登场：低精度计算进入新阶段

如果说 MoE 优化解决的是“如何更快地算”，那么 FP4 支持则回答了“是否可以用更少资源去算”。

此次更新中，DeepGEMM 引入了：

FP8xFP4 GEMM 混合精度算子
FP4 Indexer（用于高效索引与数据布局）
针对低精度优化的数据路径

FP4（4-bit floating point）相比 FP8、FP16，进一步压缩了显存占用与带宽需求。在大模型推理中，这意味着：

更高的 batch size
更低的显存压力
更好的成本效率比（cost per token）

但低精度的挑战在于数值稳定性与精度损失。DeepGEMM 选择以 FP8xFP4 混合形式切入，实际上是一种工程上的折中：在关键计算路径保留较高精度，同时在存储或部分计算阶段使用 FP4，以实现整体性能收益。

这一趋势也与行业方向一致——从 FP16 → FP8 → FP4，低精度正在成为大模型推理基础设施的“标配能力”，而不再是实验性优化。

JIT 与 PDL：重新定义算子库的工程体验

除了计算性能，DeepGEMM 此次还对开发体验进行了明显优化，尤其体现在两个方面：

1. 更快的 JIT 编译

DeepGEMM 采用运行时即时编译（JIT）的方式生成 CUDA kernel，这使其无需在安装阶段进行复杂编译，降低了部署门槛。此次更新显著提升了 JIT 编译速度，意味着：

更短的冷启动时间
更高效的动态优化能力
更适合快速迭代的模型开发流程

2. PDL（Programmatic Dependent Launch）

PDL 的引入，使 kernel launch 可以基于运行时条件动态触发，从而减少不必要的同步与调度。这对于复杂计算图（尤其是 MoE 动态路由场景）尤为关键。

从系统设计角度看，PDL 让算子库具备了一定程度的“执行调度智能”，进一步模糊了框架与算子之间的边界。

面向新一代 GPU：SM90/SM100 的算力榨取

DeepGEMM 针对 NVIDIA 最新架构（SM90、SM100）进行了深度优化，并已在 H800 等硬件上验证了高算力利用率。

这背后反映的是一个更广泛的趋势：随着 GPU 架构快速迭代，通用算子库越来越难以充分发挥硬件潜力，定制化 kernel 与 JIT 编译正在成为主流路径。

DeepGEMM 的轻量化设计（无需预编译）与架构感知优化，使其更接近“面向模型场景的算力编译器”，而不仅仅是一个静态算子集合。

AI 工程视角：DeepGEMM 的战略意义

从 AI 工程与基础设施角度看，这次更新的意义可以归纳为三点：

MoE 实用化推进：通过融合算子与通信优化，降低 MoE 在生产环境中的性能门槛
低精度普及加速：FP4 的引入将进一步推动推理成本下降，尤其是在大规模部署场景
算子层成为新竞争焦点：随着模型结构趋同，性能差异正逐渐转移到 kernel 与编译层

对于 AI 技术社区而言，这类更新的价值不仅在于“更快”，更在于提供了一种新的优化范式：从框架调度下沉到算子融合，从精度设计延伸到系统架构。

在大模型竞争进入深水区之后，类似 DeepGEMM 这样的底层能力，很可能决定谁能真正把模型规模转化为可持续的算力优势。

3 次点击 ∙ 0 人收藏

登录后收藏

0 条回复