在大模型进入“规模红利递减、效率红利上升”的阶段,算子层优化正成为 AI 基础设施竞争的关键战场。4 月 16 日,DeepSeek 对其高性能算子库 DeepGEMM 进行了一次面向大模型场景的深度升级,核心亮点直指当前最受关注的两大方向:MoE(Mixture of Experts)架构优化与超低精度计算。
此次发布的 Mega MoE 融合算子与 FP4 精度支持,并非简单性能补丁,而是一次围绕“计算-通信协同”和“精度-效率权衡”的系统性重构,目标是进一步压榨 GPU 的有效利用率,尤其是在大规模分布式训练与推理场景中。
MoE 架构已经成为当下大模型扩展参数规模的重要路径,但其性能瓶颈长期集中在两个方面:专家路由带来的通信开销,以及多阶段算子之间的执行割裂。
DeepGEMM 此次推出的 Mega MoE 融合算子,本质上是对 MoE 执行路径的一次“内联化改造”。传统流程中,dispatch(路由分发)、激活函数(如 SwiGLU)、GEMM 计算以及跨 GPU 通信通常分散在多个 kernel 中执行,带来频繁的同步与数据搬运。
Mega MoE 的核心思路是将这些步骤进行融合,并通过与 NVLink 通信的重叠执行,实现“算-传并行”。这带来几个直接收益:
从工程视角看,这种融合不仅是 kernel 层优化,更接近于对执行图(execution graph)的重排与压缩,使得原本松散的 pipeline 变成更紧凑的执行单元。
在多专家模型中,跨设备的数据交换是不可避免的。DeepGEMM 在 Mega MoE 中引入了“对称内存”(symmetric memory)机制,用于优化跨 GPU 的数据访问路径。
其核心思想是让不同 GPU 上的数据布局保持结构一致,从而降低通信复杂度,并配合 NVLink 带宽进行高效数据交换。这一设计与融合算子结合,使通信不再是阻塞点,而是被嵌入到计算流程中“隐形完成”。
这种策略与当前主流分布式训练框架中的通信优化(如 overlap communication)理念一致,但 DeepGEMM 将其下沉到了算子级别,进一步减少了上层框架的调度负担。
如果说 MoE 优化解决的是“如何更快地算”,那么 FP4 支持则回答了“是否可以用更少资源去算”。
此次更新中,DeepGEMM 引入了:
FP4(4-bit floating point)相比 FP8、FP16,进一步压缩了显存占用与带宽需求。在大模型推理中,这意味着:
但低精度的挑战在于数值稳定性与精度损失。DeepGEMM 选择以 FP8xFP4 混合形式切入,实际上是一种工程上的折中:在关键计算路径保留较高精度,同时在存储或部分计算阶段使用 FP4,以实现整体性能收益。
这一趋势也与行业方向一致——从 FP16 → FP8 → FP4,低精度正在成为大模型推理基础设施的“标配能力”,而不再是实验性优化。
除了计算性能,DeepGEMM 此次还对开发体验进行了明显优化,尤其体现在两个方面:
DeepGEMM 采用运行时即时编译(JIT)的方式生成 CUDA kernel,这使其无需在安装阶段进行复杂编译,降低了部署门槛。此次更新显著提升了 JIT 编译速度,意味着:
PDL 的引入,使 kernel launch 可以基于运行时条件动态触发,从而减少不必要的同步与调度。这对于复杂计算图(尤其是 MoE 动态路由场景)尤为关键。
从系统设计角度看,PDL 让算子库具备了一定程度的“执行调度智能”,进一步模糊了框架与算子之间的边界。
DeepGEMM 针对 NVIDIA 最新架构(SM90、SM100)进行了深度优化,并已在 H800 等硬件上验证了高算力利用率。
这背后反映的是一个更广泛的趋势:随着 GPU 架构快速迭代,通用算子库越来越难以充分发挥硬件潜力,定制化 kernel 与 JIT 编译正在成为主流路径。
DeepGEMM 的轻量化设计(无需预编译)与架构感知优化,使其更接近“面向模型场景的算力编译器”,而不仅仅是一个静态算子集合。
从 AI 工程与基础设施角度看,这次更新的意义可以归纳为三点:
对于 AI 技术社区而言,这类更新的价值不仅在于“更快”,更在于提供了一种新的优化范式:从框架调度下沉到算子融合,从精度设计延伸到系统架构。
在大模型竞争进入深水区之后,类似 DeepGEMM 这样的底层能力,很可能决定谁能真正把模型规模转化为可持续的算力优势。