随着 AI 推理需求快速爆发,新的硬件架构正在进入产业核心。据产业链消息,在 NVIDIA 投资 Groq 后,其 Language Processing Unit (LPU) 出货规划被大幅上调。市场预计 2026–2027 年 LPU 总出货量将达到约 400 万至 500 万颗,相较此前年度规模,可能出现 10 倍以上的数量级增长。
其中:
这一趋势意味着 AI 推理硬件市场正进入新的扩张周期。
LPU 的需求快速增长,主要来自两方面。
Groq 的 LPU 若能够与 Nvidia 生态系统深度兼容,例如 CUDA,将极大降低开发者在 AI 应用部署时的门槛。
开发者可以在熟悉的工具链中使用不同硬件,从而减少迁移成本。
近年来,大量新型 AI 应用对 毫秒级推理延迟提出了更高要求,例如:
LPU 架构专注于 推理 decode 阶段的极低延迟,因此在这些场景中具备明显优势。
为了维持低延迟推理优势,并应对 长上下文推理带来的 KV Cache 内存需求增长,Nvidia 计划升级服务器机柜架构:
该方案通过增加内存容量来支撑更大的上下文窗口,同时保持推理速度。
预计量产时间:
机柜出货量预测:
未来 LPU 是否能成为主流推理硬件,关键取决于 Nvidia 生态的整合程度,业内主要关注三点:
1. 网络互联架构
这些技术将决定 LPU 集群是否能像 GPU 集群一样扩展。
2. 开发者接口统一
若开发者在部署时无需区分 GPU 与 LPU,将极大加速生态 adoption。
3. 编译与推理框架支持
关键在于是否支持 LPU 的 compile-first 架构,让模型编译后在 LPU 上实现高效推理。
LPU 服务器机柜的大规模量产,也将带动上游硬件产业链。
其中,PCB 供应商 沪电股份 被视为关键参与者。
新一代 LPU/LPX 机柜将首次大规模采用 CCL M9 高端材料。
如果顺利量产:
过去几年,AI 基础设施的核心竞争集中在 训练算力。
但随着 AI Agent、实时 AI 服务和长上下文模型兴起,推理算力正在成为新的战略高地。
如果 LPU 能顺利融入 Nvidia 生态,未来 AI 数据中心可能形成新的硬件格局:
GPU 负责训练,LPU 专注超低延迟推理。
这也意味着,AI 芯片市场的竞争将从单一 GPU 体系,逐渐走向 多架构协同的时代。