美光押注“堆叠式 GDDR”：填补 HBM 与显存之间的 AI 带宽断层

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

在 AI 算力需求持续攀升的背景下，存储体系正成为继 GPU 之后的下一块关键瓶颈。近期，（美光）被曝已启动“堆叠式 GDDR（Stacked GDDR）”研发，试图在高带宽内存（HBM）与传统显存之间，开辟一条新的技术路径。

根据披露信息，美光计划在 2026 年下半年完成相关设备部署并进入工艺验证阶段，最早于 2027 年推出约 4 层堆叠的工程样品。这一时间点恰好对应 AI 推理规模化落地的关键窗口，也让“堆叠式 GDDR”成为 AI 基础设施领域一个值得关注的变量。

为什么是现在：AI 推理侧的“带宽焦虑”

过去两年，AI 硬件竞争的焦点集中在训练侧，HBM 成为事实标准配置。但随着大模型逐步进入商业化部署阶段，推理负载正在快速放大，其特点是：

请求频率高、并发强
对延迟敏感（尤其是实时 Agent / Copilot 类应用）
成本约束远高于训练阶段

这带来一个结构性问题：

HBM 带宽虽高，但成本与功耗难以支撑大规模推理部署；传统 GDDR 成本低，但带宽不足以支撑复杂模型推理。

也就是说，当前 AI 硬件体系中存在一个“带宽与成本之间的断层”。

美光的堆叠式 GDDR，正是瞄准这一空白区间——

带宽高于传统 GDDR
成本显著低于 HBM
面向 AI 推理与高端图形计算

技术路径：从“平面显存”走向“轻量堆叠”

从工程角度看，堆叠式 GDDR本质上是对传统显存的一次“3D 化升级”，但其复杂度明显低于 HBM。

1. 与 HBM 的差异：封装与互联复杂度

HBM 的核心在于：

通过 TSV（Through-Silicon Via）实现多层 DRAM die 垂直互联
搭配 Interposer（硅中介层）实现与 GPU 的超宽总线连接

这带来极高带宽，但也意味着：

封装成本极高
良率控制困难
对先进封装产线（如 CoWoS）依赖强

相比之下，堆叠式 GDDR预计会采用更“温和”的路径：

层数更少（如 4 层起步）
更可能保留传统 GDDR 的封装接口
降低对先进封装的依赖

换句话说：

它不是“低配版 HBM”，而是“增强版 GDDR”。

2. 带宽提升的核心：局部堆叠 + I/O 优化

堆叠式 GDDR的性能提升，主要来自两个方向：

垂直堆叠带来的容量与并行度提升
I/O 频率与信号优化（类似 GDDR6 → GDDR7 的演进）

这意味着在不完全重构 GPU 内存控制器架构的前提下，可以实现带宽跃升。

对于 AI 推理而言，这一点尤为关键：

可以直接复用现有 GPU 生态
降低硬件迁移成本
缩短产品落地周期

3. 工程挑战：功耗、散热与良率三重约束

尽管路径相对温和，但堆叠式 GDDR依然面临多项挑战：

热密度上升：堆叠结构会加剧局部发热
功耗管理复杂：高频 I/O + 多层结构叠加
芯片互联可靠性：层间信号完整性问题
制造良率：多 die 堆叠对缺陷容忍度更低

这些问题决定了该技术短期内更可能先以“小规模高端 SKU”形式出现，而非全面替代现有显存方案。

产业变量：美光的“差异化突围”

当前高端存储市场格局中，HBM 领域由和主导，两者在先进封装与客户绑定（尤其是头部 GPU 厂商）方面具备明显优势。

相比之下，美光在 HBM 赛道的切入时间较晚，规模与生态尚在追赶阶段。

堆叠式 GDDR，某种程度上是一种“绕道竞争”策略：

避开 HBM 的正面产能与封装竞争
抢占 AI 推理与消费级高性能市场
利用自身在 GDDR 领域的积累实现快速落地

如果该技术能够成功商业化，其潜在应用场景包括：

AI 推理加速卡（中端算力市场）
高端游戏 GPU（GDDR 带宽瓶颈缓解）
边缘 AI 设备（对成本敏感）

对 AI 工程的意义：内存正在成为系统瓶颈

从 AI 系统设计角度看，存储的重要性正在快速上升。

在大模型推理中，性能瓶颈往往不在算力，而在：

权重加载速度（memory bandwidth）
KV cache 访问效率
多请求并发下的内存调度

这也解释了为什么：

HBM 成为训练标配
KV cache 压缩、权重量化（如 INT4/INT8）成为热点
推理优化框架（如 vLLM 类系统）高度依赖内存带宽

堆叠式 GDDR若落地，可能带来两点变化：

推理硬件分层更加清晰
- HBM：训练 + 超大模型推理
- Stacked GDDR：中等规模推理
- 普通 GDDR：轻量应用
模型优化策略发生调整
在带宽提升的前提下，一些激进的压缩策略（如极低比特量化）可能不再是唯一解。

结语：从“算力战争”走向“带宽战争”

过去几年，AI 硬件的叙事核心是算力（FLOPS）。但随着模型规模趋于稳定、推理需求爆发，新的瓶颈逐渐显现：

带宽，正在成为决定 AI 系统效率的关键变量。

美光押注堆叠式 GDDR，本质上是在回答一个问题：

是否存在一种“足够快、但不昂贵”的内存方案，支撑 AI 的规模化部署？

如果答案是肯定的，那么未来的 AI 基础设施竞争，将不只是 GPU 与模型的竞争，还将扩展到：

内存架构设计
封装工艺能力
端到端系统协同

而这，正是下一阶段 AI 工程体系演进的核心战场。

9 次点击 ∙ 0 人收藏

登录后收藏

0 条回复