OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  硬件

美光押注“堆叠式 GDDR”:填补 HBM 与显存之间的 AI 带宽断层

 
  arch ·  2026-03-31 09:25:46 · 9 次点击  · 0 条评论  

在 AI 算力需求持续攀升的背景下,存储体系正成为继 GPU 之后的下一块关键瓶颈。近期,(美光)被曝已启动“堆叠式 GDDR(Stacked GDDR)”研发,试图在高带宽内存(HBM)与传统显存之间,开辟一条新的技术路径。

根据披露信息,美光计划在 2026 年下半年完成相关设备部署并进入工艺验证阶段,最早于 2027 年推出约 4 层堆叠的工程样品。这一时间点恰好对应 AI 推理规模化落地的关键窗口,也让“堆叠式 GDDR”成为 AI 基础设施领域一个值得关注的变量。


为什么是现在:AI 推理侧的“带宽焦虑”

过去两年,AI 硬件竞争的焦点集中在训练侧,HBM 成为事实标准配置。但随着大模型逐步进入商业化部署阶段,推理负载正在快速放大,其特点是:

  • 请求频率高、并发强
  • 对延迟敏感(尤其是实时 Agent / Copilot 类应用)
  • 成本约束远高于训练阶段

这带来一个结构性问题:

HBM 带宽虽高,但成本与功耗难以支撑大规模推理部署;传统 GDDR 成本低,但带宽不足以支撑复杂模型推理。

也就是说,当前 AI 硬件体系中存在一个“带宽与成本之间的断层”。

美光的堆叠式 GDDR,正是瞄准这一空白区间——

  • 带宽高于传统 GDDR
  • 成本显著低于 HBM
  • 面向 AI 推理与高端图形计算

技术路径:从“平面显存”走向“轻量堆叠”

从工程角度看,堆叠式 GDDR本质上是对传统显存的一次“3D 化升级”,但其复杂度明显低于 HBM。

1. 与 HBM 的差异:封装与互联复杂度

HBM 的核心在于:

  • 通过 TSV(Through-Silicon Via)实现多层 DRAM die 垂直互联
  • 搭配 Interposer(硅中介层)实现与 GPU 的超宽总线连接

这带来极高带宽,但也意味着:

  • 封装成本极高
  • 良率控制困难
  • 对先进封装产线(如 CoWoS)依赖强

相比之下,堆叠式 GDDR预计会采用更“温和”的路径:

  • 层数更少(如 4 层起步)
  • 更可能保留传统 GDDR 的封装接口
  • 降低对先进封装的依赖

换句话说:

它不是“低配版 HBM”,而是“增强版 GDDR”。


2. 带宽提升的核心:局部堆叠 + I/O 优化

堆叠式 GDDR的性能提升,主要来自两个方向:

  • 垂直堆叠带来的容量与并行度提升
  • I/O 频率与信号优化(类似 GDDR6 → GDDR7 的演进)

这意味着在不完全重构 GPU 内存控制器架构的前提下,可以实现带宽跃升。

对于 AI 推理而言,这一点尤为关键:

  • 可以直接复用现有 GPU 生态
  • 降低硬件迁移成本
  • 缩短产品落地周期

3. 工程挑战:功耗、散热与良率三重约束

尽管路径相对温和,但堆叠式 GDDR依然面临多项挑战:

  • 热密度上升:堆叠结构会加剧局部发热
  • 功耗管理复杂:高频 I/O + 多层结构叠加
  • 芯片互联可靠性:层间信号完整性问题
  • 制造良率:多 die 堆叠对缺陷容忍度更低

这些问题决定了该技术短期内更可能先以“小规模高端 SKU”形式出现,而非全面替代现有显存方案。


产业变量:美光的“差异化突围”

当前高端存储市场格局中,HBM 领域由 和 主导,两者在先进封装与客户绑定(尤其是头部 GPU 厂商)方面具备明显优势。

相比之下,美光在 HBM 赛道的切入时间较晚,规模与生态尚在追赶阶段。

堆叠式 GDDR,某种程度上是一种“绕道竞争”策略:

  • 避开 HBM 的正面产能与封装竞争
  • 抢占 AI 推理与消费级高性能市场
  • 利用自身在 GDDR 领域的积累实现快速落地

如果该技术能够成功商业化,其潜在应用场景包括:

  • AI 推理加速卡(中端算力市场)
  • 高端游戏 GPU(GDDR 带宽瓶颈缓解)
  • 边缘 AI 设备(对成本敏感)

对 AI 工程的意义:内存正在成为系统瓶颈

从 AI 系统设计角度看,存储的重要性正在快速上升。

在大模型推理中,性能瓶颈往往不在算力,而在:

  • 权重加载速度(memory bandwidth)
  • KV cache 访问效率
  • 多请求并发下的内存调度

这也解释了为什么:

  • HBM 成为训练标配
  • KV cache 压缩、权重量化(如 INT4/INT8)成为热点
  • 推理优化框架(如 vLLM 类系统)高度依赖内存带宽

堆叠式 GDDR若落地,可能带来两点变化:

  1. 推理硬件分层更加清晰
    - HBM:训练 + 超大模型推理
    - Stacked GDDR:中等规模推理
    - 普通 GDDR:轻量应用

  2. 模型优化策略发生调整
    在带宽提升的前提下,一些激进的压缩策略(如极低比特量化)可能不再是唯一解。


结语:从“算力战争”走向“带宽战争”

过去几年,AI 硬件的叙事核心是算力(FLOPS)。但随着模型规模趋于稳定、推理需求爆发,新的瓶颈逐渐显现:

带宽,正在成为决定 AI 系统效率的关键变量。

美光押注堆叠式 GDDR,本质上是在回答一个问题:

  • 是否存在一种“足够快、但不昂贵”的内存方案,支撑 AI 的规模化部署?

如果答案是肯定的,那么未来的 AI 基础设施竞争,将不只是 GPU 与模型的竞争,还将扩展到:

  • 内存架构设计
  • 封装工艺能力
  • 端到端系统协同

而这,正是下一阶段 AI 工程体系演进的核心战场。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 21 ms
Developed with Cursor