在大模型训练与推理规模持续膨胀的背景下,AI 基础设施正遭遇一个愈发突出的瓶颈——内存。近期,被曝尝试将原本服务于游戏 GPU 的 GDDR 显存进行堆叠与重组,作为大容量内存方案供应给 AI 数据中心。这一思路虽然在带宽上不及 HBM3 等高端方案,但在容量维度上提供了新的解法,也可能对 GPU 显存市场带来连锁冲击。
随着大模型参数规模进入万亿级别,以及长上下文(long context)与多模态推理的普及,AI 系统的瓶颈正从单纯的算力(FLOPs)转向内存与带宽:
在这一背景下,高带宽内存(HBM)成为关键资源。以 为代表的解决方案,通过 3D 堆叠与超宽总线提供极高带宽,但其成本、产能与封装复杂度,也成为限制 AI 基础设施扩展的关键因素。
相比之下,GDDR(Graphics DDR)原本主要用于游戏 GPU,例如 的消费级显卡。其特点是:
Micron 的思路,本质上是利用 GDDR 的供应链优势,通过堆叠与系统级集成,构建“高容量但中等带宽”的内存池,用于部分 AI 场景。
这一方案并非要替代 HBM,而更像是“分层内存架构”的补充:
从系统设计角度看,这类似于 CPU 体系中的 L1/L2 cache 与主内存分层,只不过在 AI 加速器中,这种分层尚处于快速演进阶段。
如果 GDDR 堆叠方案被广泛采用,AI 工程体系将面临新的挑战:
内存调度复杂化
不同带宽与延迟特性的内存并存,需要更精细的数据分配策略。例如哪些 tensor 保留在 HBM,哪些迁移至 GDDR。
编译器与运行时适配
深度学习框架(如 PyTorch、XLA 类系统)需要支持异构内存调度,可能引入新的 runtime 优化路径。
模型结构调整
一些模型架构可能需要针对“带宽受限但容量充足”的环境优化,例如减少频繁访问的大规模参数块。
推理服务分层
在在线推理中,可以将冷数据(如历史上下文)放入 GDDR 层,将热点 KV cache 保留在 HBM。
从这个角度看,GDDR 的引入不仅是硬件变化,更可能推动一轮软件栈重构。
值得注意的是,这一策略可能对消费级市场产生外溢影响。GDDR 作为游戏显卡的核心显存类型,一旦被 AI 数据中心大规模采购,可能导致:
类似的情况此前已经在 GPU 芯片本身出现——AI 需求挤占了部分消费级市场供给。若 GDDR 也被纳入 AI 基础设施竞争,整个显卡生态可能进一步向数据中心倾斜。
Micron 的尝试,本质上反映出 AI 基础设施正在从单一最优解(如全 HBM 架构)走向更现实的工程折中:
这一趋势与模型侧的演进形成呼应:一方面是超大模型不断突破上限,另一方面是小模型与高效推理技术(如量化、蒸馏)不断降低门槛。
在 AI 时代,算力不再只是 GPU 核心数量的比拼,内存容量与带宽正在成为决定系统上限的关键变量。Micron 推动 GDDR 进入数据中心,虽然是一种“曲线解法”,却精准命中了当前行业的核心痛点。
可以预见,未来 AI 基础设施的竞争,将不只是芯片之争,更是围绕“如何在带宽、容量与成本之间找到最优平衡”的系统工程竞赛。