AI 算力瓶颈升级：HBM 成为稀缺资源，DRAM 扩产滞后或重塑大模型竞争格局

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

在生成式 AI 持续推高算力需求的背景下，全球半导体产业正遭遇一个更隐蔽但更关键的约束：内存，尤其是面向 AI 加速器的高带宽内存（HBM），正在成为新的“卡脖子”环节。最新产业动向显示，DRAM 产能扩张速度远落后于市场需求，供给仅能覆盖约六成，这一缺口可能在未来数年持续存在，并直接影响大模型训练、推理以及 AI 基础设施的演进路径。

DRAM 不再只是“配角”：AI 时代的核心瓶颈

在传统计算架构中，CPU 或 GPU 通常是性能瓶颈的核心。但在大模型时代，这一逻辑正在被改写。随着模型参数规模从数十亿跃升至万亿级别，内存带宽与容量成为决定训练效率和推理吞吐的关键因素。

HBM（High Bandwidth Memory）作为堆叠式 DRAM，通过 TSV（硅通孔）技术实现更高带宽和更低延迟，已经成为 AI 芯片（如 GPU、AI ASIC）的标配。无论是大规模分布式训练，还是低延迟推理服务，HBM 的供给能力都直接影响模型部署规模和性能上限。

但问题在于，HBM 的制造复杂度远高于传统 DRAM，其产能爬坡速度明显滞后于需求增长。

三星扩产节奏滞后，HBM 要等到 2028 年

作为全球最大的存储芯片制造商之一，三星电子的扩产计划具有行业风向标意义。根据最新披露的信息：

位于韩国平泽园区的第四座晶圆厂计划今年启用，但全面量产要到 2027 年甚至更晚；
更关键的是，该工厂并非专用于内存，还将承担逻辑芯片制造任务，这意味着其 DRAM 产能扩张空间被进一步压缩；
正在规划中的第五座工厂将聚焦 HBM，但预计投产时间在 2028 年之后。

这一时间表与 AI 算力需求的爆发节奏明显错位。过去两年，大模型训练规模几乎呈指数级增长，而核心内存资源却需要数年才能完成一次产能跃迁。

“60% 供给覆盖率”：缺口如何传导到 AI 生态

当前 DRAM 提产速度只能满足约六成市场需求，这意味着剩余四成需求将通过价格机制和资源分配策略被“筛选”。

对于 AI 技术社区而言，这种供需失衡将带来多层影响：

1. 训练成本进一步上升

HBM 已经是 AI 训练集群中最昂贵的组件之一。供给不足将直接推高 GPU 模组价格（尤其是集成 HBM 的高端加速卡），进而抬高大模型训练门槛。

这将加剧头部公司与中小团队之间的资源差距，使得“算力即壁垒”的趋势更加明显。

2. 推理侧优化成为主战场

在内存资源紧张的情况下，推理效率优化的重要性将进一步提升，包括：

KV Cache 压缩与复用
更高效的 attention 机制（如 FlashAttention）
模型量化（INT8 / FP4）与蒸馏
内存感知调度（memory-aware scheduling）

这些技术路径的核心目标一致：在有限内存带宽和容量下榨取更多性能。

3. 架构创新加速：从“算力中心化”到“存算协同”

内存瓶颈正在推动 AI 硬件架构发生变化，例如：

更紧耦合的 CPU-GPU-内存设计
Chiplet + 先进封装（CoWoS、Foveros）
新型存储介质（如 MRAM、ReRAM）探索
甚至是“近存计算”（Processing-in-Memory, PIM）

这些方向本质上是在重新平衡“计算 vs 数据搬运”的成本结构。

云厂商与开源生态的应对策略

面对 HBM 短缺，云计算厂商和 AI 基础设施提供商已经开始调整策略：

资源池化与调度优化：通过更细粒度的 GPU/内存切分，提高利用率
异构算力混用：结合 HBM 与 GDDR GPU，甚至 CPU offloading
定制芯片（ASIC）：针对特定模型结构优化内存访问模式
开源模型轻量化：社区推动更小参数、更高效率的模型设计（如 MoE、稀疏模型）

可以预见，未来几年 AI 工程的竞争重点，将从“谁有更多 GPU”转向“谁能更高效使用内存与带宽”。

一个被低估的结论：AI 发展节奏将被“物理世界”重新约束

过去两年，大模型的进展更多受算法与数据驱动，但随着硬件资源的边界逐渐显现，半导体制造周期开始重新主导 AI 发展节奏。

HBM 产能的扩张需要数年时间，而不是几个月的工程优化。这种“慢变量”将对 AI 行业产生深远影响：

模型规模增长可能阶段性放缓
更强调效率而非单纯参数堆叠
硬件-软件协同优化成为核心竞争力

从这个角度看，DRAM 与 HBM 的供需失衡，并不仅仅是一次周期性的涨价问题，而是一次对 AI 技术路径的结构性重塑。

对于开发者与研究者来说，理解并适应这一变化，可能比单纯追逐更大的模型，更具长期价值。

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复