在大模型持续扩张、Agent 应用落地加速的背景下,算力瓶颈正在从“GPU 不够”转向更底层的资源约束——内存。戴尔科技集团 CEO 迈克尔·戴尔近日对外发出预警:到 2028 年,全球 AI 加速器所需内存规模将较 2023 年增长 625 倍。这一数字不仅意味着硬件需求的爆发,更预示着 AI 基础设施正在逼近一个系统性重构的拐点。
对于 AI 技术社区而言,这一趋势的意义并不只是“缺货”或“涨价”,而是将深刻影响模型架构设计、推理优化路径以及云厂商的资源调度策略。
过去几年,行业对算力的讨论更多集中在 FLOPS(算力)与 GPU 数量上,但随着 Transformer 架构规模持续扩大,模型对显存(VRAM)和高带宽内存(HBM)的依赖正在迅速上升。
这一轮需求爆发,核心来自两个叠加因素:
二者叠加,直接推高整体内存需求达到数量级跃迁。
背后的技术动因很清晰:
在这些趋势下,内存不再只是“配套资源”,而是直接决定模型是否可运行、推理是否可扩展的关键约束。
当前 AI 加速器高度依赖 HBM(High Bandwidth Memory)作为核心存储介质,其优势在于超高带宽与低延迟,但也带来了新的瓶颈:
这意味着,即使 GPU 芯片本身可以扩产,HBM 也可能成为“卡脖子”的核心环节。
对于 AI 工程实践者来说,这已经在现实中体现为:
从供应链视角看,内存短缺的根本原因并非单一技术问题,而是产业周期与资本投入的结构性矛盾。
结果是:需求以指数级增长,而供给只能线性爬坡。
与此同时,各国推动“主权 AI”(Sovereign AI)的战略,使得算力与数据中心建设具备刚性需求属性,进一步加剧了供需错配。
值得关注的是,这一硬件约束正在反向塑造 AI 技术路径。
可以说,未来几年 AI 工程优化的核心,将越来越多围绕“如何在有限内存下运行更大模型”。
对于云服务商而言,这场内存危机意味着资源调度逻辑的重构:
同时,围绕内存的创新也在加速:
迈克尔·戴尔的预警,本质上揭示的是 AI 基础设施的一次范式转移:
瓶颈正在从算力本身,转向算力背后的“数据搬运能力”——也就是内存。
在未来三到五年内,谁能更高效地利用内存、压缩内存需求、重构内存架构,谁就更有可能在大模型竞争中占据优势。
对于开发者而言,这意味着需要重新审视模型设计与系统优化策略;对于企业而言,则意味着 AI 投资将不再只是“买 GPU”,而是进入一场更复杂的基础设施博弈。
当内存成为新的稀缺资源,AI 的竞争维度,也随之被重新定义。