在 GPU 长期供不应求的背景下,大模型公司开始重新审视“非 GPU 路径”的可行性。最新消息显示,Meta 已与 亚马逊 达成一项数十亿美元级别的长期协议,将大规模租用其自研 Graviton 通用处理器,用于 AI 推理任务。
这一动作释放出一个关键信号:AI 基础设施的竞争,正从“GPU 单一依赖”转向“异构算力协同”。
过去,大模型算力主要集中在训练阶段,GPU 是绝对核心。但随着模型逐渐稳定、应用快速扩张,推理(inference)开始成为成本与规模的主战场。
Meta 此次选择在推理层引入 CPU(Graviton),本质上是在重构 AI 成本结构——将部分负载从昂贵的 GPU 转移到更具性价比的通用计算资源上。
Graviton 是亚马逊基于 ARM 架构自研的通用 CPU,长期用于云计算场景(如 Web 服务、数据库等)。而在 AI 体系中,其角色正在发生变化:
技术上,这类 CPU 推理通常依赖:
虽然单次推理性能不及 GPU,但在大规模并发和成本敏感场景中,CPU 具备明显优势。
Meta 此次合作背后,是其一贯的“算力多元化”策略:
这种策略的核心目标,是避免对单一供应商的依赖,同时在成本、性能与可扩展性之间取得平衡。
在当前 GPU 紧缺的环境下,这种“去中心化”算力布局正在成为头部厂商的共识。
从系统设计角度看,Meta 的这一选择意味着 AI 推理架构正在发生变化:
传统模式:
新型模式(异构调度):
这种架构类似于“分层推理(tiered inference)”,也是当前 AI 基础设施优化的重要方向。
随着 AI 应用进入规模化阶段,推理成本正迅速成为企业的主要支出项。相比训练一次性投入,推理是持续消耗:
在这种背景下,CPU 推理的意义不仅是“可用”,更是“必要”——它提供了一条成本可控的扩展路径。
Meta 与亚马逊的合作,反映出一个更广泛的行业趋势:
这种趋势也在影响 AI 工程实践:
Meta 的这一决策,本质上是在为未来的 AI 应用规模做准备。随着模型能力趋于稳定,真正限制 AI 普及的,将不再是“能否实现”,而是“是否可负担”。
通过引入 CPU 推理并构建异构算力体系,Meta 正在尝试突破这一瓶颈。
在 Agent 与大模型深度融合的下一阶段,谁能更高效地组织算力资源,谁就更有可能掌握 AI 时代的基础设施主动权。