在大模型竞争进入“推理成本决定商业化”的阶段后,算力架构本身正成为新的胜负手。最新消息显示,正与芯片新贵 达成一项为期三年的重磅合作协议,总金额可能超过 200 亿美元,整体投入甚至逼近 300 亿美元,并附带潜在股权交换安排。
这一交易并非单纯的算力采购,而更像是一次“硬件路线对冲”:在高度依赖 GPU 的既有体系之外,OpenAI 正尝试构建第二条可规模化的算力路径,以支撑未来更大规模模型训练与低成本推理需求。
Cerebras 成立于 2015 年,其核心产品是所谓的“Wafer-Scale Engine(WSE)”,即晶圆级芯片架构。与传统 GPU 不同,WSE 并不是将单个芯片封装为独立计算单元,而是直接将整片硅晶圆作为一个统一计算系统使用。
这种架构带来几个关键变化:
对于 Transformer 类模型而言,尤其是大规模 attention 计算,这种“单体大芯片”设计在理论上可以显著降低通信开销占比。
换句话说,Cerebras 提供的不是更强的“单卡性能”,而是试图绕开“分布式训练复杂性”的另一种解法。
过去几年,大模型训练高度依赖 GPU(如 A100、H100),但这一模式正暴露出三个问题:
随着模型参数规模从百亿到万亿级跃迁,训练成本与推理成本均呈指数级上升。GPU 集群不仅昂贵,还涉及:
高端 GPU 长期处于供不应求状态,使得模型公司在扩展算力时面临明显瓶颈。这种依赖单一供应商的局面,本身就是战略风险。
当前主流 AI 工程体系(CUDA、cuDNN、TensorRT)深度绑定 NVIDIA 生态。一旦模型公司想切换硬件平台,将面临:
OpenAI 此次与 Cerebras 的合作,本质上是在为未来“去 CUDA 化”预留选项。
值得注意的是,这笔数百亿美元级别的投入,很可能不仅用于训练,更关键的是推理(inference)成本优化。
在 AI 商业化阶段,真正决定毛利率的不是训练一次模型的成本,而是:
Cerebras 的架构如果能够在以下场景取得优势,将直接影响大模型平台竞争格局:
尤其是在 Agent 系统逐步复杂化的背景下,推理调用频次将远高于训练次数,算力成本结构也将随之重构。
消息称,OpenAI 可能通过这笔交易获得 Cerebras 最高约 10% 的股权。这种“采购 + 投资”模式,意味着双方关系不再是简单供需,而更接近半垂直整合。
这在当前 AI 基础设施竞争中并不罕见:
这种结构类似云计算早期 hyperscaler 自建数据中心的路径,只不过这一次,核心资产从“服务器”变成了“AI 专用计算架构”。
从开发者视角看,这一趋势意味着未来 AI 工程将不可避免走向“异构化”:
这也解释了为什么近年来:
换句话说,未来的 AI 工程能力,不只是“调模型”,更是“调硬件”。
OpenAI 与 Cerebras 的合作,标志着大模型竞争正式进入“算力架构分化”阶段。过去由 GPU 主导的统一范式,正在被多种专用架构打破。
短期看,这是一场成本与性能的博弈;长期看,则是生态控制权的再分配。
对于整个 AI 社区而言,一个更现实的问题正在浮现:当模型能力逐渐趋同,谁能以更低成本、更高效率运行这些模型,谁就更接近下一阶段的行业主导权。