在大模型从“能力竞赛”进入“规模竞赛”的当下,算力基础设施正成为决定 AI 产业格局的核心变量。近日,宣布扩大与 的芯片合作,并与 达成新的长期协议——后者将获得基于 Google AI 处理器体系的约 3.5 吉瓦(GW)算力容量。
这一合作不仅是一次供应链扩展,更揭示出一个趋势:AI 公司正在从“模型驱动”转向“算力驱动”,而芯片厂商正成为生态中的关键枢纽。
与依赖通用 GPU 不同,Google 长期推动自研 TPU(Tensor Processing Unit)体系,用于训练与推理大模型。
在此次合作中,博通的角色并非简单代工,而是深度参与:
这种模式意味着,AI 算力正在从“通用计算资源”演进为“高度定制化基础设施”。
对于 AI 工程师而言,这将带来直接影响:
- 模型架构需要适配特定硬件(如 TPU-friendly 的算子设计)
- 推理优化不再通用,而是绑定特定硬件栈
- 工具链(如编译器、调度系统)成为关键能力
Anthropic 获得的 3.5GW 算力容量,可以从“电力规模”来理解。
简单对比:
- 1GW 约等于一个中型核电站输出功率
- 3.5GW 对应的是超大规模数据中心集群级别
这反映出当前大模型训练与推理的几个趋势:
训练成本持续上升
frontier 模型需要数十万甚至百万级加速器协同训练
推理需求爆发
Agent 与多模态应用使得推理调用量远超训练阶段
持续在线负载成为常态
企业级 AI 服务需要 7×24 小时稳定运行
换句话说,AI 基础设施已经从“计算问题”转变为“能源与系统工程问题”。
根据披露,Anthropic 当前年化收入已超过 300 亿美元,相比此前约 90 亿美元实现大幅增长,其企业客户中,每年消费超过 100 万美元的客户数量也在快速增加。
这背后体现的是一个正反馈循环:
在这一过程中,算力不再是成本中心,而是直接驱动收入增长的“生产资料”。
长期以来,在 AI 算力市场占据主导地位,但此次合作反映出新的变化:
Google TPU、AWS Trainium、Microsoft Maia 等纷纷进入规模化部署阶段。
博通等厂商通过定制 ASIC,成为连接云厂商与 AI 公司之间的关键节点。
Anthropic 与 Google 的合作,本质上是“模型公司 + 云厂商 + 芯片设计”的三方联盟。
这一结构类似于:
- 模型公司负责算法与产品
- 云厂商提供基础设施与调度
- 芯片厂商提供底层性能优化
算力体系的变化,将直接影响 AI 系统设计:
例如:
- 更适配 TPU 的矩阵运算布局
- 减少跨节点通信开销
- 优化 memory bandwidth 使用
在 GW 级算力规模下:
- 网络拓扑(如 Clos、Dragonfly)成为瓶颈
- 参数同步与梯度压缩需要更高效策略
Agent 场景下:
- 多模型协同调用
- 实时调度与负载均衡
- 延迟与成本的动态权衡
Anthropic 表示,大部分新增基础设施将部署在美国,这一决策也反映出:
在全球范围内,AI 竞争正在从模型与算法,延伸到:
- 芯片制造能力
- 能源供给
- 数据中心基础设施
博通、Google 与 Anthropic 的合作,揭示出一个愈发清晰的趋势:大模型时代的核心竞争,不再只是参数规模,而是围绕算力、能耗与系统效率的综合博弈。
对于 AI 技术社区而言,这意味着关注点需要从“模型本身”扩展到:
当算力以“吉瓦”为单位被讨论时,AI 已经不只是软件工程问题,而成为一项横跨计算、硬件与能源的超级系统工程。