OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Google

从 GPU 依赖到自研算力闭环:Google 联手 Marvell 押注“内存计算+TPU”重构大模型基础设施

 
  macmini ·  2026-04-20 11:18:41 · 6 次点击  · 0 条评论  

在大模型训练与推理需求持续膨胀的背景下,AI 算力竞争正从“芯片性能”转向“系统级架构”。最新消息显示,Google 正与 Marvell 深度合作开发两款定制 AI 芯片,其中包括一款面向内存计算的处理单元(Memory Processing Unit, MPU)以及新一代 TPU。这一组合不仅是产品升级,更是对现有 AI 计算范式的一次结构性重写。

对于 AI 工程与基础设施领域而言,这意味着一个清晰信号:瓶颈正在从算力本身,转向数据搬运与系统协同。

导语:AI 训练的真正瓶颈是“数据流”,而非 FLOPS

在当前主流大模型架构中,计算与数据访问之间的不匹配日益突出:

  • GPU/TPU 的算力(FLOPS)持续增长
  • 内存带宽与数据搬运效率提升相对缓慢
  • KVCache、参数分片与激活值在不同层级频繁移动

结果是,大量计算资源被“等待数据”所浪费。尤其是在超大模型训练(如数千亿参数)中,数据搬运开销甚至可以占据总时间的主要部分。

Google 此次引入 MPU 的核心目标,正是试图缓解这一“memory wall”。

MPU:将计算推向数据,而不是反过来

所谓 Memory Processing Unit,本质上是一种“近内存计算”(Near-Memory Computing)或“存算一体”的实现路径。其设计理念是:

  • 将部分计算逻辑部署在更接近内存的位置
  • 减少数据在 HBM、缓存与计算核心之间的来回传输
  • 提升整体数据吞吐效率

在大模型场景中,这种架构尤其适用于:

  • Attention 机制中的 KVCache 访问
  • Embedding 查找与更新
  • 大规模矩阵运算中的数据预处理

通过与 TPU 协同,MPU 可以承担“数据调度与预处理”角色,而 TPU 则专注于高密度计算,从而形成更清晰的职责划分。

这实际上是在芯片层面实现一种“数据面(data plane)+计算面(compute plane)”的分离。

新一代 TPU:为大模型原生优化

除了 MPU,Google 还在推进新一代 TPU 的设计。相比通用 GPU,这类 ASIC(专用集成电路)通常具备以下优势:

  • 针对 Transformer 结构优化的算子(如矩阵乘、softmax、attention)
  • 更高的能效比(performance per watt)
  • 更紧密的网络互联(用于大规模并行训练)

当 TPU 与 MPU 形成组合后,其潜在优势不仅体现在单节点性能,还包括:

  • 更高效的分布式训练(减少跨节点数据同步压力)
  • 更低的推理延迟(优化 token 生成路径)
  • 更稳定的成本结构(减少对外部 GPU 价格波动的依赖)

为什么 Google 必须“去 GPU 依赖”?

当前 AI 产业链中,Nvidia GPU 仍占据主导地位,但这种集中化也带来了几个问题:

  • 采购成本高且波动大
  • 供应链存在不确定性
  • 硬件架构并非完全为特定业务优化

对于像 Google 这样的云厂商而言,长期依赖通用 GPU,会在成本与差异化上受到限制。因此,自研 TPU 并引入更细粒度的协同芯片(如 MPU),成为必然选择。

更关键的是,这种自研能力可以直接转化为云服务竞争力。

云业务视角:算力即产品

Google Cloud 的增长,很大程度上依赖其 AI 基础设施能力。相比单纯提供 GPU 实例,自研芯片带来的优势在于:

  • 可以提供“端到端优化”的 AI 服务(模型 + 硬件 +调度)
  • 在价格上具备更强弹性
  • 更容易构建差异化产品(如专用训练/推理服务)

通过与 Marvell 这类具备 ASIC 定制经验的厂商合作,Google 能够加速芯片落地周期,同时降低研发与制造风险。

这类合作模式,也正在成为云厂商构建算力生态的主流路径。

对 AI 工程的影响:系统设计优先级上升

从工程角度看,这一趋势意味着几个重要变化:

  • 从算子优化转向数据路径优化:如何减少数据搬运,将成为性能关键
  • 硬件感知编程(Hardware-aware Programming)增强:模型设计需要考虑底层架构特性
  • 异构计算成为常态:TPU、MPU、CPU、GPU 等多种单元协同工作
  • 编译器与运行时的重要性提升:需要自动调度任务到最合适的计算单元

例如,在训练过程中,某些 attention 计算可能优先调度到 MPU 侧处理,而核心矩阵乘法仍由 TPU 执行,这种细粒度调度需要更智能的 runtime 支持。

结语:AI 芯片竞争进入“系统协同”时代

Google 与 Marvell 的合作,表面上是两款芯片的研发,实质上是一次对 AI 基础设施架构的再设计。

在大模型时代,单一芯片性能的提升已难以支撑需求增长,真正的竞争焦点正在转向:

  • 数据如何流动
  • 计算如何分配
  • 系统如何协同

当“内存计算 + 专用加速器”成为主流组合,AI 算力的形态也将从单一设备,演进为一个高度协同的计算网络。

这场变革的终局,可能不再是“谁拥有最多 GPU”,而是“谁能以最低成本、高效率地组织算力”。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor