在大模型训练与推理需求持续膨胀的背景下,AI 算力竞争正从“芯片性能”转向“系统级架构”。最新消息显示,Google 正与 Marvell 深度合作开发两款定制 AI 芯片,其中包括一款面向内存计算的处理单元(Memory Processing Unit, MPU)以及新一代 TPU。这一组合不仅是产品升级,更是对现有 AI 计算范式的一次结构性重写。
对于 AI 工程与基础设施领域而言,这意味着一个清晰信号:瓶颈正在从算力本身,转向数据搬运与系统协同。
在当前主流大模型架构中,计算与数据访问之间的不匹配日益突出:
结果是,大量计算资源被“等待数据”所浪费。尤其是在超大模型训练(如数千亿参数)中,数据搬运开销甚至可以占据总时间的主要部分。
Google 此次引入 MPU 的核心目标,正是试图缓解这一“memory wall”。
所谓 Memory Processing Unit,本质上是一种“近内存计算”(Near-Memory Computing)或“存算一体”的实现路径。其设计理念是:
在大模型场景中,这种架构尤其适用于:
通过与 TPU 协同,MPU 可以承担“数据调度与预处理”角色,而 TPU 则专注于高密度计算,从而形成更清晰的职责划分。
这实际上是在芯片层面实现一种“数据面(data plane)+计算面(compute plane)”的分离。
除了 MPU,Google 还在推进新一代 TPU 的设计。相比通用 GPU,这类 ASIC(专用集成电路)通常具备以下优势:
当 TPU 与 MPU 形成组合后,其潜在优势不仅体现在单节点性能,还包括:
当前 AI 产业链中,Nvidia GPU 仍占据主导地位,但这种集中化也带来了几个问题:
对于像 Google 这样的云厂商而言,长期依赖通用 GPU,会在成本与差异化上受到限制。因此,自研 TPU 并引入更细粒度的协同芯片(如 MPU),成为必然选择。
更关键的是,这种自研能力可以直接转化为云服务竞争力。
Google Cloud 的增长,很大程度上依赖其 AI 基础设施能力。相比单纯提供 GPU 实例,自研芯片带来的优势在于:
通过与 Marvell 这类具备 ASIC 定制经验的厂商合作,Google 能够加速芯片落地周期,同时降低研发与制造风险。
这类合作模式,也正在成为云厂商构建算力生态的主流路径。
从工程角度看,这一趋势意味着几个重要变化:
例如,在训练过程中,某些 attention 计算可能优先调度到 MPU 侧处理,而核心矩阵乘法仍由 TPU 执行,这种细粒度调度需要更智能的 runtime 支持。
Google 与 Marvell 的合作,表面上是两款芯片的研发,实质上是一次对 AI 基础设施架构的再设计。
在大模型时代,单一芯片性能的提升已难以支撑需求增长,真正的竞争焦点正在转向:
当“内存计算 + 专用加速器”成为主流组合,AI 算力的形态也将从单一设备,演进为一个高度协同的计算网络。
这场变革的终局,可能不再是“谁拥有最多 GPU”,而是“谁能以最低成本、高效率地组织算力”。