从 GPU 依赖到自研算力闭环：Google 联手 Marvell 押注“内存计算+TPU”重构大模型基础设施

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

在大模型训练与推理需求持续膨胀的背景下，AI 算力竞争正从“芯片性能”转向“系统级架构”。最新消息显示，Google 正与 Marvell 深度合作开发两款定制 AI 芯片，其中包括一款面向内存计算的处理单元（Memory Processing Unit, MPU）以及新一代 TPU。这一组合不仅是产品升级，更是对现有 AI 计算范式的一次结构性重写。

对于 AI 工程与基础设施领域而言，这意味着一个清晰信号：瓶颈正在从算力本身，转向数据搬运与系统协同。

导语：AI 训练的真正瓶颈是“数据流”，而非 FLOPS

在当前主流大模型架构中，计算与数据访问之间的不匹配日益突出：

GPU/TPU 的算力（FLOPS）持续增长
内存带宽与数据搬运效率提升相对缓慢
KVCache、参数分片与激活值在不同层级频繁移动

结果是，大量计算资源被“等待数据”所浪费。尤其是在超大模型训练（如数千亿参数）中，数据搬运开销甚至可以占据总时间的主要部分。

Google 此次引入 MPU 的核心目标，正是试图缓解这一“memory wall”。

MPU：将计算推向数据，而不是反过来

所谓 Memory Processing Unit，本质上是一种“近内存计算”（Near-Memory Computing）或“存算一体”的实现路径。其设计理念是：

将部分计算逻辑部署在更接近内存的位置
减少数据在 HBM、缓存与计算核心之间的来回传输
提升整体数据吞吐效率

在大模型场景中，这种架构尤其适用于：

Attention 机制中的 KVCache 访问
Embedding 查找与更新
大规模矩阵运算中的数据预处理

通过与 TPU 协同，MPU 可以承担“数据调度与预处理”角色，而 TPU 则专注于高密度计算，从而形成更清晰的职责划分。

这实际上是在芯片层面实现一种“数据面（data plane）+计算面（compute plane）”的分离。

新一代 TPU：为大模型原生优化

除了 MPU，Google 还在推进新一代 TPU 的设计。相比通用 GPU，这类 ASIC（专用集成电路）通常具备以下优势：

针对 Transformer 结构优化的算子（如矩阵乘、softmax、attention）
更高的能效比（performance per watt）
更紧密的网络互联（用于大规模并行训练）

当 TPU 与 MPU 形成组合后，其潜在优势不仅体现在单节点性能，还包括：

更高效的分布式训练（减少跨节点数据同步压力）
更低的推理延迟（优化 token 生成路径）
更稳定的成本结构（减少对外部 GPU 价格波动的依赖）

为什么 Google 必须“去 GPU 依赖”？

当前 AI 产业链中，Nvidia GPU 仍占据主导地位，但这种集中化也带来了几个问题：

采购成本高且波动大
供应链存在不确定性
硬件架构并非完全为特定业务优化

对于像 Google 这样的云厂商而言，长期依赖通用 GPU，会在成本与差异化上受到限制。因此，自研 TPU 并引入更细粒度的协同芯片（如 MPU），成为必然选择。

更关键的是，这种自研能力可以直接转化为云服务竞争力。

云业务视角：算力即产品

Google Cloud 的增长，很大程度上依赖其 AI 基础设施能力。相比单纯提供 GPU 实例，自研芯片带来的优势在于：

可以提供“端到端优化”的 AI 服务（模型 + 硬件 +调度）
在价格上具备更强弹性
更容易构建差异化产品（如专用训练/推理服务）

通过与 Marvell 这类具备 ASIC 定制经验的厂商合作，Google 能够加速芯片落地周期，同时降低研发与制造风险。

这类合作模式，也正在成为云厂商构建算力生态的主流路径。

对 AI 工程的影响：系统设计优先级上升

从工程角度看，这一趋势意味着几个重要变化：

从算子优化转向数据路径优化：如何减少数据搬运，将成为性能关键
硬件感知编程（Hardware-aware Programming）增强：模型设计需要考虑底层架构特性
异构计算成为常态：TPU、MPU、CPU、GPU 等多种单元协同工作
编译器与运行时的重要性提升：需要自动调度任务到最合适的计算单元

例如，在训练过程中，某些 attention 计算可能优先调度到 MPU 侧处理，而核心矩阵乘法仍由 TPU 执行，这种细粒度调度需要更智能的 runtime 支持。

结语：AI 芯片竞争进入“系统协同”时代

Google 与 Marvell 的合作，表面上是两款芯片的研发，实质上是一次对 AI 基础设施架构的再设计。

在大模型时代，单一芯片性能的提升已难以支撑需求增长，真正的竞争焦点正在转向：

数据如何流动
计算如何分配
系统如何协同

当“内存计算 + 专用加速器”成为主流组合，AI 算力的形态也将从单一设备，演进为一个高度协同的计算网络。

这场变革的终局，可能不再是“谁拥有最多 GPU”，而是“谁能以最低成本、高效率地组织算力”。

6 次点击 ∙ 0 人收藏

登录后收藏

0 条回复