大模型推理进入“跨数据中心协同”时代：PrfaaS 架构重构 KVCache 流动与算力调度

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

随着大模型推理负载持续攀升，单一数据中心内“算力+带宽绑定”的传统服务模式正逼近效率上限。近期，Moonshot AI 与清华大学联合提出的 PrfaaS（Prefill-as-a-Service）架构，试图从系统层面重写大模型推理的资源组织方式，将计算、网络与存储解耦，并首次在工程上系统化实现“跨数据中心协同推理”。

对于关注 LLM serving、推理优化与基础设施演进的技术社区而言，这一方向的意义，远不止性能提升本身。

导语：瓶颈不在模型，而在系统

当前主流大模型推理流程，普遍遵循两阶段范式：

预填充（Prefill）：处理输入上下文，生成 KVCache，计算密集
解码（Decode）：逐 token 生成输出，带宽与内存访问密集

问题在于，这两个阶段对硬件资源的需求结构截然不同，但在传统部署中却被强行绑定在同一数据中心甚至同一集群内完成。这种“同构部署”带来两个直接后果：

GPU 计算资源与内存带宽资源难以同时高效利用
KVCache 生成与消费之间缺乏弹性，导致排队与拥塞

在高并发、多长短请求混合的真实场景中，这种耦合会迅速放大为系统级瓶颈。

PrfaaS 的核心思路：让 KVCache 跨数据中心流动

PrfaaS 的关键创新在于，将预填充阶段“服务化”，并与解码阶段进行物理分离：

预填充任务被调度到专门的高算力集群（通常位于计算资源更充裕的数据中心）
生成的 KVCache 通过通用以太网传输到另一侧的解码集群
解码集群专注于带宽密集型任务，实现高吞吐 token 生成

这一设计本质上将 KVCache 从“本地中间态”升级为“可传输的一等数据对象”。

从系统视角看，这类似于将大模型推理拆分为两个微服务：prefill service 与 decode service，并通过网络进行解耦。

性能与效率：从资源绑定到资源匹配

实验结果显示，PrfaaS 在整体服务吞吐上可实现约 54% 的提升，同时在实际案例中还带来了更低延迟。这种收益并非来自单点优化，而是资源匹配效率的系统性提升：

计算密集任务集中在高 FLOPS 集群，提高 GPU 利用率
带宽密集任务分离到内存优化节点，减少资源争抢
不同类型请求（长上下文 vs 短请求）可被更精细调度

换句话说，PrfaaS 的优势在于“把对的任务放到对的地方”，而不是单纯提升某一类硬件性能。

关键机制：路由与调度成为新核心

要让 KVCache 在数据中心之间高效流动，仅靠简单拆分远远不够，PrfaaS 在系统设计上引入了两项关键机制：

精细化路由（Fine-grained Routing）

系统通过识别请求特征（如上下文长度、优先级等），决定：

是否进行跨数据中心分发
选择哪个 prefill 集群与 decode 集群组合
KVCache 传输路径与带宽分配

这一过程类似于为每个请求构建“最优路径”，避免长请求阻塞短请求，提升整体 tail latency 表现。

双时间尺度调度（Dual-timescale Scheduling）

PrfaaS 将调度拆分为两个时间维度：

短时间尺度：快速响应实时流量波动，处理突发请求
长时间尺度：进行全局资源规划与负载均衡

这种设计使系统既能应对瞬时高并发，又能维持长期资源利用率稳定。

网络成为新瓶颈：以太网能否承载 AI 推理？

将 KVCache 跨数据中心传输，意味着网络不再只是“辅助组件”，而成为核心性能变量。

KVCache 的体量与模型规模直接相关，在长上下文场景下，其数据量可能达到数百 MB 甚至更高。因此，PrfaaS 的可行性依赖于：

高带宽、低延迟的跨数据中心网络
高效的序列化与传输协议
对丢包与抖动的容错机制

值得注意的是，该方案选择基于通用以太网，而非专用高速互联（如 InfiniBand），这在成本与可扩展性上更具现实意义，但也对协议栈优化提出更高要求。

对 AI 工程实践的启示

PrfaaS 并非仅适用于超大规模公司，其设计理念对整个 AI 工程社区具有普适价值：

解耦推理阶段：将 prefill 与 decode 拆分，有助于更灵活地利用异构资源
重视 KVCache 生命周期管理：包括缓存复用、传输与存储策略
网络即算力：跨节点通信能力正在成为系统性能上限的重要决定因素
调度系统升级为核心组件：从简单队列演进为全局优化器

对于正在构建大模型服务平台的团队而言，这意味着优化重点需要从“单机性能”转向“分布式系统设计”。

结语：从“单集群推理”走向“算力网络”

PrfaaS 的提出，标志着大模型推理架构开始从“单数据中心内优化”迈向“跨数据中心协同”。这背后的趋势是：算力不再是固定资产，而是可以在网络中动态调度的资源。

当 KVCache 可以在不同数据中心之间自由流动，推理系统的设计边界也随之被打破。未来的大模型服务，可能更像一个“算力网络”——计算、存储与带宽按需组合，而非预先绑定。

对于 AI 基础设施而言，这或许是继分布式训练之后，下一个关键的系统范式迁移。

4 次点击 ∙ 0 人收藏

登录后收藏

0 条回复