OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  AI

大模型推理进入“跨数据中心协同”时代:PrfaaS 架构重构 KVCache 流动与算力调度

 
  serenity ·  2026-04-20 11:16:45 · 4 次点击  · 0 条评论  

随着大模型推理负载持续攀升,单一数据中心内“算力+带宽绑定”的传统服务模式正逼近效率上限。近期,Moonshot AI 与清华大学联合提出的 PrfaaS(Prefill-as-a-Service)架构,试图从系统层面重写大模型推理的资源组织方式,将计算、网络与存储解耦,并首次在工程上系统化实现“跨数据中心协同推理”。

对于关注 LLM serving、推理优化与基础设施演进的技术社区而言,这一方向的意义,远不止性能提升本身。

导语:瓶颈不在模型,而在系统

当前主流大模型推理流程,普遍遵循两阶段范式:

  • 预填充(Prefill):处理输入上下文,生成 KVCache,计算密集
  • 解码(Decode):逐 token 生成输出,带宽与内存访问密集

问题在于,这两个阶段对硬件资源的需求结构截然不同,但在传统部署中却被强行绑定在同一数据中心甚至同一集群内完成。这种“同构部署”带来两个直接后果:

  • GPU 计算资源与内存带宽资源难以同时高效利用
  • KVCache 生成与消费之间缺乏弹性,导致排队与拥塞

在高并发、多长短请求混合的真实场景中,这种耦合会迅速放大为系统级瓶颈。

PrfaaS 的核心思路:让 KVCache 跨数据中心流动

PrfaaS 的关键创新在于,将预填充阶段“服务化”,并与解码阶段进行物理分离:

  • 预填充任务被调度到专门的高算力集群(通常位于计算资源更充裕的数据中心)
  • 生成的 KVCache 通过通用以太网传输到另一侧的解码集群
  • 解码集群专注于带宽密集型任务,实现高吞吐 token 生成

这一设计本质上将 KVCache 从“本地中间态”升级为“可传输的一等数据对象”。

从系统视角看,这类似于将大模型推理拆分为两个微服务:prefill servicedecode service,并通过网络进行解耦。

性能与效率:从资源绑定到资源匹配

实验结果显示,PrfaaS 在整体服务吞吐上可实现约 54% 的提升,同时在实际案例中还带来了更低延迟。这种收益并非来自单点优化,而是资源匹配效率的系统性提升:

  • 计算密集任务集中在高 FLOPS 集群,提高 GPU 利用率
  • 带宽密集任务分离到内存优化节点,减少资源争抢
  • 不同类型请求(长上下文 vs 短请求)可被更精细调度

换句话说,PrfaaS 的优势在于“把对的任务放到对的地方”,而不是单纯提升某一类硬件性能。

关键机制:路由与调度成为新核心

要让 KVCache 在数据中心之间高效流动,仅靠简单拆分远远不够,PrfaaS 在系统设计上引入了两项关键机制:

精细化路由(Fine-grained Routing)

系统通过识别请求特征(如上下文长度、优先级等),决定:

  • 是否进行跨数据中心分发
  • 选择哪个 prefill 集群与 decode 集群组合
  • KVCache 传输路径与带宽分配

这一过程类似于为每个请求构建“最优路径”,避免长请求阻塞短请求,提升整体 tail latency 表现。

双时间尺度调度(Dual-timescale Scheduling)

PrfaaS 将调度拆分为两个时间维度:

  • 短时间尺度:快速响应实时流量波动,处理突发请求
  • 长时间尺度:进行全局资源规划与负载均衡

这种设计使系统既能应对瞬时高并发,又能维持长期资源利用率稳定。

网络成为新瓶颈:以太网能否承载 AI 推理?

将 KVCache 跨数据中心传输,意味着网络不再只是“辅助组件”,而成为核心性能变量。

KVCache 的体量与模型规模直接相关,在长上下文场景下,其数据量可能达到数百 MB 甚至更高。因此,PrfaaS 的可行性依赖于:

  • 高带宽、低延迟的跨数据中心网络
  • 高效的序列化与传输协议
  • 对丢包与抖动的容错机制

值得注意的是,该方案选择基于通用以太网,而非专用高速互联(如 InfiniBand),这在成本与可扩展性上更具现实意义,但也对协议栈优化提出更高要求。

对 AI 工程实践的启示

PrfaaS 并非仅适用于超大规模公司,其设计理念对整个 AI 工程社区具有普适价值:

  • 解耦推理阶段:将 prefill 与 decode 拆分,有助于更灵活地利用异构资源
  • 重视 KVCache 生命周期管理:包括缓存复用、传输与存储策略
  • 网络即算力:跨节点通信能力正在成为系统性能上限的重要决定因素
  • 调度系统升级为核心组件:从简单队列演进为全局优化器

对于正在构建大模型服务平台的团队而言,这意味着优化重点需要从“单机性能”转向“分布式系统设计”。

结语:从“单集群推理”走向“算力网络”

PrfaaS 的提出,标志着大模型推理架构开始从“单数据中心内优化”迈向“跨数据中心协同”。这背后的趋势是:算力不再是固定资产,而是可以在网络中动态调度的资源。

当 KVCache 可以在不同数据中心之间自由流动,推理系统的设计边界也随之被打破。未来的大模型服务,可能更像一个“算力网络”——计算、存储与带宽按需组合,而非预先绑定。

对于 AI 基础设施而言,这或许是继分布式训练之后,下一个关键的系统范式迁移。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor