随着大模型推理负载持续攀升,单一数据中心内“算力+带宽绑定”的传统服务模式正逼近效率上限。近期,Moonshot AI 与清华大学联合提出的 PrfaaS(Prefill-as-a-Service)架构,试图从系统层面重写大模型推理的资源组织方式,将计算、网络与存储解耦,并首次在工程上系统化实现“跨数据中心协同推理”。
对于关注 LLM serving、推理优化与基础设施演进的技术社区而言,这一方向的意义,远不止性能提升本身。
当前主流大模型推理流程,普遍遵循两阶段范式:
问题在于,这两个阶段对硬件资源的需求结构截然不同,但在传统部署中却被强行绑定在同一数据中心甚至同一集群内完成。这种“同构部署”带来两个直接后果:
在高并发、多长短请求混合的真实场景中,这种耦合会迅速放大为系统级瓶颈。
PrfaaS 的关键创新在于,将预填充阶段“服务化”,并与解码阶段进行物理分离:
这一设计本质上将 KVCache 从“本地中间态”升级为“可传输的一等数据对象”。
从系统视角看,这类似于将大模型推理拆分为两个微服务:prefill service 与 decode service,并通过网络进行解耦。
实验结果显示,PrfaaS 在整体服务吞吐上可实现约 54% 的提升,同时在实际案例中还带来了更低延迟。这种收益并非来自单点优化,而是资源匹配效率的系统性提升:
换句话说,PrfaaS 的优势在于“把对的任务放到对的地方”,而不是单纯提升某一类硬件性能。
要让 KVCache 在数据中心之间高效流动,仅靠简单拆分远远不够,PrfaaS 在系统设计上引入了两项关键机制:
系统通过识别请求特征(如上下文长度、优先级等),决定:
这一过程类似于为每个请求构建“最优路径”,避免长请求阻塞短请求,提升整体 tail latency 表现。
PrfaaS 将调度拆分为两个时间维度:
这种设计使系统既能应对瞬时高并发,又能维持长期资源利用率稳定。
将 KVCache 跨数据中心传输,意味着网络不再只是“辅助组件”,而成为核心性能变量。
KVCache 的体量与模型规模直接相关,在长上下文场景下,其数据量可能达到数百 MB 甚至更高。因此,PrfaaS 的可行性依赖于:
值得注意的是,该方案选择基于通用以太网,而非专用高速互联(如 InfiniBand),这在成本与可扩展性上更具现实意义,但也对协议栈优化提出更高要求。
PrfaaS 并非仅适用于超大规模公司,其设计理念对整个 AI 工程社区具有普适价值:
对于正在构建大模型服务平台的团队而言,这意味着优化重点需要从“单机性能”转向“分布式系统设计”。
PrfaaS 的提出,标志着大模型推理架构开始从“单数据中心内优化”迈向“跨数据中心协同”。这背后的趋势是:算力不再是固定资产,而是可以在网络中动态调度的资源。
当 KVCache 可以在不同数据中心之间自由流动,推理系统的设计边界也随之被打破。未来的大模型服务,可能更像一个“算力网络”——计算、存储与带宽按需组合,而非预先绑定。
对于 AI 基础设施而言,这或许是继分布式训练之后,下一个关键的系统范式迁移。