KServe 是一个标准化的分布式生成式与预测式 AI 推理平台,用于在 Kubernetes 上进行可扩展、多框架的模型部署。
KServe 已被众多组织采用,并且是云原生计算基金会 (CNCF) 的孵化项目。
欲了解更多详情,请访问 KServe 官方网站。

一个在 Kubernetes 上统一生成式 AI 与预测式 AI 推理的单一平台。它足够简单,可快速部署;也足够强大,能通过高级功能处理企业级的 AI 工作负载。
生成式 AI
* 🧠 LLM 优化:提供 OpenAI 兼容的推理协议,便于与大语言模型无缝集成。
* 🚅 GPU 加速:支持 GPU 的高性能服务,并为大模型提供优化的内存管理。
* 💾 模型缓存:智能模型缓存,减少加载时间,提升常用模型的响应速度。
* 🗂️ KV 缓存卸载:高级内存管理,可将 KV 缓存卸载到 CPU/磁盘,高效处理长序列。
* 📈 自动扩缩容:针对生成式工作负载模式优化的、基于请求的自动扩缩容能力。
* 🔧 Hugging Face 就绪:原生支持 Hugging Face 模型,提供简化的部署工作流。
预测式 AI
* 🧮 多框架支持:支持 TensorFlow、PyTorch、scikit-learn、XGBoost、ONNX 等。
* 🔀 智能路由:在预测器、转换器和解释器组件之间无缝路由请求,并自动管理流量。
* 🔄 高级部署:支持金丝雀发布、推理管道以及使用 InferenceGraph 的模型集成。
* ⚡ 自动扩缩容:针对预测式工作负载的、支持缩容至零的基于请求的自动扩缩容。
* 🔍 模型可解释性:内置支持模型解释和特征归因,帮助理解预测逻辑。
* 📊 高级监控:支持有效负载日志记录、异常值检测、对抗性检测和漂移检测。
* 💰 成本效益:在非使用时段将昂贵资源缩容至零,降低基础设施成本。
要了解更多关于 KServe 的信息、如何使用其支持的各种功能以及如何参与 KServe 社区,请参阅 KServe 官方网站文档。
此外,我们还整理了演示文稿和演示视频列表,以便深入了解各项细节。
KServe 是 Kubeflow 的重要附加组件,请参阅 Kubeflow KServe 文档了解更多。查看以下指南以了解如何在 AWS 或 OpenShift Container Platform 上运行。
感谢我们所有出色的贡献者!