KServe

KServe 是一个标准化的分布式生成式与预测式 AI 推理平台，用于在 Kubernetes 上进行可扩展、多框架的模型部署。

KServe 已被众多组织采用，并且是云原生计算基金会 (CNCF) 的孵化项目。

欲了解更多详情，请访问 KServe 官方网站。

KServe

为什么选择 KServe？

一个在 Kubernetes 上统一生成式 AI 与预测式 AI 推理的单一平台。它足够简单，可快速部署；也足够强大，能通过高级功能处理企业级的 AI 工作负载。

特性

生成式 AI
* 🧠 LLM 优化：提供 OpenAI 兼容的推理协议，便于与大语言模型无缝集成。
* 🚅 GPU 加速：支持 GPU 的高性能服务，并为大模型提供优化的内存管理。
* 💾 模型缓存：智能模型缓存，减少加载时间，提升常用模型的响应速度。
* 🗂️ KV 缓存卸载：高级内存管理，可将 KV 缓存卸载到 CPU/磁盘，高效处理长序列。
* 📈 自动扩缩容：针对生成式工作负载模式优化的、基于请求的自动扩缩容能力。
* 🔧 Hugging Face 就绪：原生支持 Hugging Face 模型，提供简化的部署工作流。

预测式 AI
* 🧮 多框架支持：支持 TensorFlow、PyTorch、scikit-learn、XGBoost、ONNX 等。
* 🔀 智能路由：在预测器、转换器和解释器组件之间无缝路由请求，并自动管理流量。
* 🔄 高级部署：支持金丝雀发布、推理管道以及使用 InferenceGraph 的模型集成。
* ⚡ 自动扩缩容：针对预测式工作负载的、支持缩容至零的基于请求的自动扩缩容。
* 🔍 模型可解释性：内置支持模型解释和特征归因，帮助理解预测逻辑。
* 📊 高级监控：支持有效负载日志记录、异常值检测、对抗性检测和漂移检测。
* 💰 成本效益：在非使用时段将昂贵资源缩容至零，降低基础设施成本。

了解更多

要了解更多关于 KServe 的信息、如何使用其支持的各种功能以及如何参与 KServe 社区，请参阅 KServe 官方网站文档。
此外，我们还整理了演示文稿和演示视频列表，以便深入了解各项细节。

:hammer_and_wrench: 安装

独立安装

标准 Kubernetes 安装：与 Serverless 安装相比，这是一种更轻量级的安装方式。但此选项不支持金丝雀部署和基于请求的、可缩容至零的自动扩缩容。
Knative 安装：KServe 默认安装 Knative，为 InferenceService 提供无服务器部署。
ModelMesh 安装：您可以选择安装 ModelMesh，以支持高吞吐量、高密度和模型频繁变更的服务场景。
快速安装：在您的本地机器上安装 KServe。

Kubeflow 安装

KServe 是 Kubeflow 的重要附加组件，请参阅 Kubeflow KServe 文档了解更多。查看以下指南以了解如何在 AWS 或 OpenShift Container Platform 上运行。

KServe — Kubernetes 模型推理

KServe

为什么选择 KServe？

特性

了解更多

:hammer_and_wrench: 安装

独立安装

Kubeflow 安装

:flight_departure: 创建您的第一个 InferenceService

:bulb: 路线图

:blue_book: InferenceService API 参考

:toolbox: 开发者指南

:writing_hand: 贡献者指南

:handshake: 采用者

星标历史

贡献者