OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  KServe — Kubernetes 模型推理

KServe — Kubernetes 模型推理

 
  kubernetes ·  2026-02-28 00:56:11 · 4 次点击  · 0 条评论  

KServe

go.dev 参考
覆盖率状态
Go 项目报告卡
OpenSSF 最佳实践
版本发布
许可证
Slack 状态
Gurubase

KServe 是一个标准化的分布式生成式与预测式 AI 推理平台,用于在 Kubernetes 上进行可扩展、多框架的模型部署。

KServe 已被众多组织采用,并且是云原生计算基金会 (CNCF) 的孵化项目。

欲了解更多详情,请访问 KServe 官方网站

KServe

为什么选择 KServe?

一个在 Kubernetes 上统一生成式 AI 与预测式 AI 推理的单一平台。它足够简单,可快速部署;也足够强大,能通过高级功能处理企业级的 AI 工作负载。

特性

生成式 AI
* 🧠 LLM 优化:提供 OpenAI 兼容的推理协议,便于与大语言模型无缝集成。
* 🚅 GPU 加速:支持 GPU 的高性能服务,并为大模型提供优化的内存管理。
* 💾 模型缓存:智能模型缓存,减少加载时间,提升常用模型的响应速度。
* 🗂️ KV 缓存卸载:高级内存管理,可将 KV 缓存卸载到 CPU/磁盘,高效处理长序列。
* 📈 自动扩缩容:针对生成式工作负载模式优化的、基于请求的自动扩缩容能力。
* 🔧 Hugging Face 就绪:原生支持 Hugging Face 模型,提供简化的部署工作流。

预测式 AI
* 🧮 多框架支持:支持 TensorFlow、PyTorch、scikit-learn、XGBoost、ONNX 等。
* 🔀 智能路由:在预测器、转换器和解释器组件之间无缝路由请求,并自动管理流量。
* 🔄 高级部署:支持金丝雀发布、推理管道以及使用 InferenceGraph 的模型集成。
* ⚡ 自动扩缩容:针对预测式工作负载的、支持缩容至零的基于请求的自动扩缩容。
* 🔍 模型可解释性:内置支持模型解释和特征归因,帮助理解预测逻辑。
* 📊 高级监控:支持有效负载日志记录、异常值检测、对抗性检测和漂移检测。
* 💰 成本效益:在非使用时段将昂贵资源缩容至零,降低基础设施成本。

了解更多

要了解更多关于 KServe 的信息、如何使用其支持的各种功能以及如何参与 KServe 社区,请参阅 KServe 官方网站文档
此外,我们还整理了演示文稿和演示视频列表,以便深入了解各项细节。

:hammer_and_wrench: 安装

独立安装

  • 标准 Kubernetes 安装:与 Serverless 安装相比,这是一种更轻量级的安装方式。但此选项不支持金丝雀部署和基于请求的、可缩容至零的自动扩缩容。
  • Knative 安装:KServe 默认安装 Knative,为 InferenceService 提供无服务器部署
  • ModelMesh 安装:您可以选择安装 ModelMesh,以支持高吞吐量高密度模型频繁变更的服务场景。
  • 快速安装:在您的本地机器上安装 KServe。

Kubeflow 安装

KServe 是 Kubeflow 的重要附加组件,请参阅 Kubeflow KServe 文档了解更多。查看以下指南以了解如何在 AWSOpenShift Container Platform 上运行。

:flight_departure: 创建您的第一个 InferenceService

:bulb: 路线图

:blue_book: InferenceService API 参考

:toolbox: 开发者指南

:writing_hand: 贡献者指南

:handshake: 采用者

星标历史

星标历史图表

贡献者

感谢我们所有出色的贡献者!



4 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor