模型服务器托管模型,并通过标准网络协议使软件组件能够访问它们:客户端向模型服务器发送请求,服务器执行模型推理并将响应返回给客户端。模型服务器为高效模型部署提供了诸多优势:
- 远程推理:支持使用轻量级客户端,仅需必要的功能即可向边缘或云部署发起 API 调用。
- 应用独立性:应用程序独立于模型框架、硬件设备和基础设施。
- 多语言客户端支持:任何支持 REST 或 gRPC 调用的编程语言编写的客户端应用程序,都可用于在模型服务器上远程运行推理。
- 客户端更新少:客户端库极少变更,因此客户端所需的更新更少。
- 模型保护:模型拓扑和权重不直接暴露给客户端应用程序,便于控制对模型的访问。
- 理想的微服务架构:非常适合基于微服务的应用程序以及在云环境(包括 Kubernetes 和 OpenShift 集群)中的部署。
- 高效的资源利用:支持水平和垂直的推理扩展。

OpenVINO™ 模型服务器 (OVMS) 是一个用于服务模型的高性能系统。它采用 C++ 实现以确保可扩展性,并针对英特尔架构上的部署进行了优化。它使用类似 OpenAI 和 Cohere 的 生成式 API、KServe 和 TensorFlow Serving 协议,同时应用 OpenVINO 执行推理。推理服务通过 gRPC 或 REST API 提供,使得部署新算法和进行 AI 实验变得简单。

服务器使用的模型可以存储在本地、由对象存储服务远程托管或从 HuggingFace Hub 拉取。更多详情,请参阅 准备模型仓库 和 部署 文档。
模型服务器可在 Docker 容器、裸机以及 Kubernetes 环境中运行。
请通过 快速入门指南 或 LLM 快速入门指南 中的快速上手示例开始使用 OpenVINO 模型服务器。
阅读 发布说明 了解最新动态。
查看完整的 特性列表
注意: OVMS 已在 RedHat、Ubuntu 和 Windows 上经过测试。
公共 Docker 镜像存储于:
- Dockerhub
- RedHat Ecosystem Catalog
适用于 Linux 和 Windows 的二进制包位于 Github
关于如何使用 OpenVINO 模型服务器的演示,请参阅我们的 视觉用例快速入门指南 和 LLM 文本生成快速入门指南。
另请查看其他说明:
如果您有任何问题、功能请求或错误报告,欢迎提交 Github issue。
* 其他名称和品牌可能被声明为其所有者的财产。