OpenVINO Model Server — 面向生产环境的高性能模型服务工具

blanket · 2026-03-29 11:00:22 · 33 次点击 · 0 条评论

OpenVINO™ 模型服务器

模型服务器托管模型，并通过标准网络协议使软件组件能够访问它们：客户端向模型服务器发送请求，服务器执行模型推理并将响应返回给客户端。模型服务器为高效模型部署提供了诸多优势：
- 远程推理：支持使用轻量级客户端，仅需必要的功能即可向边缘或云部署发起 API 调用。
- 应用独立性：应用程序独立于模型框架、硬件设备和基础设施。
- 多语言客户端支持：任何支持 REST 或 gRPC 调用的编程语言编写的客户端应用程序，都可用于在模型服务器上远程运行推理。
- 客户端更新少：客户端库极少变更，因此客户端所需的更新更少。
- 模型保护：模型拓扑和权重不直接暴露给客户端应用程序，便于控制对模型的访问。
- 理想的微服务架构：非常适合基于微服务的应用程序以及在云环境（包括 Kubernetes 和 OpenShift 集群）中的部署。
- 高效的资源利用：支持水平和垂直的推理扩展。

OVMS 架构图

OpenVINO™ 模型服务器 (OVMS) 是一个用于服务模型的高性能系统。它采用 C++ 实现以确保可扩展性，并针对英特尔架构上的部署进行了优化。它使用类似 OpenAI 和 Cohere 的生成式 API、KServe 和 TensorFlow Serving 协议，同时应用 OpenVINO 执行推理。推理服务通过 gRPC 或 REST API 提供，使得部署新算法和进行 AI 实验变得简单。

OVMS 示意图