OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

⚠️ 注意：维护有限

本项目已不再积极维护。虽然现有版本仍可获取，但暂无计划进行更新、错误修复、新功能添加或安全补丁发布。用户应注意，潜在的安全漏洞可能不会被处理。

❗公告：安全变更❗

TorchServe 现在默认启用令牌授权并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题，并防止潜在恶意代码被引入模型服务器。更多信息请参考以下文档：令牌授权、模型 API 控制

TorchServe

TorchServe 是一个灵活易用的工具，用于在生产环境中部署和扩展 PyTorch 模型。

需要 Python >= 3.8。

curl http://127.0.0.1:8080/predictions/bert -T input.txt

🚀 快速开始使用 TorchServe

# 安装依赖
python ./ts_scripts/install_dependencies.py

# 包含加速器支持的依赖（使用相关的可选标志）
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121

# 最新稳定版
pip install torchserve torch-model-archiver torch-workflow-archiver

# 每夜构建版
pip install torchserve-nightly torch-model-archiver-nightly torch-workflow-archiver-nightly

🚀 快速开始使用 TorchServe (conda)

# 安装依赖
python ./ts_scripts/install_dependencies.py

# 包含加速器支持的依赖（使用相关的可选标志）
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121

# 最新稳定版
conda install -c pytorch torchserve torch-model-archiver torch-workflow-archiver

# 每夜构建版
conda install -c pytorch-nightly torchserve torch-model-archiver torch-workflow-archiver

入门指南

🐳 使用 Docker 快速开始

# 最新稳定版
docker pull pytorch/torchserve

# 每夜构建版
docker pull pytorch/torchserve-nightly

详情请参阅 torchserve docker。

🤖 快速开始 LLM 部署

VLLM 引擎

# 确保已按上述方式通过 pip 或 conda 安装 torchserve，并使用 `huggingface-cli login` 登录
python -m ts.llm_launcher --model_id meta-llama/Llama-3.2-3B-Instruct --disable_token_auth

# 尝试一下
curl -X POST -d '{"model":"meta-llama/Llama-3.2-3B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"

TRT-LLM 引擎

# 确保已按上述方式通过 python venv 安装 torchserve，并使用 `huggingface-cli login` 登录
# pip install -U --use-deprecated=legacy-resolver -r requirements/trt_llm.txt
python -m ts.llm_launcher --model_id meta-llama/Meta-Llama-3.1-8B-Instruct --engine trt_llm --disable_token_auth

# 尝试一下
curl -X POST -d '{"prompt":"count from 1 to 9 in french ", "max_tokens": 100}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model"

🚢 使用 Docker 快速开始 LLM 部署

#export token=<HUGGINGFACE_HUB_TOKEN>
docker build --pull . -f docker/Dockerfile.vllm -t ts/vllm

docker run --rm -ti --shm-size 10g --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:8080 -v data:/data ts/vllm --model_id meta-llama/Meta-Llama-3-8B-Instruct --disable_token_auth

# 尝试一下
curl -X POST -d '{"model":"meta-llama/Meta-Llama-3-8B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"

详情及其他方法请参阅 LLM 部署。

⚡ 为什么选择 TorchServe

一次编写，随处运行：支持本地、云端部署，支持在 CPU、GPU、AWS Inf1/Inf2/Trn1、Google Cloud TPU、Nvidia MPS 上进行推理。
模型管理 API：多模型管理，支持优化的 worker 到模型分配。
推理 API：支持批处理推理的 REST 和 gRPC 接口。
TorchServe 工作流：部署包含多个相互依赖模型的复杂 DAG。
在以下平台中部署 PyTorch 模型的默认方式：
Sagemaker
Vertex AI
Kubernetes：支持自动扩缩容、会话亲和性、使用 Grafana 监控，可在本地、AWS EKS、Google GKE、Azure AKS 上运行。
Kserve：同时支持 v1 和 v2 API，支持 A/B 测试的自动扩缩容和金丝雀部署。
Kubeflow
MLflow
为优化推理导出模型：开箱即用的 Torchscript，PyTorch 编译器预览版，ORT 和 ONNX，IPEX，TensorRT，FasterTransformer，FlashAttention（Better Transformers）。
性能指南：内置支持优化、基准测试和分析 PyTorch 及 TorchServe 性能。
强大的处理器：富有表现力的处理器架构，可轻松支持您的推理用例，内置支持多种处理器。
指标 API：开箱即用的系统级指标支持，支持 Prometheus 导出和自定义指标。
大模型推理指南：支持生成式 AI 和 LLM，包括：
使用 torch.compile 实现 SOTA 生成式 AI 性能。
支持 FlashAttention v2、连续批处理和流式响应的快速内核。
PyTorch 张量并行预览版，流水线并行。
Microsoft DeepSpeed、DeepSpeed-Mii。
Hugging Face Accelerate、Diffusers。
在 AWS Sagemaker 和 Inferentia2 上运行大模型。
在 Mac 上本地运行 Meta Llama 聊天机器人。
使用 Grafana 和 Datadog 进行监控。

🤔 TorchServe 如何工作

PyTorch 模型服务器文档：完整文档。
TorchServe 内部原理：TorchServe 的构建方式。
贡献指南：如何为 TorchServe 做贡献。

🏆 重点示例

使用 TorchServe 部署 Meta Llama
在 Mac 上运行 Meta Llama 聊天机器人 🦙💬
🤗 HuggingFace Transformers，包含 Better Transformer 集成/ Flash Attention 和 Xformer 内存优化
Stable Diffusion
模型并行推理
结合文本、音频和视频的多模态模型 MMF
复杂工作流 DAG 的双神经机器翻译
TorchServe 集成
TorchServe 内部原理
TorchServe 用例

更多示例

🛡️ TorchServe 安全策略

SECURITY.md

🤓 了解更多

https://pytorch.org/serve

🫂 贡献

我们欢迎所有贡献！

要了解如何贡献，请参阅贡献者指南。

📰 新闻

💖 所有贡献者

项目地址：https://github.com/pytorch/serve

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

TorchServe — PyTorch 模型服务