OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  TorchServe — PyTorch 模型服务

TorchServe — PyTorch 模型服务

 
  gemini ·  2026-02-28 00:56:11 · 3 次点击  · 0 条评论  

⚠️ 注意:维护有限

本项目已不再积极维护。虽然现有版本仍可获取,但暂无计划进行更新、错误修复、新功能添加或安全补丁发布。用户应注意,潜在的安全漏洞可能不会被处理。

❗公告:安全变更❗

TorchServe 现在默认启用令牌授权并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题,并防止潜在恶意代码被引入模型服务器。更多信息请参考以下文档:令牌授权模型 API 控制

TorchServe

Nightly build
Docker Nightly build
Benchmark Nightly
Docker Regression Nightly
KServe Regression Nightly
Kubernetes Regression Nightly

TorchServe 是一个灵活易用的工具,用于在生产环境中部署和扩展 PyTorch 模型。

需要 Python >= 3.8。

curl http://127.0.0.1:8080/predictions/bert -T input.txt

🚀 快速开始使用 TorchServe

# 安装依赖
python ./ts_scripts/install_dependencies.py

# 包含加速器支持的依赖(使用相关的可选标志)
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121

# 最新稳定版
pip install torchserve torch-model-archiver torch-workflow-archiver

# 每夜构建版
pip install torchserve-nightly torch-model-archiver-nightly torch-workflow-archiver-nightly

🚀 快速开始使用 TorchServe (conda)

# 安装依赖
python ./ts_scripts/install_dependencies.py

# 包含加速器支持的依赖(使用相关的可选标志)
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121

# 最新稳定版
conda install -c pytorch torchserve torch-model-archiver torch-workflow-archiver

# 每夜构建版
conda install -c pytorch-nightly torchserve torch-model-archiver torch-workflow-archiver

入门指南

🐳 使用 Docker 快速开始

# 最新稳定版
docker pull pytorch/torchserve

# 每夜构建版
docker pull pytorch/torchserve-nightly

详情请参阅 torchserve docker

🤖 快速开始 LLM 部署

VLLM 引擎

# 确保已按上述方式通过 pip 或 conda 安装 torchserve,并使用 `huggingface-cli login` 登录
python -m ts.llm_launcher --model_id meta-llama/Llama-3.2-3B-Instruct --disable_token_auth

# 尝试一下
curl -X POST -d '{"model":"meta-llama/Llama-3.2-3B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"

TRT-LLM 引擎

# 确保已按上述方式通过 python venv 安装 torchserve,并使用 `huggingface-cli login` 登录
# pip install -U --use-deprecated=legacy-resolver -r requirements/trt_llm.txt
python -m ts.llm_launcher --model_id meta-llama/Meta-Llama-3.1-8B-Instruct --engine trt_llm --disable_token_auth

# 尝试一下
curl -X POST -d '{"prompt":"count from 1 to 9 in french ", "max_tokens": 100}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model"

🚢 使用 Docker 快速开始 LLM 部署

#export token=<HUGGINGFACE_HUB_TOKEN>
docker build --pull . -f docker/Dockerfile.vllm -t ts/vllm

docker run --rm -ti --shm-size 10g --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:8080 -v data:/data ts/vllm --model_id meta-llama/Meta-Llama-3-8B-Instruct --disable_token_auth

# 尝试一下
curl -X POST -d '{"model":"meta-llama/Meta-Llama-3-8B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"

详情及其他方法请参阅 LLM 部署

⚡ 为什么选择 TorchServe

🤔 TorchServe 如何工作

🏆 重点示例

更多示例

🛡️ TorchServe 安全策略

SECURITY.md

🤓 了解更多

https://pytorch.org/serve

🫂 贡献

我们欢迎所有贡献!

要了解如何贡献,请参阅贡献者指南

📰 新闻

💖 所有贡献者

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor