⚠️ 注意:维护有限
本项目已不再积极维护。虽然现有版本仍可获取,但暂无计划进行更新、错误修复、新功能添加或安全补丁发布。用户应注意,潜在的安全漏洞可能不会被处理。
TorchServe 现在默认启用令牌授权并禁用模型 API 控制。这些安全功能旨在解决未经授权的 API 调用问题,并防止潜在恶意代码被引入模型服务器。更多信息请参考以下文档:令牌授权、模型 API 控制
TorchServe 是一个灵活易用的工具,用于在生产环境中部署和扩展 PyTorch 模型。
需要 Python >= 3.8。
curl http://127.0.0.1:8080/predictions/bert -T input.txt
# 安装依赖
python ./ts_scripts/install_dependencies.py
# 包含加速器支持的依赖(使用相关的可选标志)
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121
# 最新稳定版
pip install torchserve torch-model-archiver torch-workflow-archiver
# 每夜构建版
pip install torchserve-nightly torch-model-archiver-nightly torch-workflow-archiver-nightly
# 安装依赖
python ./ts_scripts/install_dependencies.py
# 包含加速器支持的依赖(使用相关的可选标志)
python ./ts_scripts/install_dependencies.py --rocm=rocm61
python ./ts_scripts/install_dependencies.py --cuda=cu121
# 最新稳定版
conda install -c pytorch torchserve torch-model-archiver torch-workflow-archiver
# 每夜构建版
conda install -c pytorch-nightly torchserve torch-model-archiver torch-workflow-archiver
# 最新稳定版
docker pull pytorch/torchserve
# 每夜构建版
docker pull pytorch/torchserve-nightly
详情请参阅 torchserve docker。
# 确保已按上述方式通过 pip 或 conda 安装 torchserve,并使用 `huggingface-cli login` 登录
python -m ts.llm_launcher --model_id meta-llama/Llama-3.2-3B-Instruct --disable_token_auth
# 尝试一下
curl -X POST -d '{"model":"meta-llama/Llama-3.2-3B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"
# 确保已按上述方式通过 python venv 安装 torchserve,并使用 `huggingface-cli login` 登录
# pip install -U --use-deprecated=legacy-resolver -r requirements/trt_llm.txt
python -m ts.llm_launcher --model_id meta-llama/Meta-Llama-3.1-8B-Instruct --engine trt_llm --disable_token_auth
# 尝试一下
curl -X POST -d '{"prompt":"count from 1 to 9 in french ", "max_tokens": 100}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model"
#export token=<HUGGINGFACE_HUB_TOKEN>
docker build --pull . -f docker/Dockerfile.vllm -t ts/vllm
docker run --rm -ti --shm-size 10g --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:8080 -v data:/data ts/vllm --model_id meta-llama/Meta-Llama-3-8B-Instruct --disable_token_auth
# 尝试一下
curl -X POST -d '{"model":"meta-llama/Meta-Llama-3-8B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions"
详情及其他方法请参阅 LLM 部署。
torch.compile 实现 SOTA 生成式 AI 性能。https://pytorch.org/serve
我们欢迎所有贡献!
要了解如何贡献,请参阅贡献者指南。