
Aphrodite 是一个推理引擎,旨在优化大规模部署兼容 HuggingFace 的模型。它基于 vLLM 的 Paged Attention 技术构建,为多并发用户提供高性能的模型推理服务。该引擎由 PygmalionAI 和 Ruliad 合作开发,是支撑两家机构聊天平台和 API 基础设施的后端引擎。
Aphrodite 建立并整合了来自多个项目的优秀成果,其中最主要的是 vLLM。
安装引擎:
pip install -U aphrodite-engine
[!TIP]
你需要单独安装内核。更多详情请参阅安装指南。在没有内核的情况下运行 Aphrodite 也会给出安装提示。
然后启动一个模型:
aphrodite run Qwen/Qwen3-0.6B
如果你不是大规模服务,可以添加 --single-user-mode 标志来限制内存使用。
这将创建一个兼容 OpenAI 的 API 服务器,可在本地主机的 2242 端口访问。你可以将此 API 接入支持 OpenAI 的 UI,例如 SillyTavern。
请参阅文档以获取可传递给引擎的完整参数和标志列表,或者直接运行 aphrodite run -h 查看完整列表。
你可以在此演示中试用引擎:
此外,我们还提供了 Docker 镜像以便于部署。以下是一个基本的启动命令:
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
#--env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-key "sk-empty"
这将拉取 Aphrodite Engine 镜像,并在 2242 端口启动引擎,加载 Llama-3.1-8B-Instruct 模型。
有关支持的设备,请参见此处。一般来说,所有半现代的 GPU 都受支持——向下兼容到 Pascal 架构(GTX 10xx、P40 等)。我们还支持 AMD GPU、Intel CPU 和 GPU、Google TPU 以及 AWS Inferentia。
--gpu-memory-utilization 0.6(0.6 表示 60%)启动服务器来实现,或者使用 --single-user-mode 仅为单个序列分配所需内存。aphrodite run --help 查看完整的命令列表。Aphrodite Engine 的实现离不开其他开源项目的杰出贡献。以下是一个(非详尽)列表:
- vLLM
- TensorRT-LLM
- xFormers
- Flash Attention
- llama.cpp
- AutoAWQ
- AutoGPTQ
- SqueezeLLM
- Exllamav2
- TabbyAPI
- AQLM
- KoboldAI
- Text Generation WebUI
- Megatron-LM
- Ray
过去和现在的赞助商(按字母顺序排列):
- Arc Compute
- Lium
- Prime Intellect
- PygmalionAI
- Ruliad AI
欢迎所有人贡献代码。你可以通过提交 Pull Request 来支持项目,包括新功能、修复或通用用户体验改进。