aphrodite-engine — 面向大模型服务的高性能推理引擎

eighty · 2025-12-29 11:10:02 · 24 次点击 · 0 条评论

为语言注入生命

aphrodite

Aphrodite 是一个推理引擎，旨在优化大规模部署兼容 HuggingFace 的模型。它基于 vLLM 的 Paged Attention 技术构建，为多并发用户提供高性能的模型推理服务。该引擎由 PygmalionAI 和 Ruliad 合作开发，是支撑两家机构聊天平台和 API 基础设施的后端引擎。

Aphrodite 建立并整合了来自多个项目的优秀成果，其中最主要的是 vLLM。

特性

连续批处理
利用 vLLM 的 PagedAttention 实现高效的 K/V 管理
优化的 CUDA 内核以提升推理性能
通过 AQLM、AutoRound、AWQ、BitNet、Bitsandbytes、EETQ、GGUF、GPTQ、QuIP#、SqueezeLLM、Marlin、FP2-FP12 [1] [2] [3]、NVIDIA ModelOpt、TorchAO、VPTQ、compressed_tensors、MXFP4 等支持量化
分布式推理
8 位 KV 缓存，支持 FP8 E5M3 和 E4M3 格式，以实现更长的上下文和更高的吞吐量
支持现代采样器，如 DRY、XTC、Mirostat 等
分离式推理
推测解码
多模态支持
多 LoRA 支持

快速开始

安装引擎：

pip install -U aphrodite-engine

[!TIP]
你需要单独安装内核。更多详情请参阅安装指南。在没有内核的情况下运行 Aphrodite 也会给出安装提示。

然后启动一个模型：

aphrodite run Qwen/Qwen3-0.6B

如果你不是大规模服务，可以添加 --single-user-mode 标志来限制内存使用。

这将创建一个兼容 OpenAI 的 API 服务器，可在本地主机的 2242 端口访问。你可以将此 API 接入支持 OpenAI 的 UI，例如 SillyTavern。

请参阅文档以获取可传递给引擎的完整参数和标志列表，或者直接运行 aphrodite run -h 查看完整列表。

你可以在此演示中试用引擎：

Docker

此外，我们还提供了 Docker 镜像以便于部署。以下是一个基本的启动命令：

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    #--env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" \
    -p 2242:2242 \
    --ipc=host \
    alpindale/aphrodite-openai:latest \
    --model NousResearch/Meta-Llama-3.1-8B-Instruct \
    --tensor-parallel-size 8 \
    --api-key "sk-empty"

这将拉取 Aphrodite Engine 镜像，并在 2242 端口启动引擎，加载 Llama-3.1-8B-Instruct 模型。

要求

操作系统：Linux、Windows (WSL2)
Python：3.9 至 3.12

构建要求：

CUDA >= 12

有关支持的设备，请参见此处。一般来说，所有半现代的 GPU 都受支持——向下兼容到 Pascal 架构（GTX 10xx、P40 等）。我们还支持 AMD GPU、Intel CPU 和 GPU、Google TPU 以及 AWS Inferentia。

注意事项

默认情况下，Aphrodite 会占用 GPU 90% 的显存。如果你不是大规模服务 LLM，可能需要限制其内存占用。你可以在 API 示例中通过使用 --gpu-memory-utilization 0.6（0.6 表示 60%）启动服务器来实现，或者使用 --single-user-mode 仅为单个序列分配所需内存。
你可以通过运行 aphrodite run --help 查看完整的命令列表。

致谢

Aphrodite Engine 的实现离不开其他开源项目的杰出贡献。以下是一个（非详尽）列表：
- vLLM
- TensorRT-LLM
- xFormers
- Flash Attention
- llama.cpp
- AutoAWQ
- AutoGPTQ
- SqueezeLLM
- Exllamav2
- TabbyAPI
- AQLM
- KoboldAI
- Text Generation WebUI
- Megatron-LM
- Ray

赞助商

过去和现在的赞助商（按字母顺序排列）：
- Arc Compute
- Lium
- Prime Intellect
- PygmalionAI
- Ruliad AI

贡献

欢迎所有人贡献代码。你可以通过提交 Pull Request 来支持项目，包括新功能、修复或通用用户体验改进。

项目地址：https://github.com/PygmalionAI/aphrodite-engine

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复