OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  aphrodite-engine — 面向大模型服务的高性能推理引擎

aphrodite-engine — 面向大模型服务的高性能推理引擎

 
  eighty ·  2026-02-13 05:20:19 · 7 次点击  · 0 条评论  

为语言注入生命

aphrodite

Aphrodite 是一个推理引擎,旨在优化大规模部署兼容 HuggingFace 的模型。它基于 vLLM 的 Paged Attention 技术构建,为多并发用户提供高性能的模型推理服务。该引擎由 PygmalionAIRuliad 合作开发,是支撑两家机构聊天平台和 API 基础设施的后端引擎。

Aphrodite 建立并整合了来自多个项目的优秀成果,其中最主要的是 vLLM

特性

快速开始

安装引擎:

pip install -U aphrodite-engine

[!TIP]
你需要单独安装内核。更多详情请参阅安装指南。在没有内核的情况下运行 Aphrodite 也会给出安装提示。

然后启动一个模型:

aphrodite run Qwen/Qwen3-0.6B

如果你不是大规模服务,可以添加 --single-user-mode 标志来限制内存使用。

这将创建一个兼容 OpenAI 的 API 服务器,可在本地主机的 2242 端口访问。你可以将此 API 接入支持 OpenAI 的 UI,例如 SillyTavern

请参阅文档以获取可传递给引擎的完整参数和标志列表,或者直接运行 aphrodite run -h 查看完整列表。

你可以在此演示中试用引擎:

在 Colab 中打开

Docker

此外,我们还提供了 Docker 镜像以便于部署。以下是一个基本的启动命令:

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    #--env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" \
    -p 2242:2242 \
    --ipc=host \
    alpindale/aphrodite-openai:latest \
    --model NousResearch/Meta-Llama-3.1-8B-Instruct \
    --tensor-parallel-size 8 \
    --api-key "sk-empty"

这将拉取 Aphrodite Engine 镜像,并在 2242 端口启动引擎,加载 Llama-3.1-8B-Instruct 模型。

要求

  • 操作系统:Linux、Windows (WSL2)
  • Python:3.9 至 3.12

构建要求:

  • CUDA >= 12

有关支持的设备,请参见此处。一般来说,所有半现代的 GPU 都受支持——向下兼容到 Pascal 架构(GTX 10xx、P40 等)。我们还支持 AMD GPU、Intel CPU 和 GPU、Google TPU 以及 AWS Inferentia。

注意事项

  1. 默认情况下,Aphrodite 会占用 GPU 90% 的显存。如果你不是大规模服务 LLM,可能需要限制其内存占用。你可以在 API 示例中通过使用 --gpu-memory-utilization 0.6(0.6 表示 60%)启动服务器来实现,或者使用 --single-user-mode 仅为单个序列分配所需内存。
  2. 你可以通过运行 aphrodite run --help 查看完整的命令列表。

致谢

Aphrodite Engine 的实现离不开其他开源项目的杰出贡献。以下是一个(非详尽)列表:
- vLLM
- TensorRT-LLM
- xFormers
- Flash Attention
- llama.cpp
- AutoAWQ
- AutoGPTQ
- SqueezeLLM
- Exllamav2
- TabbyAPI
- AQLM
- KoboldAI
- Text Generation WebUI
- Megatron-LM
- Ray

赞助商

过去和现在的赞助商(按字母顺序排列):
- Arc Compute
- Lium
- Prime Intellect
- PygmalionAI
- Ruliad AI

贡献

欢迎所有人贡献代码。你可以通过提交 Pull Request 来支持项目,包括新功能、修复或通用用户体验改进。

7 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 18 ms
Developed with Cursor