
Aphrodite 是一个推理引擎,旨在优化大规模部署 HuggingFace 兼容模型的性能。它基于 vLLM 的 Paged Attention 技术构建,能够为多并发用户提供高性能模型推理。Aphrodite 作为后端引擎,驱动 PygmalionAI 的聊天平台和 API 基础设施。
Aphrodite 构建并整合了来自 多个项目 的优秀成果,特别是 vLLM。
安装引擎:
pip install -U aphrodite-engine
然后启动一个模型:
aphrodite run Qwen/Qwen3.5-0.8B
这将创建一个兼容 OpenAI 的 API 服务器,可在本机的 2242 端口访问。您可以将该 API 接入支持 OpenAI 的用户界面,例如 SillyTavern。
默认情况下,Aphrodite 会占用 GPU 显存的 92%。如果您并非大规模部署 LLM,可能需要限制其内存使用量。您可以在启动 API 时使用 --gpu-memory-utilization 0.6(0.6 表示 60%)来控制。
您可以通过运行 aphrodite run --help 查看完整的命令列表。
Aphrodite Engine 的实现离不开其他开源项目的卓越贡献。以下是一个(非详尽)列表:
过往及现在的赞助商(按字母顺序排列):
欢迎所有人参与贡献。您可以通过为新功能、修复或通用用户体验改进提交 Pull Request 来支持该项目。