DBRX Inference? 改为 Aphrodite Engine — 面向 LLM 的高性能推理引擎

index · 2026-06-03 11:00:24 · 25 次点击 · 0 条评论

为语言注入生命

aphrodite

Aphrodite 是一个推理引擎，旨在优化大规模部署 HuggingFace 兼容模型的性能。它基于 vLLM 的 Paged Attention 技术构建，能够为多并发用户提供高性能模型推理。Aphrodite 作为后端引擎，驱动 PygmalionAI 的聊天平台和 API 基础设施。

Aphrodite 构建并整合了来自多个项目的优秀成果，特别是 vLLM。

持续批处理
基于 vLLM 的 PagedAttention 技术，实现高效的 K/V 管理
优化 CUDA 内核，提升推理性能
量化支持：涵盖 AQLM、AutoRound、AWQ、BitNet、Bitsandbytes、ExLlamaV3、GGUF、GPTQ、QuIP#、SqueezeLLM、Marlin、[2] [3]、NVIDIA ModelOpt、TorchAO、VPTQ、compressed_tensors、MXFP4 等。
分布式推理
量化的 KV 缓存：支持有缩放和无缩放的 FP8，以及 TurboQuant
支持现代采样器：如 DRY、XTC、Mirostat 等
分离式推理
推测解码：包括 EAGLE、DFlash、ngram、MTP 等
多模态支持
多 LoRA 支持

安装引擎：

pip install -U aphrodite-engine

然后启动一个模型：

aphrodite run Qwen/Qwen3.5-0.8B

这将创建一个兼容 OpenAI 的 API 服务器，可在本机的 2242 端口访问。您可以将该 API 接入支持 OpenAI 的用户界面，例如 SillyTavern。

默认情况下，Aphrodite 会占用 GPU 显存的 92%。如果您并非大规模部署 LLM，可能需要限制其内存使用量。您可以在启动 API 时使用 --gpu-memory-utilization 0.6（0.6 表示 60%）来控制。
您可以通过运行 aphrodite run --help 查看完整的命令列表。

Aphrodite Engine 的实现离不开其他开源项目的卓越贡献。以下是一个（非详尽）列表：

过往及现在的赞助商（按字母顺序排列）：

欢迎所有人参与贡献。您可以通过为新功能、修复或通用用户体验改进提交 Pull Request 来支持该项目。

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复