OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  DBRX Inference? 改为 Aphrodite Engine — 面向 LLM 的高性能推理引擎

DBRX Inference? 改为 Aphrodite Engine — 面向 LLM 的高性能推理引擎

 
  index ·  2026-06-03 11:00:24 · 25 次点击  · 0 条评论  

为语言注入生命

aphrodite

Aphrodite 是一个推理引擎,旨在优化大规模部署 HuggingFace 兼容模型的性能。它基于 vLLM 的 Paged Attention 技术构建,能够为多并发用户提供高性能模型推理。Aphrodite 作为后端引擎,驱动 PygmalionAI 的聊天平台和 API 基础设施。

Aphrodite 构建并整合了来自 多个项目 的优秀成果,特别是 vLLM

特性

快速开始

安装引擎:

pip install -U aphrodite-engine

然后启动一个模型:

aphrodite run Qwen/Qwen3.5-0.8B

这将创建一个兼容 OpenAI 的 API 服务器,可在本机的 2242 端口访问。您可以将该 API 接入支持 OpenAI 的用户界面,例如 SillyTavern

系统要求

  • 操作系统:Linux、Windows(WSL2)
  • Python:3.10 至 3.13(从源码构建可支持 3.14)

构建要求

  • CUDA >= 12

注意事项

  1. 默认情况下,Aphrodite 会占用 GPU 显存的 92%。如果您并非大规模部署 LLM,可能需要限制其内存使用量。您可以在启动 API 时使用 --gpu-memory-utilization 0.6(0.6 表示 60%)来控制。

  2. 您可以通过运行 aphrodite run --help 查看完整的命令列表。

致谢

Aphrodite Engine 的实现离不开其他开源项目的卓越贡献。以下是一个(非详尽)列表:

赞助商

过往及现在的赞助商(按字母顺序排列):

贡献

欢迎所有人参与贡献。您可以通过为新功能、修复或通用用户体验改进提交 Pull Request 来支持该项目。

25 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor