vLLM — 高吞吐量 LLM 推理与服务引擎

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

为所有人提供简单、快速、经济的大语言模型服务

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

🔥 我们已建立 vllm 网站，助您快速上手。请访问 vllm.ai 了解更多。
如需了解活动信息，请访问 vllm.ai/events 加入我们。

关于

vLLM 是一个用于大语言模型推理与服务的快速、易用库。

vLLM 最初由加州大学伯克利分校的 Sky Computing Lab 开发，现已演变为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 性能卓越：

业界领先的服务吞吐量
通过 PagedAttention 高效管理注意力键值内存
对传入请求进行连续批处理
利用 CUDA/HIP 图实现快速模型执行
支持多种量化方案：GPTQ、AWQ、AutoRound、INT4、INT8 和 FP8
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成
推测解码
分块预填充

vLLM 灵活易用：

与流行的 Hugging Face 模型无缝集成
支持多种解码算法的高吞吐量服务，包括并行采样、束搜索等
支持张量并行、流水线并行、数据并行和专家并行，用于分布式推理
流式输出
OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 以及 TPU。此外，还支持多种硬件插件，如 Intel Gaudi、IBM Spyre 和华为昇腾。
支持前缀缓存
支持多 LoRA

vLLM 无缝支持 HuggingFace 上的大多数热门开源模型，包括：

Transformer 类大语言模型（如 Llama）
专家混合大语言模型（如 Mixtral、Deepseek-V2 和 V3）
嵌入模型（如 E5-Mistral）
多模态大语言模型（如 LLaVA）

查看完整支持模型列表，请访问此处。

快速开始

使用 pip 安装 vLLM 或从源码构建：

pip install vllm

访问我们的文档了解更多信息。

贡献

我们欢迎并重视任何形式的贡献与合作。
请查看如何为 vLLM 做贡献了解如何参与。

引用

如果您在研究中使用了 vLLM，请引用我们的论文：

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

联系我们

技术问题和功能请求，请使用 GitHub Issues
与其他用户讨论，请使用 vLLM 论坛
协调贡献与开发事宜，请使用 Slack
安全披露，请使用 GitHub 的 Security Advisories 功能
合作与伙伴关系，请通过邮件联系 collaboration@vllm.ai

媒体资料包

如需使用 vLLM 的徽标，请参考我们的媒体资料包仓库

项目地址：https://github.com/vllm-project/vllm

240 次点击 ∙ 0 人收藏

登录后收藏

0 条回复