OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  vLLM — 高吞吐量 LLM 推理与服务引擎

vLLM — 高吞吐量 LLM 推理与服务引擎

 
  software ·  2026-02-28 12:00:00 · 215 次点击  · 0 条评论  

vLLM

为所有人提供简单、快速、经济的大语言模型服务

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

🔥 我们已建立 vllm 网站,助您快速上手。请访问 vllm.ai 了解更多。
如需了解活动信息,请访问 vllm.ai/events 加入我们。


关于

vLLM 是一个用于大语言模型推理与服务的快速、易用库。

vLLM 最初由加州大学伯克利分校的 Sky Computing Lab 开发,现已演变为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 性能卓越:

  • 业界领先的服务吞吐量
  • 通过 PagedAttention 高效管理注意力键值内存
  • 对传入请求进行连续批处理
  • 利用 CUDA/HIP 图实现快速模型执行
  • 支持多种量化方案:GPTQAWQAutoRound、INT4、INT8 和 FP8
  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成
  • 推测解码
  • 分块预填充

vLLM 灵活易用:

  • 与流行的 Hugging Face 模型无缝集成
  • 支持多种解码算法的高吞吐量服务,包括并行采样束搜索
  • 支持张量并行、流水线并行、数据并行和专家并行,用于分布式推理
  • 流式输出
  • OpenAI 兼容的 API 服务器
  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 以及 TPU。此外,还支持多种硬件插件,如 Intel Gaudi、IBM Spyre 和华为昇腾。
  • 支持前缀缓存
  • 支持多 LoRA

vLLM 无缝支持 HuggingFace 上的大多数热门开源模型,包括:

  • Transformer 类大语言模型(如 Llama)
  • 专家混合大语言模型(如 Mixtral、Deepseek-V2 和 V3)
  • 嵌入模型(如 E5-Mistral)
  • 多模态大语言模型(如 LLaVA)

查看完整支持模型列表,请访问此处

快速开始

使用 pip 安装 vLLM 或从源码构建

pip install vllm

访问我们的文档了解更多信息。

贡献

我们欢迎并重视任何形式的贡献与合作。
请查看如何为 vLLM 做贡献了解如何参与。

引用

如果您在研究中使用了 vLLM,请引用我们的论文

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

联系我们

媒体资料包

215 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor