| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |
🔥 我们已建立 vllm 网站,助您快速上手。请访问 vllm.ai 了解更多。
如需了解活动信息,请访问 vllm.ai/events 加入我们。
vLLM 是一个用于大语言模型推理与服务的快速、易用库。
vLLM 最初由加州大学伯克利分校的 Sky Computing Lab 开发,现已演变为一个由学术界和工业界共同贡献的社区驱动项目。
vLLM 性能卓越:
vLLM 灵活易用:
vLLM 无缝支持 HuggingFace 上的大多数热门开源模型,包括:
查看完整支持模型列表,请访问此处。
使用 pip 安装 vLLM 或从源码构建:
pip install vllm
访问我们的文档了解更多信息。
我们欢迎并重视任何形式的贡献与合作。
请查看如何为 vLLM 做贡献了解如何参与。
如果您在研究中使用了 vLLM,请引用我们的论文:
@inproceedings{kwon2023efficient,
title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
year={2023}
}