
[](https://pypi.org/project/sglang)

[](https://github.com/sgl-project/sglang/tree/main/LICENSE)
[](https://github.com/sgl-project/sglang/issues)
[](https://github.com/sgl-project/sglang/issues)
[](https://deepwiki.com/sgl-project/sglang)
博客 |
文档 |
路线图 |
加入 Slack |
每周开发会议 |
幻灯片
最新动态
更多动态
- [2025年11月] SGLang Diffusion 加速视频和图像生成 ([博客](https://lmsys.org/blog/2025-11-07-sglang-diffusion/))。
- [2025年10月] PyTorch Conference 2025 SGLang 演讲 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/sglang_pytorch_2025.pdf))。
- [2025年10月] SGLang x Nvidia SF 线下聚会 (10月2日) ([回顾](https://x.com/lmsysorg/status/1975339501934510231))。
- [2025年8月] SGLang 为 OpenAI gpt-oss 模型提供 Day-0 支持 ([说明](https://github.com/sgl-project/sglang/issues/8833))。
- [2025年6月] 每日处理数万亿 token 的高性能服务基础设施 SGLang,获得了 a16z 第三批开源 AI 资助 ([a16z 博客](https://a16z.com/advancing-open-source-ai-through-benchmarks-and-bold-experimentation/))。
- [2025年5月] 在 96 个 H100 GPU 上使用 PD 解耦和大规模专家并行部署 DeepSeek ([博客](https://lmsys.org/blog/2025-05-05-large-scale-ep/))。
- [2025年6月] 在 GB200 NVL72 上部署 DeepSeek,使用 PD 和大规模专家并行 (第一部分):解码吞吐量提升 2.7 倍 ([博客](https://lmsys.org/blog/2025-06-16-gb200-part-1/))。
- [2025年3月] 在 AMD Instinct MI300X 上加速 DeepSeek-R1 推理 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html))。
- [2025年3月] SGLang 加入 PyTorch 生态系统:高效的 LLM 服务引擎 ([PyTorch 博客](https://pytorch.org/blog/sglang-joins-pytorch/))。
- [2025年2月] 在 AMD Instinct™ MI300X GPU 上解锁 DeepSeek-R1 推理性能 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html))。
- [2025年1月] SGLang 为 DeepSeek V3/R1 模型在 NVIDIA 和 AMD GPU 上提供首日支持,并包含针对 DeepSeek 的优化 ([说明](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3)、[AMD 博客](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html)、[10+ 其他公司](https://x.com/lmsysorg/status/1887262321636221412))。
- [2024年12月] v0.4 版本发布:零开销 CPU 调度器、缓存感知负载均衡器、更快的结构化输出 ([博客](https://lmsys.org/blog/2024-12-04-sglang-v0-4/))。
- [2024年10月] 首次 SGLang 在线聚会 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup))。
- [2024年9月] v0.3 版本发布:DeepSeek MLA 推理速度提升 7 倍、torch.compile 速度提升 1.5 倍、支持多图像/视频的 LLaVA-OneVision ([博客](https://lmsys.org/blog/2024-09-04-sglang-v0-3/))。
- [2024年7月] v0.2 版本发布:使用 SGLang 运行时加速 Llama3 服务 (对比 TensorRT-LLM, vLLM) ([博客](https://lmsys.org/blog/2024-07-25-sglang-llama3/))。
- [2024年2月] SGLang 通过压缩有限状态机实现 **3 倍更快的 JSON 解码** ([博客](https://lmsys.org/blog/2024-02-05-compressed-fsm/))。
- [2024年1月] SGLang 通过 RadixAttention 实现高达 **5 倍更快的推理** ([博客](https://lmsys.org/blog/2024-01-17-sglang/))。
- [2024年1月] SGLang 为官方 **LLaVA v1.6** 发布演示提供后端服务 ([使用说明](https://github.com/haotian-liu/LLaVA?tab=readme-ov-file#demo))。
关于
SGLang 是一个面向大语言模型和多模态模型的高性能服务框架。
它旨在从单 GPU 到大型分布式集群的各种配置下,提供低延迟、高吞吐量的推理服务。其核心特性包括:
- 快速运行时:通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、预填充-解码解耦、推测解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化 (FP4/FP8/INT4/AWQ/GPTQ) 以及多 LoRA 批处理,提供高效服务。
- 广泛的模型支持:支持多种语言模型 (Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型 (e5-mistral、gte、mcdse)、奖励模型 (Skywork) 和扩散模型 (WAN、Qwen-Image),并易于扩展以支持新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
- 广泛的硬件支持:可在 NVIDIA GPU (GB200/B300/H100/A100/Spark)、AMD GPU (MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 NPU 等硬件上运行。
- 活跃的社区:SGLang 是开源的,拥有一个充满活力的社区,在工业界得到广泛采用,为全球超过 40 万个 GPU 提供支持。
- RL 与后训练骨干:SGLang 是全球范围内经过验证的 rollout 后端,具有原生 RL 集成,并被知名后训练框架采用,如 AReaL、Miles、slime、Tunix、verl 等。
快速开始
基准测试与性能
了解更多信息,请参阅发布博客:v0.2 博客、v0.3 博客、v0.4 博客、大规模专家并行、GB200 机架级并行。
采用与赞助
SGLang 已大规模部署,每天在生产环境中生成数万亿 token。它受到众多领先企业和机构的信任与采用,包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、MIT、UCLA、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及北美和亚洲的其他主要技术组织。
作为一个开源 LLM 推理引擎,SGLang 已成为事实上的行业标准,其部署运行在全球超过 40 万个 GPU 上。
SGLang 目前由非营利性开源组织 LMSYS 托管。

联系我们
对于有兴趣大规模采用或部署 SGLang 的企业,包括技术咨询、赞助机会或合作咨询,请通过 sglang@lmsys.org 与我们联系。
致谢
我们从以下项目中学习设计并复用了部分代码:Guidance、vLLM、LightLLM、FlashInfer、Outlines 和 LMQL。