SGLang — 高性能 LLM 推理框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

[![PyPI](https://img.shields.io/pypi/v/sglang)](https://pypi.org/project/sglang) ![PyPI - Downloads](https://static.pepy.tech/badge/sglang?period=month) [![license](https://img.shields.io/github/license/sgl-project/sglang.svg)](https://github.com/sgl-project/sglang/tree/main/LICENSE) [![issue resolution](https://img.shields.io/github/issues-closed-raw/sgl-project/sglang)](https://github.com/sgl-project/sglang/issues) [![open issues](https://img.shields.io/github/issues-raw/sgl-project/sglang)](https://github.com/sgl-project/sglang/issues) [![Ask DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/sgl-project/sglang)

博客 | 文档 | 路线图 | 加入 Slack | 每周开发会议 | 幻灯片

最新动态

[2026年1月] 🔥 SGLang Diffusion 加速视频和图像生成 (博客)。
[2025年12月] SGLang 为最新开源模型提供 Day-0 支持 (MiMo-V2-Flash、Nemotron 3 Nano、Mistral Large 3、LLaDA 2.0 Diffusion LLM、MiniMax M2)。
[2025年10月] 🔥 SGLang 现通过 SGLang-Jax 后端原生支持 TPU (博客)。
[2025年9月] 在 GB200 NVL72 上部署 DeepSeek，使用 PD 和大规模专家并行 (第二部分)：3.8 倍预填充、4.8 倍解码吞吐量 (博客)。
[2025年9月] SGLang 为支持稀疏注意力的 DeepSeek-V3.2 提供 Day 0 支持 (博客)。
[2025年8月] SGLang x AMD SF 线下聚会 (8月22日)：GPU 动手实践、AMD/xAI/SGLang 技术分享及交流 (路线图、大规模 EP、亮点、AITER/MoRI、Wave)。

更多动态

- [2025年11月] SGLang Diffusion 加速视频和图像生成 ([博客](https://lmsys.org/blog/2025-11-07-sglang-diffusion/))。 - [2025年10月] PyTorch Conference 2025 SGLang 演讲 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/sglang_pytorch_2025.pdf))。 - [2025年10月] SGLang x Nvidia SF 线下聚会 (10月2日) ([回顾](https://x.com/lmsysorg/status/1975339501934510231))。 - [2025年8月] SGLang 为 OpenAI gpt-oss 模型提供 Day-0 支持 ([说明](https://github.com/sgl-project/sglang/issues/8833))。 - [2025年6月] 每日处理数万亿 token 的高性能服务基础设施 SGLang，获得了 a16z 第三批开源 AI 资助 ([a16z 博客](https://a16z.com/advancing-open-source-ai-through-benchmarks-and-bold-experimentation/))。 - [2025年5月] 在 96 个 H100 GPU 上使用 PD 解耦和大规模专家并行部署 DeepSeek ([博客](https://lmsys.org/blog/2025-05-05-large-scale-ep/))。 - [2025年6月] 在 GB200 NVL72 上部署 DeepSeek，使用 PD 和大规模专家并行 (第一部分)：解码吞吐量提升 2.7 倍 ([博客](https://lmsys.org/blog/2025-06-16-gb200-part-1/))。 - [2025年3月] 在 AMD Instinct MI300X 上加速 DeepSeek-R1 推理 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html))。 - [2025年3月] SGLang 加入 PyTorch 生态系统：高效的 LLM 服务引擎 ([PyTorch 博客](https://pytorch.org/blog/sglang-joins-pytorch/))。 - [2025年2月] 在 AMD Instinct™ MI300X GPU 上解锁 DeepSeek-R1 推理性能 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html))。 - [2025年1月] SGLang 为 DeepSeek V3/R1 模型在 NVIDIA 和 AMD GPU 上提供首日支持，并包含针对 DeepSeek 的优化 ([说明](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3)、[AMD 博客](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html)、[10+ 其他公司](https://x.com/lmsysorg/status/1887262321636221412))。 - [2024年12月] v0.4 版本发布：零开销 CPU 调度器、缓存感知负载均衡器、更快的结构化输出 ([博客](https://lmsys.org/blog/2024-12-04-sglang-v0-4/))。 - [2024年10月] 首次 SGLang 在线聚会 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup))。 - [2024年9月] v0.3 版本发布：DeepSeek MLA 推理速度提升 7 倍、torch.compile 速度提升 1.5 倍、支持多图像/视频的 LLaVA-OneVision ([博客](https://lmsys.org/blog/2024-09-04-sglang-v0-3/))。 - [2024年7月] v0.2 版本发布：使用 SGLang 运行时加速 Llama3 服务 (对比 TensorRT-LLM, vLLM) ([博客](https://lmsys.org/blog/2024-07-25-sglang-llama3/))。 - [2024年2月] SGLang 通过压缩有限状态机实现 **3 倍更快的 JSON 解码** ([博客](https://lmsys.org/blog/2024-02-05-compressed-fsm/))。 - [2024年1月] SGLang 通过 RadixAttention 实现高达 **5 倍更快的推理** ([博客](https://lmsys.org/blog/2024-01-17-sglang/))。 - [2024年1月] SGLang 为官方 **LLaVA v1.6** 发布演示提供后端服务 ([使用说明](https://github.com/haotian-liu/LLaVA?tab=readme-ov-file#demo))。

关于

SGLang 是一个面向大语言模型和多模态模型的高性能服务框架。
它旨在从单 GPU 到大型分布式集群的各种配置下，提供低延迟、高吞吐量的推理服务。其核心特性包括：

快速运行时：通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、预填充-解码解耦、推测解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化 (FP4/FP8/INT4/AWQ/GPTQ) 以及多 LoRA 批处理，提供高效服务。
广泛的模型支持：支持多种语言模型 (Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型 (e5-mistral、gte、mcdse)、奖励模型 (Skywork) 和扩散模型 (WAN、Qwen-Image)，并易于扩展以支持新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
广泛的硬件支持：可在 NVIDIA GPU (GB200/B300/H100/A100/Spark)、AMD GPU (MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 NPU 等硬件上运行。
活跃的社区：SGLang 是开源的，拥有一个充满活力的社区，在工业界得到广泛采用，为全球超过 40 万个 GPU 提供支持。
RL 与后训练骨干：SGLang 是全球范围内经过验证的 rollout 后端，具有原生 RL 集成，并被知名后训练框架采用，如 AReaL、Miles、slime、Tunix、verl 等。

快速开始

基准测试与性能

了解更多信息，请参阅发布博客：v0.2 博客、v0.3 博客、v0.4 博客、大规模专家并行、GB200 机架级并行。

采用与赞助

SGLang 已大规模部署，每天在生产环境中生成数万亿 token。它受到众多领先企业和机构的信任与采用，包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、MIT、UCLA、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及北美和亚洲的其他主要技术组织。
作为一个开源 LLM 推理引擎，SGLang 已成为事实上的行业标准，其部署运行在全球超过 40 万个 GPU 上。
SGLang 目前由非营利性开源组织 LMSYS 托管。

logo

联系我们

对于有兴趣大规模采用或部署 SGLang 的企业，包括技术咨询、赞助机会或合作咨询，请通过 sglang@lmsys.org 与我们联系。

致谢

我们从以下项目中学习设计并复用了部分代码：Guidance、vLLM、LightLLM、FlashInfer、Outlines 和 LMQL。

项目地址：https://github.com/sgl-project/sglang

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复