OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  SGLang — 高性能 LLM 推理框架

SGLang — 高性能 LLM 推理框架

 
  oracle ·  2026-02-28 00:42:39 · 3 次点击  · 0 条评论  
logo [![PyPI](https://img.shields.io/pypi/v/sglang)](https://pypi.org/project/sglang) ![PyPI - Downloads](https://static.pepy.tech/badge/sglang?period=month) [![license](https://img.shields.io/github/license/sgl-project/sglang.svg)](https://github.com/sgl-project/sglang/tree/main/LICENSE) [![issue resolution](https://img.shields.io/github/issues-closed-raw/sgl-project/sglang)](https://github.com/sgl-project/sglang/issues) [![open issues](https://img.shields.io/github/issues-raw/sgl-project/sglang)](https://github.com/sgl-project/sglang/issues) [![Ask DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/sgl-project/sglang)

博客 | 文档 | 路线图 | 加入 Slack | 每周开发会议 | 幻灯片

最新动态

  • [2026年1月] 🔥 SGLang Diffusion 加速视频和图像生成 (博客)。
  • [2025年12月] SGLang 为最新开源模型提供 Day-0 支持 (MiMo-V2-FlashNemotron 3 NanoMistral Large 3LLaDA 2.0 Diffusion LLMMiniMax M2)。
  • [2025年10月] 🔥 SGLang 现通过 SGLang-Jax 后端原生支持 TPU (博客)。
  • [2025年9月] 在 GB200 NVL72 上部署 DeepSeek,使用 PD 和大规模专家并行 (第二部分):3.8 倍预填充、4.8 倍解码吞吐量 (博客)。
  • [2025年9月] SGLang 为支持稀疏注意力的 DeepSeek-V3.2 提供 Day 0 支持 (博客)。
  • [2025年8月] SGLang x AMD SF 线下聚会 (8月22日):GPU 动手实践、AMD/xAI/SGLang 技术分享及交流 (路线图大规模 EP亮点AITER/MoRIWave)。
更多动态 - [2025年11月] SGLang Diffusion 加速视频和图像生成 ([博客](https://lmsys.org/blog/2025-11-07-sglang-diffusion/))。 - [2025年10月] PyTorch Conference 2025 SGLang 演讲 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/sglang_pytorch_2025.pdf))。 - [2025年10月] SGLang x Nvidia SF 线下聚会 (10月2日) ([回顾](https://x.com/lmsysorg/status/1975339501934510231))。 - [2025年8月] SGLang 为 OpenAI gpt-oss 模型提供 Day-0 支持 ([说明](https://github.com/sgl-project/sglang/issues/8833))。 - [2025年6月] 每日处理数万亿 token 的高性能服务基础设施 SGLang,获得了 a16z 第三批开源 AI 资助 ([a16z 博客](https://a16z.com/advancing-open-source-ai-through-benchmarks-and-bold-experimentation/))。 - [2025年5月] 在 96 个 H100 GPU 上使用 PD 解耦和大规模专家并行部署 DeepSeek ([博客](https://lmsys.org/blog/2025-05-05-large-scale-ep/))。 - [2025年6月] 在 GB200 NVL72 上部署 DeepSeek,使用 PD 和大规模专家并行 (第一部分):解码吞吐量提升 2.7 倍 ([博客](https://lmsys.org/blog/2025-06-16-gb200-part-1/))。 - [2025年3月] 在 AMD Instinct MI300X 上加速 DeepSeek-R1 推理 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html))。 - [2025年3月] SGLang 加入 PyTorch 生态系统:高效的 LLM 服务引擎 ([PyTorch 博客](https://pytorch.org/blog/sglang-joins-pytorch/))。 - [2025年2月] 在 AMD Instinct™ MI300X GPU 上解锁 DeepSeek-R1 推理性能 ([AMD 博客](https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html))。 - [2025年1月] SGLang 为 DeepSeek V3/R1 模型在 NVIDIA 和 AMD GPU 上提供首日支持,并包含针对 DeepSeek 的优化 ([说明](https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3)、[AMD 博客](https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html)、[10+ 其他公司](https://x.com/lmsysorg/status/1887262321636221412))。 - [2024年12月] v0.4 版本发布:零开销 CPU 调度器、缓存感知负载均衡器、更快的结构化输出 ([博客](https://lmsys.org/blog/2024-12-04-sglang-v0-4/))。 - [2024年10月] 首次 SGLang 在线聚会 ([幻灯片](https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup))。 - [2024年9月] v0.3 版本发布:DeepSeek MLA 推理速度提升 7 倍、torch.compile 速度提升 1.5 倍、支持多图像/视频的 LLaVA-OneVision ([博客](https://lmsys.org/blog/2024-09-04-sglang-v0-3/))。 - [2024年7月] v0.2 版本发布:使用 SGLang 运行时加速 Llama3 服务 (对比 TensorRT-LLM, vLLM) ([博客](https://lmsys.org/blog/2024-07-25-sglang-llama3/))。 - [2024年2月] SGLang 通过压缩有限状态机实现 **3 倍更快的 JSON 解码** ([博客](https://lmsys.org/blog/2024-02-05-compressed-fsm/))。 - [2024年1月] SGLang 通过 RadixAttention 实现高达 **5 倍更快的推理** ([博客](https://lmsys.org/blog/2024-01-17-sglang/))。 - [2024年1月] SGLang 为官方 **LLaVA v1.6** 发布演示提供后端服务 ([使用说明](https://github.com/haotian-liu/LLaVA?tab=readme-ov-file#demo))。

关于

SGLang 是一个面向大语言模型和多模态模型的高性能服务框架。
它旨在从单 GPU 到大型分布式集群的各种配置下,提供低延迟、高吞吐量的推理服务。其核心特性包括:

  • 快速运行时:通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、预填充-解码解耦、推测解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化 (FP4/FP8/INT4/AWQ/GPTQ) 以及多 LoRA 批处理,提供高效服务。
  • 广泛的模型支持:支持多种语言模型 (Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型 (e5-mistral、gte、mcdse)、奖励模型 (Skywork) 和扩散模型 (WAN、Qwen-Image),并易于扩展以支持新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
  • 广泛的硬件支持:可在 NVIDIA GPU (GB200/B300/H100/A100/Spark)、AMD GPU (MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 NPU 等硬件上运行。
  • 活跃的社区:SGLang 是开源的,拥有一个充满活力的社区,在工业界得到广泛采用,为全球超过 40 万个 GPU 提供支持。
  • RL 与后训练骨干:SGLang 是全球范围内经过验证的 rollout 后端,具有原生 RL 集成,并被知名后训练框架采用,如 AReaLMilesslimeTunixverl 等。

快速开始

基准测试与性能

了解更多信息,请参阅发布博客:v0.2 博客v0.3 博客v0.4 博客大规模专家并行GB200 机架级并行

采用与赞助

SGLang 已大规模部署,每天在生产环境中生成数万亿 token。它受到众多领先企业和机构的信任与采用,包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、MIT、UCLA、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及北美和亚洲的其他主要技术组织。
作为一个开源 LLM 推理引擎,SGLang 已成为事实上的行业标准,其部署运行在全球超过 40 万个 GPU 上。
SGLang 目前由非营利性开源组织 LMSYS 托管。

logo

联系我们

对于有兴趣大规模采用或部署 SGLang 的企业,包括技术咨询、赞助机会或合作咨询,请通过 sglang@lmsys.org 与我们联系。

致谢

我们从以下项目中学习设计并复用了部分代码:GuidancevLLMLightLLMFlashInferOutlinesLMQL

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor