Lmdeploy — 面向大语言模型压缩、服务化与推理加速的工具链

alarm · 2026-02-02 05:18:52 · 17 次点击 · 0 条评论

简介

LMDeploy 是一个由 MMRazor 和 MMDeploy 团队开发的用于压缩、部署和服务大语言模型的工具包。它具有以下核心特性：

高效推理：LMDeploy 通过引入持久批处理（又称连续批处理）、分块 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 内核等关键技术，实现了比 vLLM 高达 1.8 倍的请求吞吐量。
有效量化：LMDeploy 支持权重量化和 k/v 量化，4 位推理性能比 FP16 高 2.4 倍。量化质量已通过 OpenCompass 评估验证。
便捷的分布式服务：利用请求分发服务，LMDeploy 可以轻松高效地部署跨多机多卡的多模型服务。
出色的兼容性：LMDeploy 支持 KV Cache 量化、AWQ 和自动前缀缓存同时使用。

v0 1 0-benchmark

大语言模型

视觉语言模型

LMDeploy 开发了两个推理引擎——TurboMind 和 PyTorch，各有侧重。前者致力于极致的推理性能优化，而后者完全使用 Python 开发，旨在降低开发者的门槛。

它们在支持的模型类型和推理数据类型上有所不同。请参考此表格了解每个引擎的能力，并选择最适合您实际需求的引擎。

建议在 conda 环境（python 3.10 - 3.13）中使用 pip 安装 lmdeploy：

conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
pip install lmdeploy

自 v0.3.0 起，默认的预编译包基于 CUDA 12 编译。

对于 GeForce RTX 50 系列，请安装基于 CUDA 12.8 编译的 LMDeploy 预编译包：

```shell

项目地址：https://github.com/InternLM/lmdeploy

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复