OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Lmdeploy — 面向大语言模型压缩、服务化与推理加速的工具链

Lmdeploy — 面向大语言模型压缩、服务化与推理加速的工具链

 
  alarm ·  2026-03-20 11:00:27 · 2 次点击  · 0 条评论  

简介

LMDeploy 是一个由 MMRazorMMDeploy 团队开发的用于压缩、部署和服务大语言模型的工具包。它具有以下核心特性:

  • 高效推理:LMDeploy 通过引入持久批处理(又称连续批处理)、分块 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 内核等关键技术,实现了比 vLLM 高达 1.8 倍的请求吞吐量。

  • 有效量化:LMDeploy 支持权重量化和 k/v 量化,4 位推理性能比 FP16 高 2.4 倍。量化质量已通过 OpenCompass 评估验证。

  • 便捷的分布式服务:利用请求分发服务,LMDeploy 可以轻松高效地部署跨多机多卡的多模型服务。

  • 出色的兼容性:LMDeploy 支持 KV Cache 量化AWQ自动前缀缓存 同时使用。

性能

v0 1 0-benchmark

支持的模型

大语言模型 视觉语言模型
  • Llama (7B - 65B)
  • Llama2 (7B - 70B)
  • Llama3 (8B, 70B)
  • Llama3.1 (8B, 70B)
  • Llama3.2 (1B, 3B)
  • InternLM (7B - 20B)
  • InternLM2 (7B - 20B)
  • InternLM3 (8B)
  • InternLM2.5 (7B)
  • Qwen (1.8B - 72B)
  • Qwen1.5 (0.5B - 110B)
  • Qwen1.5 - MoE (0.5B - 72B)
  • Qwen2 (0.5B - 72B)
  • Qwen2-MoE (57BA14B)
  • Qwen2.5 (0.5B - 32B)
  • Qwen3, Qwen3-MoE
  • Qwen3-Next(80B)
  • Baichuan (7B)
  • Baichuan2 (7B-13B)
  • Code Llama (7B - 34B)
  • ChatGLM2 (6B)
  • GLM-4 (9B)
  • GLM-4-0414 (9B, 32B)
  • CodeGeeX4 (9B)
  • YI (6B-34B)
  • Mistral (7B)
  • DeepSeek-MoE (16B)
  • DeepSeek-V2 (16B, 236B)
  • DeepSeek-V2.5 (236B)
  • DeepSeek-V3 (685B)
  • DeepSeek-V3.2 (685B)
  • Mixtral (8x7B, 8x22B)
  • Gemma (2B - 7B)
  • StarCoder2 (3B - 15B)
  • Phi-3-mini (3.8B)
  • Phi-3.5-mini (3.8B)
  • Phi-3.5-MoE (16x3.8B)
  • Phi-4-mini (3.8B)
  • MiniCPM3 (4B)
  • SDAR (1.7B-30B)
  • gpt-oss (20B, 120B)
  • GLM-4.7-Flash (30B)
  • GLM-5 (754B)
  • LLaVA(1.5,1.6) (7B-34B)
  • InternLM-XComposer2 (7B, 4khd-7B)
  • InternLM-XComposer2.5 (7B)
  • Qwen-VL (7B)
  • Qwen2-VL (2B, 7B, 72B)
  • Qwen2.5-VL (3B, 7B, 72B)
  • Qwen3-VL (2B - 235B)
  • Qwen3.5 (0.8B - 397B)
  • DeepSeek-VL (7B)
  • DeepSeek-VL2 (3B, 16B, 27B)
  • InternVL-Chat (v1.1-v1.5)
  • InternVL2 (1B-76B)
  • InternVL2.5(MPO) (1B-78B)
  • InternVL3 (1B-78B)
  • InternVL3.5 (1B-241BA28B)
  • Intern-S1 (241B)
  • Intern-S1-mini (8.3B)
  • Intern-S1-Pro (1TB)
  • Mono-InternVL (2B)
  • ChemVLM (8B-26B)
  • CogVLM-Chat (17B)
  • CogVLM2-Chat (19B)
  • MiniCPM-Llama3-V-2_5
  • MiniCPM-V-2_6
  • Phi-3-vision (4.2B)
  • Phi-3.5-vision (4.2B)
  • GLM-4V (9B)
  • GLM-4.1V-Thinking (9B)
  • Llama3.2-vision (11B, 90B)
  • Molmo (7B-D,72B)
  • Gemma3 (1B - 27B)
  • Llama4 (Scout, Maverick)

LMDeploy 开发了两个推理引擎——TurboMindPyTorch,各有侧重。前者致力于极致的推理性能优化,而后者完全使用 Python 开发,旨在降低开发者的门槛。

它们在支持的模型类型和推理数据类型上有所不同。请参考此表格了解每个引擎的能力,并选择最适合您实际需求的引擎。

快速开始 Open In Colab

安装

建议在 conda 环境(python 3.10 - 3.13)中使用 pip 安装 lmdeploy:

conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
pip install lmdeploy

自 v0.3.0 起,默认的预编译包基于 CUDA 12 编译。

对于 GeForce RTX 50 系列,请安装基于 CUDA 12.8 编译的 LMDeploy 预编译包:

```shell

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 39 ms
Developed with Cursor