Lmdeploy Lite — 适合边缘与服务场景的大模型部署生态补充方案

dragonx · 2026-05-13 11:00:24 · 55 次点击 · 0 条评论

[![GitHub Repo stars](https://img.shields.io/github/stars/InternLM/xtuner?style=social)](https://github.com/InternLM/xtuner/stargazers) [![license](https://img.shields.io/github/license/InternLM/xtuner.svg)](https://github.com/InternLM/xtuner/blob/main/LICENSE) [![PyPI](https://img.shields.io/pypi/v/xtuner)](https://pypi.org/project/xtuner/) [![Downloads](https://static.pepy.tech/badge/xtuner)](https://pypi.org/project/xtuner/) [![issue resolution](https://img.shields.io/github/issues-closed-raw/InternLM/xtuner)](https://github.com/InternLM/xtuner/issues) [![open issues](https://img.shields.io/github/issues-raw/InternLM/xtuner)](https://github.com/InternLM/xtuner/issues) 👋 加入我们 [![Static Badge](https://img.shields.io/badge/-grey?style=social&logo=wechat&label=微信)](https://cdn.vansin.top/internlm/xtuner.jpg) [![Static Badge](https://img.shields.io/badge/-grey?style=social&logo=twitter&label=Twitter)](https://twitter.com/intern_lm) [![Static Badge](https://img.shields.io/badge/-grey?style=social&logo=discord&label=Discord)](https://discord.gg/xa29JuW87d) 🔍 探索我们的模型 [![Static Badge](https://img.shields.io/badge/-gery?style=social&label=🤗%20Huggingface)](https://huggingface.co/xtuner) [![Static Badge](https://img.shields.io/badge/-gery?style=social&label=🤖%20ModelScope)](https://www.modelscope.cn/organization/xtuner) [![Static Badge](https://img.shields.io/badge/-gery?style=social&label=🧰%20OpenXLab)](https://openxlab.org.cn/usercenter/xtuner) [![Static Badge](https://img.shields.io/badge/-gery?style=social&label=🧠%20WiseModel)](https://www.wisemodel.cn/organization/xtuner) [English](README.md) | 简体中文

🚀 速度基准测试

🎉 新闻

[2025/09] XTuner V1 发布！专为超大规模 MoE 模型打造的下一代训练引擎

📖 XTuner V1

XTuner V1 是专为超大规模 MoE 模型设计的下一代大语言模型训练引擎。与传统三维并行训练架构不同，XTuner V1 针对目前学术界和工业界主流的 MoE 训练场景进行了深度优化。

核心特性

📊 无丢弃训练

可扩展且不复杂： 无需专家并行即可训练 200B 级 MoE 模型；600B 模型仅需节点内专家并行
优化的并行策略： 相较于传统三维方案，专家并行维度更小，可实现更高效的无丢弃训练

📝 长序列支持

内存高效设计： 借助先进内存优化技术，无需序列并行即可在 64k 序列长度下训练 200B MoE 模型
灵活扩展： 完整支持 DeepSpeed Ulysses 序列并行，最大序列长度可线性扩展
稳健性能： 长序列训练中即使专家负载不均，也能保持稳定性

⚡ 卓越效率

超大规模： 支持训练高达 1T 参数的 MoE 模型
突破性性能： 首个在 200B 级以上 MoE 模型中实现 FSDP 训练吞吐量超越传统三维并行方案的框架
硬件优化： 在昇腾 A3 Supernode 上实现的训练效率超越 NVIDIA H800

🔥 路线图

XTuner V1 致力于持续提升超大规模 MoE 模型在预训练、指令微调和强化学习中的训练效率，并特别关注昇腾 NPU 的优化。

🚀 训练引擎

我们的愿景是将 XTuner V1 打造成一个通用的训练后端，无缝集成到更广泛的开源生态系统中。

模型	GPU(FP8)	GPU(BF16)	NPU(BF16)
Intern S1	✅	✅	✅
Intern VL	✅	✅	✅
Qwen3 Dense	✅	✅	✅
Qwen3 MoE	✅	✅	✅
GPT OSS	✅	✅	🚧
Deepseek V3	✅	✅	🚧
KIMI K2	✅	✅	🚧

🧠 算法

算法部分正在积极演进。我们欢迎社区贡献——借助 XTuner V1，将您的算法扩展至前所未有的规模！

已实现

✅ 多模态预训练 - 完整支持视觉-语言模型训练
✅ 多模态监督微调 - 针对指令跟随场景优化
✅ GRPO - 群体相对策略优化

即将推出

🔄 MPO - 混合偏好优化
🔄 DAPO - 动态采样策略优化
🔄 多轮智能体强化学习 - 高级智能体训练能力

⚡ 推理引擎集成

与主流推理框架无缝部署：
- [x] LMDeploy
- [ ] vLLM
- [ ] SGLang

数据准备

您可以使用 GraphGen 创建用于微调的合成数据。

🤝 贡献

我们感谢对 XTuner 的所有贡献。请参考 CONTRIBUTING.md 了解贡献指南。

🙏 致谢

XTuner V1 训练引擎的开发深受开源社区优秀工作的启发，并基于其卓越成果构建。我们向以下先驱项目致以诚挚的谢意：

训练引擎：

Torchtitan - 用于训练生成式 AI 模型的 PyTorch 原生平台
Deepspeed - 微软的深度学习优化库
MindSpeed - 昇腾的高性能训练加速库
Megatron - NVIDIA 的大规模 Transformer 训练框架

强化学习：

XTuner V1 的强化学习能力得益于以下项目提供的洞察和最佳实践：

veRL - 火山引擎用于 LLM 的强化学习框架
SLIME - 清华大学的可扩展 RLHF 实现
AReal - 蚂蚁集团的 LLM 推理强化学习框架
OpenRLHF - 基于 Ray 的易用、可扩展、高性能 RLHF 框架

我们衷心感谢这些项目的所有贡献者和维护者，感谢他们推动了大规模模型训练领域的发展。

🖊️ 引用

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}

许可证

本项目采用 Apache License 2.0 许可证发布。请同时遵守所使用模型和数据集的许可证。

项目地址：https://github.com/InternLM/xtuner

55 次点击 ∙ 0 人收藏

登录后收藏

0 条回复