KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理与微调的研究项目。该项目已演变为两个核心模块:kt-kernel 和 kt-sft。
面向异构 LLM 推理的 CPU 优化内核操作。
核心特性:
- AMX/AVX 加速:针对 INT4/INT8 量化推理优化的 Intel AMX 和 AVX512/AVX2 内核
- MoE 优化:具有 NUMA 感知内存管理的高效混合专家模型推理
- 量化支持:CPU 端 INT4/INT8 量化权重,GPU 端 GPTQ 支持
- 易于集成:为 SGLang 等框架提供简洁的 Python API
快速开始:
cd kt-kernel
pip install .
使用场景:
性能示例:
| 模型 | 硬件配置 | 总吞吐量 | 输出吞吐量 |
|-------|------------------------|------------------|-------------------|
| DeepSeek-R1-0528 (FP8) | 8×L20 GPU + Xeon Gold 6454S | 227.85 tokens/s | 87.58 tokens/s (8路并发) |
👉 完整文档 →
KTransformers × LLaMA-Factory 集成,用于超大型 MoE 模型微调。

核心特性:
性能示例:
| 模型 | 配置 | 吞吐量 | GPU 内存 |
|---|---|---|---|
| DeepSeek-V3 (671B) | LoRA + AMX | ~40 tokens/s | 70GB (多 GPU) |
| DeepSeek-V2-Lite (14B) | LoRA + AMX | ~530 tokens/s | 6GB |
快速开始:
cd kt-sft
# 按照 kt-sft/README.md 安装环境
USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
👉 完整文档 →
如果您在研究中使用了 KTransformers,请引用我们的论文:
@inproceedings{10.1145/3731569.3764843,
title = {KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models},
author = {Chen, Hongtao and Xie, Weiyu and Zhang, Boxin and Tang, Jingqi and Wang, Jiahao and Dong, Jianwei and Chen, Shaoyuan and Yuan, Ziwei and Lin, Chen and Qiu, Chengyu and Zhu, Yuening and Ou, Qingliang and Liao, Jiaqi and Chen, Xianglin and Ai, Zhiyuan and Wu, Yongwei and Zhang, Mingxing},
booktitle = {Proceedings of the ACM SIGOPS 31st Symposium on Operating Systems Principles},
year = {2025}
}
由以下团队开发和维护:
- 清华大学 MADSys Lab
- Approaching.AI
- 9#AISoft
- 社区贡献者
我们欢迎贡献!请随时提交 Issue 和 Pull Request。
原始的集成 KTransformers 框架已归档至 archive/ 目录以供参考。项目现在专注于上述两个核心模块,以实现更好的模块化和可维护性。
有关包含完整快速入门指南和示例的原始文档,请参阅:
- archive/README.md (英文)
- archive/README_ZH.md (中文)