AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

作者： Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han

提交/修订日期： 2023年6月1日提交，2024年7月18日修订 (v5)

主题/分类： 计算与语言 (cs.CL)

摘要：
大语言模型（LLMs）已经变革了众多AI应用。设备端LLM正变得越来越重要：在边缘设备上本地运行LLM可以降低云计算成本并保护用户隐私。然而，巨大的模型规模和有限的硬件资源带来了显著的部署挑战。本文提出了激活感知权重量化（AWQ），一种面向硬件的LLM低比特（仅权重）量化方法。

AWQ发现，并非LLM中的所有权重都同等重要。仅保护1%的关键权重即可大幅降低量化误差。为了识别关键的权重通道，应参考激活分布，而非权重本身。为了避免硬件效率低下的混合精度量化，本文从数学上推导出，放大关键通道可以减少量化误差。AWQ采用一种等效变换来缩放关键的权重通道以保护它们。缩放因子通过离线收集激活统计信息来确定。

AWQ不依赖于任何反向传播或重建过程，因此能够泛化到不同的领域和模态，而不会过拟合校准集。AWQ在各种语言建模和特定领域基准测试（代码和数学）上超越了现有工作。得益于更好的泛化能力，它在指令调优的语言模型上实现了优异的量化性能，并首次在多模态语言模型上实现了量化。

与AWQ一同，本文还实现了TinyChat，一个专为4位设备端LLM/VLM设计的高效灵活推理框架。通过内核融合和平台感知的权重打包，TinyChat在桌面和移动GPU上相比Huggingface FP16实现提供了超过3倍的加速。它还使得在移动GPU上部署700亿参数的Llama-2模型成为可能。

备注： 本文荣获MLSys 2024最佳论文奖。代码已开源：https://github.com/mit-han-lab/llm-awq

论文地址：https://arxiv.org/abs/2306.00978

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

AWQ：低比特大语言模型的激活感知权重降噪量化

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration