OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2306.00978

AWQ:低比特大语言模型的激活感知权重降噪量化

 
  protocol ·  2026-01-23 01:13:36 · 8 次点击  · 0 条评论  

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

作者: Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han

提交/修订日期: 2023年6月1日提交,2024年7月18日修订 (v5)

主题/分类: 计算与语言 (cs.CL)

摘要:
大语言模型(LLMs)已经变革了众多AI应用。设备端LLM正变得越来越重要:在边缘设备上本地运行LLM可以降低云计算成本并保护用户隐私。然而,巨大的模型规模和有限的硬件资源带来了显著的部署挑战。本文提出了激活感知权重量化(AWQ),一种面向硬件的LLM低比特(仅权重)量化方法。

AWQ发现,并非LLM中的所有权重都同等重要。仅保护1%的关键权重即可大幅降低量化误差。为了识别关键的权重通道,应参考激活分布,而非权重本身。为了避免硬件效率低下的混合精度量化,本文从数学上推导出,放大关键通道可以减少量化误差。AWQ采用一种等效变换来缩放关键的权重通道以保护它们。缩放因子通过离线收集激活统计信息来确定。

AWQ不依赖于任何反向传播或重建过程,因此能够泛化到不同的领域和模态,而不会过拟合校准集。AWQ在各种语言建模和特定领域基准测试(代码和数学)上超越了现有工作。得益于更好的泛化能力,它在指令调优的语言模型上实现了优异的量化性能,并首次在多模态语言模型上实现了量化。

与AWQ一同,本文还实现了TinyChat,一个专为4位设备端LLM/VLM设计的高效灵活推理框架。通过内核融合和平台感知的权重打包,TinyChat在桌面和移动GPU上相比Huggingface FP16实现提供了超过3倍的加速。它还使得在移动GPU上部署700亿参数的Llama-2模型成为可能。

备注: 本文荣获MLSys 2024最佳论文奖。代码已开源:https://github.com/mit-han-lab/llm-awq

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 24 ms
Developed with Cursor