GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

作者： Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

提交/修订日期： 2022年10月31日提交，2023年3月22日修订

主题/分类： 计算机科学 > 机器学习 (cs.LG)

会议： ICLR 2023

摘要：
生成式预训练Transformer模型（如GPT或OPT）在复杂语言建模任务上取得了突破性性能，但也伴随着极高的计算和存储成本。由于其庞大的规模，即使是大型、高精度GPT模型的推理也可能需要多个高性能GPU，这限制了此类模型的可用性。虽然已有工作通过模型压缩来缓解这一压力，但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。

本文提出了一种新的单次权重量化方法——GPTQ。该方法基于近似的二阶信息，兼具高精度和高效率。具体而言，GPTQ可以在大约4个GPU小时内量化拥有1750亿参数的GPT模型，将权重位宽降至3或4比特，同时相对于未压缩的基线模型，精度下降可以忽略不计。与之前提出的单次量化方法相比，我们的方法在保持精度的同时，将压缩增益提高了一倍以上，首次实现了在单个GPU内运行1750亿参数模型进行生成式推理。此外，我们还展示了该方法在极端量化场景（如将权重量化为2比特甚至三元量化）下仍能提供合理的精度。实验表明，这些改进可以转化为端到端的推理加速：与FP16相比，使用高端GPU（NVIDIA A100）时加速约3.25倍，使用更具成本效益的GPU（NVIDIA A6000）时加速约4.5倍。

代码： 实现代码位于 https://github.com/IST-DASLab/gptq

论文地址：https://arxiv.org/abs/2210.17323

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

GPTQ：生成式预训练模型的高效后训练量化

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers