作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
提交/修订日期: 2022年10月31日提交,2023年3月22日修订
主题/分类: 计算机科学 > 机器学习 (cs.LG)
会议: ICLR 2023
摘要:
生成式预训练Transformer模型(如GPT或OPT)在复杂语言建模任务上取得了突破性性能,但也伴随着极高的计算和存储成本。由于其庞大的规模,即使是大型、高精度GPT模型的推理也可能需要多个高性能GPU,这限制了此类模型的可用性。虽然已有工作通过模型压缩来缓解这一压力,但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。
本文提出了一种新的单次权重量化方法——GPTQ。该方法基于近似的二阶信息,兼具高精度和高效率。具体而言,GPTQ可以在大约4个GPU小时内量化拥有1750亿参数的GPT模型,将权重位宽降至3或4比特,同时相对于未压缩的基线模型,精度下降可以忽略不计。与之前提出的单次量化方法相比,我们的方法在保持精度的同时,将压缩增益提高了一倍以上,首次实现了在单个GPU内运行1750亿参数模型进行生成式推理。此外,我们还展示了该方法在极端量化场景(如将权重量化为2比特甚至三元量化)下仍能提供合理的精度。实验表明,这些改进可以转化为端到端的推理加速:与FP16相比,使用高端GPU(NVIDIA A100)时加速约3.25倍,使用更具成本效益的GPU(NVIDIA A6000)时加速约4.5倍。
代码: 实现代码位于 https://github.com/IST-DASLab/gptq