OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2210.17323

GPTQ:生成式预训练模型的高效后训练量化

 
  integration ·  2026-01-22 15:52:39 · 9 次点击  · 0 条评论  

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

提交/修订日期: 2022年10月31日提交,2023年3月22日修订

主题/分类: 计算机科学 > 机器学习 (cs.LG)

会议: ICLR 2023

摘要:
生成式预训练Transformer模型(如GPT或OPT)在复杂语言建模任务上取得了突破性性能,但也伴随着极高的计算和存储成本。由于其庞大的规模,即使是大型、高精度GPT模型的推理也可能需要多个高性能GPU,这限制了此类模型的可用性。虽然已有工作通过模型压缩来缓解这一压力,但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。

本文提出了一种新的单次权重量化方法——GPTQ。该方法基于近似的二阶信息,兼具高精度和高效率。具体而言,GPTQ可以在大约4个GPU小时内量化拥有1750亿参数的GPT模型,将权重位宽降至3或4比特,同时相对于未压缩的基线模型,精度下降可以忽略不计。与之前提出的单次量化方法相比,我们的方法在保持精度的同时,将压缩增益提高了一倍以上,首次实现了在单个GPU内运行1750亿参数模型进行生成式推理。此外,我们还展示了该方法在极端量化场景(如将权重量化为2比特甚至三元量化)下仍能提供合理的精度。实验表明,这些改进可以转化为端到端的推理加速:与FP16相比,使用高端GPU(NVIDIA A100)时加速约3.25倍,使用更具成本效益的GPU(NVIDIA A6000)时加速约4.5倍。

代码: 实现代码位于 https://github.com/IST-DASLab/gptq

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 32 ms
Developed with Cursor