MInference 1.0: 通过动态稀疏注意力加速长上下文大语言模型的预填充

作者： Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

提交/修订日期： 2024年7月2日提交，2024年10月30日修订 (v2)

状态： 已被 NeurIPS 2024 接收为 Spotlight 论文。

主题/分类： 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要：
大规模语言模型（LLM）推理的计算挑战仍然是其广泛部署的主要障碍，尤其是在提示长度持续增加的背景下。由于注意力计算的二次复杂度，一个80亿参数的LLM在单个A100 GPU上处理一个包含100万个令牌的提示（即预填充阶段）需要30分钟。现有的加速预填充方法在应用于长上下文LLM时，往往难以在保持可接受的准确性和效率之间取得平衡。为了填补这一空白，我们提出了MInference（百万令牌推理），这是一种旨在加速长序列处理预填充的稀疏计算方法。具体来说，我们识别了长上下文注意力矩阵中的三种独特模式——A形、垂直斜线和块稀疏——这些模式可用于在GPU上进行高效的稀疏计算。我们离线确定每个注意力头的最佳模式，并在推理过程中根据分配的模式动态构建稀疏索引。利用这些模式和稀疏索引，我们通过优化的GPU内核执行高效的稀疏注意力计算，从而显著降低长上下文LLM预填充阶段的延迟。我们提出的技术可以直接应用于现有的LLM，无需对预训练设置进行任何修改或额外的微调。通过在广泛的下游任务（包括InfiniteBench、RULER、PG-19和Needle In A Haystack）和模型（包括LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K）上进行评估，我们证明MInference在A100上能将预填充的推理延迟有效降低高达10倍，同时保持准确性。我们的代码可在 https://aka.ms/MInference 获取。

论文地址：https://arxiv.org/abs/2407.02490

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MInference：无需训练即可加速长上下文大模型推理

MInference 1.0: 通过动态稀疏注意力加速长上下文大语言模型的预填充