OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2407.02490

MInference:无需训练即可加速长上下文大模型推理

 
  accident ·  2026-04-08 11:01:27 · 4 次点击  · 0 条评论  

MInference 1.0: 通过动态稀疏注意力加速长上下文大语言模型的预填充

作者: Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

提交/修订日期: 2024年7月2日提交,2024年10月30日修订 (v2)

状态: 已被 NeurIPS 2024 接收为 Spotlight 论文。

主题/分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)

摘要:
大规模语言模型(LLM)推理的计算挑战仍然是其广泛部署的主要障碍,尤其是在提示长度持续增加的背景下。由于注意力计算的二次复杂度,一个80亿参数的LLM在单个A100 GPU上处理一个包含100万个令牌的提示(即预填充阶段)需要30分钟。现有的加速预填充方法在应用于长上下文LLM时,往往难以在保持可接受的准确性和效率之间取得平衡。为了填补这一空白,我们提出了MInference(百万令牌推理),这是一种旨在加速长序列处理预填充的稀疏计算方法。具体来说,我们识别了长上下文注意力矩阵中的三种独特模式——A形、垂直斜线和块稀疏——这些模式可用于在GPU上进行高效的稀疏计算。我们离线确定每个注意力头的最佳模式,并在推理过程中根据分配的模式动态构建稀疏索引。利用这些模式和稀疏索引,我们通过优化的GPU内核执行高效的稀疏注意力计算,从而显著降低长上下文LLM预填充阶段的延迟。我们提出的技术可以直接应用于现有的LLM,无需对预训练设置进行任何修改或额外的微调。通过在广泛的下游任务(包括InfiniteBench、RULER、PG-19和Needle In A Haystack)和模型(包括LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K)上进行评估,我们证明MInference在A100上能将预填充的推理延迟有效降低高达10倍,同时保持准确性。我们的代码可在 https://aka.ms/MInference 获取。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 47 ms
Developed with Cursor