Speculative Streaming: Fast LLM Inference without Auxiliary Models

作者： Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

提交日期： 2024年2月16日

主题/分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

摘要：
推测解码（Speculative decoding）是一种基于辅助草稿模型的预测来加速大型目标语言模型推理的突出技术。虽然有效，但在特定应用场景中，它通常需要对草稿模型和目标模型都进行微调，以实现高接受率。随着下游任务数量的增长，这些草稿模型给推理系统带来了显著的复杂性。

我们提出了 Speculative Streaming，一种单模型的推测解码方法。该方法通过将微调目标从下一个词元预测改为未来 n-gram 预测，从而将草稿生成过程融合到目标模型中。Speculative Streaming 在摘要、结构化查询和意义表示等多种任务上，将解码速度提升了 1.8 至 3.1 倍，且不牺牲生成质量。

此外，Speculative Streaming 是参数高效的。它在达到与 Medusa 风格架构相当或更高的加速比的同时，使用的额外参数减少了约 10000 倍，使其非常适合资源受限的设备。

论文地址：https://arxiv.org/abs/2402.11131

15 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

AdaSPEC：通过自适应推测解码加速大语言模型生成

Speculative Streaming: Fast LLM Inference without Auxiliary Models