# LLoCO: Learning Long Contexts Offline
- **作者**: Sijun Tan, Xiuyu Li, Shishir Patil, Ziyang Wu, Tianjun Zhang, Kurt Keutzer, Joseph E. Gonzalez, Raluca Ada Popa
- **分类**: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- **投稿日期**: 2024年4月11日(v1),最后修订于2024年10月17日(当前版本v2)
- **论文链接**: [arXiv:2404.07979](https://arxiv.org/abs/2404.07979)
- **代码链接**: [GitHub](https://github.com/jeffreysijuntan/lloco)
## 简介
大型语言模型(LLMs)在处理长上下文时仍面临挑战,主要源于自注意力机制的二次计算和内存开销以及生成过程中巨大的 KV 缓存。本文提出了 LLoCO(Learning Long Contexts Offline),一种通过离线学习上下文来解决该问题的新方法。该方法结合了上下文压缩和基于 LoRA 的领域内参数高效微调。LLoCO 能使 LLM 创建原始上下文的简洁表示,并高效检索相关信息以准确回答问题。该方法将原本上下文窗口为 4k token 的 LLaMA2-7B 模型的有效处理能力扩展到 128k token。
## 摘要
处理长上下文对大型语言模型来说仍然是一个挑战,原因在于自注意力机制的二次计算和内存开销,以及生成过程中的大量 KV 缓存。我们提出 LLoCO,一种通过离线学习上下文来解决此问题的新方法,该方法结合了上下文压缩和基于 LoRA 的领域内参数高效微调。我们的方法使 LLM 能够创建原始上下文的简洁表示,并高效地检索相关信息以准确回答问题。我们的方法将 4k token 的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 的 token。我们在多个长上下文问答数据集上评估了我们的方法,结果表明 LLoCO 显著优于上下文学习,同时在推理时使用的 token 数量减少了 30 倍。LLoCO 在推理时实现了高达 7.62 倍的加速,在微调时实现了 11.52 倍的吞吐量提升,显著降低了长文档问答的成本。这使其成为高效处理长上下文的一种有前景的解决方案。
## 主要贡献
- 提出 LLoCO 方法,结合上下文压缩和参数高效微调(LoRA)来处理长上下文。
- 将 4k token 的 LLaMA2-7B 模型的有效上下文窗口扩展到 128k token。
- 在多个长上下文问答数据集上,LLoCO 显著优于上下文学习方法,并在推理时使用了 30 倍更少的 token。
- 实现了最高 7.62 倍的推理加速和 11.52 倍的微调吞吐量提升。
## 备注
该论文已被 EMNLP 2024 接收。前两位作者对本文贡献均等。