LongRoPE: 将大语言模型上下文窗口扩展至超过200万词元

作者： Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

提交日期： 2024年2月21日

摘要：
大上下文窗口是大语言模型（LLMs）的一个理想特性。然而，由于高昂的微调成本、长文本数据的稀缺性以及新词元位置引入的灾难性数值问题，当前扩展的上下文窗口通常被限制在约128k词元。本文提出了LongRoPE，首次将预训练大语言模型的上下文窗口扩展到惊人的2048k（约200万）词元，同时仅需在不超过256k的训练长度上进行最多1k步的微调，并能保持模型在原始短上下文窗口上的性能。这一成果通过三项关键创新实现：
1. 我们通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供了更好的初始化，并在无需微调的场景下实现了8倍的扩展。
2. 我们引入了一种渐进式扩展策略：首先微调得到一个256k长度的大语言模型，然后在该微调后的扩展模型上进行第二次位置插值，以实现2048k的上下文窗口。
3. 我们在8k长度上重新调整LongRoPE，以恢复短上下文窗口的性能。

在LLaMA2和Mistral模型上的大量实验证明了我们方法的有效性。通过LongRoPE扩展的模型保留了原始架构，仅对位置嵌入进行了微小修改，并且可以重用大部分已有的优化技术。

主题分类：
- 计算与语言 (cs.CL)

论文地址：https://arxiv.org/abs/2402.13753

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

LongRoPE：面向超长上下文的大模型位置编码扩展方法

LongRoPE: 将大语言模型上下文窗口扩展至超过200万词元