作者: Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang
提交日期: 2024年2月21日
摘要:
大上下文窗口是大语言模型(LLMs)的一个理想特性。然而,由于高昂的微调成本、长文本数据的稀缺性以及新词元位置引入的灾难性数值问题,当前扩展的上下文窗口通常被限制在约128k词元。本文提出了LongRoPE,首次将预训练大语言模型的上下文窗口扩展到惊人的2048k(约200万)词元,同时仅需在不超过256k的训练长度上进行最多1k步的微调,并能保持模型在原始短上下文窗口上的性能。这一成果通过三项关键创新实现:
1. 我们通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在无需微调的场景下实现了8倍的扩展。
2. 我们引入了一种渐进式扩展策略:首先微调得到一个256k长度的大语言模型,然后在该微调后的扩展模型上进行第二次位置插值,以实现2048k的上下文窗口。
3. 我们在8k长度上重新调整LongRoPE,以恢复短上下文窗口的性能。
在LLaMA2和Mistral模型上的大量实验证明了我们方法的有效性。通过LongRoPE扩展的模型保留了原始架构,仅对位置嵌入进行了微小修改,并且可以重用大部分已有的优化技术。
主题分类:
- 计算与语言 (cs.CL)