作者: Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang
提交日期: 2024年2月21日
主题分类: 计算与语言 (cs.CL)
摘要:
大上下文窗口是大语言模型(LLMs)的一个理想特性。然而,由于高昂的微调成本、长文本的稀缺性以及新词元位置引入的灾难性数值,当前扩展的上下文窗口被限制在约128k词元。本文提出了LongRoPE,首次将预训练LLM的上下文窗口扩展到了令人印象深刻的2048k(约200万)词元,同时仅需在256k训练长度内进行最多1k步的微调,并能保持模型在原始短上下文窗口上的性能。这是通过三项关键创新实现的:
1. 通过高效搜索识别并利用位置插值中的两种非均匀性,为微调提供了更好的初始化,并在无需微调的场景下实现了8倍的扩展。
2. 引入渐进式扩展策略,首先微调一个256k长度的LLM,然后在该微调后的扩展LLM上进行第二次位置插值,以实现2048k的上下文窗口。
3. 在8k长度上重新调整LongRoPE,以恢复短上下文窗口的性能。
在LLaMA2和Mistral模型上的大量实验证明了该方法的有效性。通过LongRoPE扩展的模型保留了原始架构,仅对位置嵌入进行了微小修改,并且可以重用大部分已有的优化方案。