OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.13753

LongRoPE:面向超长上下文的大模型位置编码扩展方法

 
  database ·  2026-03-19 11:01:24 · 3 次点击  · 0 条评论  

LongRoPE: 将大语言模型上下文窗口扩展至超过200万词元

作者: Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

提交日期: 2024年2月21日

摘要:
大上下文窗口是大语言模型(LLMs)的一个理想特性。然而,由于高昂的微调成本、长文本数据的稀缺性以及新词元位置引入的灾难性数值问题,当前扩展的上下文窗口通常被限制在约128k词元。本文提出了LongRoPE,首次将预训练大语言模型的上下文窗口扩展到惊人的2048k(约200万)词元,同时仅需在不超过256k的训练长度上进行最多1k步的微调,并能保持模型在原始短上下文窗口上的性能。这一成果通过三项关键创新实现:
1. 我们通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在无需微调的场景下实现了8倍的扩展。
2. 我们引入了一种渐进式扩展策略:首先微调得到一个256k长度的大语言模型,然后在该微调后的扩展模型上进行第二次位置插值,以实现2048k的上下文窗口。
3. 我们在8k长度上重新调整LongRoPE,以恢复短上下文窗口的性能。

在LLaMA2和Mistral模型上的大量实验证明了我们方法的有效性。通过LongRoPE扩展的模型保留了原始架构,仅对位置嵌入进行了微小修改,并且可以重用大部分已有的优化技术。

主题分类:
- 计算与语言 (cs.CL)

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 39 ms
Developed with Cursor