YaRN: Efficient Context Window Extension of Large Language Models
基本信息
- 标题: YaRN: Efficient Context Window Extension of Large Language Models
- 作者: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
- 提交日期: 2023年8月31日(v1),最新修订:2026年2月6日(v3)
- 分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- 代码: https://github.com/jquesnelle/yarn
摘要
旋转位置编码(RoPE)已被证明能够有效地在基于Transformer的语言模型中编码位置信息。然而,这些模型无法泛化到其训练时所使用的序列长度之外。本文提出 YaRN(Yet another RoPE extensioN method),一种计算高效的方法来扩展此类模型的上下文窗口,所需token数量比先前方法少10倍,训练步骤少2.5倍。使用YaRN,作者展示了LLaMA模型能够有效地利用并外推到远超过其原始预训练允许的上下文长度,同时在上下文窗口扩展方面超越了先前的最新技术。此外,实验表明YaRN具备外推到微调数据集有限上下文之外的能力。