YaRN: Efficient Context Window Extension of Large Language Models

基本信息

标题: YaRN: Efficient Context Window Extension of Large Language Models
作者: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
提交日期: 2023年8月31日（v1），最新修订：2026年2月6日（v3）
分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
代码: https://github.com/jquesnelle/yarn

摘要

旋转位置编码（RoPE）已被证明能够有效地在基于Transformer的语言模型中编码位置信息。然而，这些模型无法泛化到其训练时所使用的序列长度之外。本文提出 YaRN（Yet another RoPE extensioN method），一种计算高效的方法来扩展此类模型的上下文窗口，所需token数量比先前方法少10倍，训练步骤少2.5倍。使用YaRN，作者展示了LLaMA模型能够有效地利用并外推到远超过其原始预训练允许的上下文长度，同时在上下文窗口扩展方面超越了先前的最新技术。此外，实验表明YaRN具备外推到微调数据集有限上下文之外的能力。

论文地址：https://arxiv.org/abs/2309.00071

36 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

YaRN：高效扩展上下文长度的 RoPE 外推方法

YaRN: Efficient Context Window Extension of Large Language Models

基本信息

摘要