OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2309.00071

YaRN:高效扩展上下文长度的 RoPE 外推方法

 
  ankle ·  2026-05-20 11:01:25 · 9 次点击  · 0 条评论  

YaRN: Efficient Context Window Extension of Large Language Models

基本信息

  • 标题: YaRN: Efficient Context Window Extension of Large Language Models
  • 作者: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
  • 提交日期: 2023年8月31日(v1),最新修订:2026年2月6日(v3)
  • 分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
  • 代码: https://github.com/jquesnelle/yarn

摘要

旋转位置编码(RoPE)已被证明能够有效地在基于Transformer的语言模型中编码位置信息。然而,这些模型无法泛化到其训练时所使用的序列长度之外。本文提出 YaRN(Yet another RoPE extensioN method),一种计算高效的方法来扩展此类模型的上下文窗口,所需token数量比先前方法少10倍,训练步骤少2.5倍。使用YaRN,作者展示了LLaMA模型能够有效地利用并外推到远超过其原始预训练允许的上下文长度,同时在上下文窗口扩展方面超越了先前的最新技术。此外,实验表明YaRN具备外推到微调数据集有限上下文之外的能力。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 24 ms
Developed with Cursor