首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

LongRoPE: 将LLM上下文窗口扩展至超过200万词元

作者： Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

提交日期： 2024年2月21日

主题分类： 计算与语言 (cs.CL)

摘要：
大上下文窗口是大语言模型（LLMs）的一个理想特性。然而，由于高昂的微调成本、长文本的稀缺性以及新词元位置引入的灾难性数值，当前扩展的上下文窗口被限制在约128k词元。本文提出了LongRoPE，首次将预训练LLM的上下文窗口扩展到了令人印象深刻的2048k（约200万）词元，同时仅需在256k训练长度内进行最多1k步的微调，并能保持模型在原始短上下文窗口上的性能。这是通过三项关键创新实现的：
1. 通过高效搜索识别并利用位置插值中的两种非均匀性，为微调提供了更好的初始化，并在无需微调的场景下实现了8倍的扩展。
2. 引入渐进式扩展策略，首先微调一个256k长度的LLM，然后在该微调后的扩展LLM上进行第二次位置插值，以实现2048k的上下文窗口。
3. 在8k长度上重新调整LongRoPE，以恢复短上下文窗口的性能。

在LLaMA2和Mistral模型上的大量实验证明了该方法的有效性。通过LongRoPE扩展的模型保留了原始架构，仅对位置嵌入进行了微小修改，并且可以重用大部分已有的优化方案。

论文地址：https://arxiv.org/abs/2402.13753v1

11 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 16 ms

Developed with Cursor