OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2405.04517

xLSTM:用扩展 LSTM 重新挑战 Transformer 的序列建模范式

 
  nurture ·  2026-05-22 11:01:26 · 9 次点击  · 0 条评论  

xLSTM: Extended Long Short-Term Memory

作者: Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter

提交日期: 2024年5月7日(v1),最后修订于2024年12月6日(v2)


摘要

在20世纪90年代,恒定误差轮盘(constant error carousel)和门控机制被引入,作为长短期记忆网络(LSTM)的核心思想。自那时起,LSTM经受住了时间的考验,为众多深度学习成功案例做出了贡献,尤其是构成了首批大型语言模型(LLM)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在大规模场景下超越了LSTM。

本文提出了一个简单的问题:在将LSTM扩展到数十亿参数时,利用现代LLM的最新技术,同时缓解LSTM已知的局限性,我们在语言建模中能走多远?

作者首先引入了指数门控(exponential gating)以及适当的归一化和稳定化技术。其次,修改了LSTM的记忆结构,得到:

  • sLSTM:具有标量记忆、标量更新和新的记忆混合机制
  • mLSTM:具有矩阵记忆和协方差更新规则,可完全并行化

将这些LSTM扩展集成到残差块主干中,得到xLSTM块,然后通过残差堆叠构成xLSTM架构。指数门控和修改后的记忆结构提升了xLSTM的能力,使其在性能和扩展性方面均优于最先进的Transformer和状态空间模型。


主题分类: 机器学习(cs.LG);人工智能(cs.AI);机器学习(stat.ML)

代码: 开源代码已发布(https://github.com/NX-AI/xlstm)

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 288 ms
Developed with Cursor