xLSTM: Extended Long Short-Term Memory

作者： Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter

提交日期： 2024年5月7日（v1），最后修订于2024年12月6日（v2）

摘要

在20世纪90年代，恒定误差轮盘（constant error carousel）和门控机制被引入，作为长短期记忆网络（LSTM）的核心思想。自那时起，LSTM经受住了时间的考验，为众多深度学习成功案例做出了贡献，尤其是构成了首批大型语言模型（LLM）。然而，以可并行化的自注意力为核心的Transformer技术的出现，标志着一个新时代的黎明，在大规模场景下超越了LSTM。

本文提出了一个简单的问题：在将LSTM扩展到数十亿参数时，利用现代LLM的最新技术，同时缓解LSTM已知的局限性，我们在语言建模中能走多远？

作者首先引入了指数门控（exponential gating）以及适当的归一化和稳定化技术。其次，修改了LSTM的记忆结构，得到：

sLSTM：具有标量记忆、标量更新和新的记忆混合机制
mLSTM：具有矩阵记忆和协方差更新规则，可完全并行化

将这些LSTM扩展集成到残差块主干中，得到xLSTM块，然后通过残差堆叠构成xLSTM架构。指数门控和修改后的记忆结构提升了xLSTM的能力，使其在性能和扩展性方面均优于最先进的Transformer和状态空间模型。

主题分类： 机器学习（cs.LG）；人工智能（cs.AI）；机器学习（stat.ML）

代码： 开源代码已发布（https://github.com/NX-AI/xlstm）

论文地址：https://arxiv.org/abs/2405.04517

34 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

xLSTM：用扩展 LSTM 重新挑战 Transformer 的序列建模范式

xLSTM: Extended Long Short-Term Memory

摘要