作者: Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter
提交日期: 2024年5月7日(v1),最后修订于2024年12月6日(v2)
在20世纪90年代,恒定误差轮盘(constant error carousel)和门控机制被引入,作为长短期记忆网络(LSTM)的核心思想。自那时起,LSTM经受住了时间的考验,为众多深度学习成功案例做出了贡献,尤其是构成了首批大型语言模型(LLM)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在大规模场景下超越了LSTM。
本文提出了一个简单的问题:在将LSTM扩展到数十亿参数时,利用现代LLM的最新技术,同时缓解LSTM已知的局限性,我们在语言建模中能走多远?
作者首先引入了指数门控(exponential gating)以及适当的归一化和稳定化技术。其次,修改了LSTM的记忆结构,得到:
将这些LSTM扩展集成到残差块主干中,得到xLSTM块,然后通过残差堆叠构成xLSTM架构。指数门控和修改后的记忆结构提升了xLSTM的能力,使其在性能和扩展性方面均优于最先进的Transformer和状态空间模型。
主题分类: 机器学习(cs.LG);人工智能(cs.AI);机器学习(stat.ML)
代码: 开源代码已发布(https://github.com/NX-AI/xlstm)