月之暗面推出 Attention Residuals：48B 模型训练效率提升 1.25 倍

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

AI 公司 Moonshot AI 近日发布了一项名为 Attention Residuals 的新技术，对经典 Transformer architecture 结构进行了改进，并已应用于其 48B 参数模型 Kimi Linear。

这项技术的核心思路，是改变 Transformer 层之间的信息传递方式。

在传统 Transformer 中，每一层通常会将之前层的输出 统一相加（residual sum） 后再继续计算。而 Attention Residuals 允许每一层 选择性地关注此前各层的输出，而不是简单求和，从而提升信息利用效率。

从训练效果来看，这一改动带来了明显的效率提升：

同时，模型在 编程能力和数学推理能力方面也出现一定程度的提升。

论文还指出，该技术在工程层面的代价相对较低：

研究团队认为，这种结构改进还能改善深层模型中的 梯度流问题，从而缓解 Transformer 中常见的 “PreNorm 稀释”现象。

这一工作也获得了部分业内人士的关注。前 OpenAI 研究科学家 Andrej Karpathy 对该技术给出了正面评价，认为这种设计更“字面意义地践行了 Attention Is All You Need 的理念”。

近年来，大模型研究逐渐从单纯扩大参数规模转向 架构效率优化。Attention Residuals 的思路也体现出一种趋势：通过改进 Transformer 内部信息流动方式，在不显著增加计算成本的情况下提升模型性能和训练效率。

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复