AI 公司 Moonshot AI 近日发布了一项名为 Attention Residuals 的新技术,对经典 Transformer architecture 结构进行了改进,并已应用于其 48B 参数模型 Kimi Linear。
这项技术的核心思路,是改变 Transformer 层之间的信息传递方式。
在传统 Transformer 中,每一层通常会将之前层的输出 统一相加(residual sum) 后再继续计算。而 Attention Residuals 允许每一层 选择性地关注此前各层的输出,而不是简单求和,从而提升信息利用效率。
从训练效果来看,这一改动带来了明显的效率提升:
同时,模型在 编程能力和数学推理能力方面也出现一定程度的提升。
论文还指出,该技术在工程层面的代价相对较低:
研究团队认为,这种结构改进还能改善深层模型中的 梯度流问题,从而缓解 Transformer 中常见的 “PreNorm 稀释”现象。
这一工作也获得了部分业内人士的关注。前 OpenAI 研究科学家 Andrej Karpathy 对该技术给出了正面评价,认为这种设计更“字面意义地践行了 Attention Is All You Need 的理念”。
近年来,大模型研究逐渐从单纯扩大参数规模转向 架构效率优化。Attention Residuals 的思路也体现出一种趋势:通过改进 Transformer 内部信息流动方式,在不显著增加计算成本的情况下提升模型性能和训练效率。