OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Kimi

月之暗面推出 Attention Residuals:48B 模型训练效率提升 1.25 倍

 
  infrastructure ·  2026-03-16 18:51:52 · 4 次点击  · 0 条评论  

AI 公司 Moonshot AI 近日发布了一项名为 Attention Residuals 的新技术,对经典 Transformer architecture 结构进行了改进,并已应用于其 48B 参数模型 Kimi Linear

这项技术的核心思路,是改变 Transformer 层之间的信息传递方式。

在传统 Transformer 中,每一层通常会将之前层的输出 统一相加(residual sum) 后再继续计算。而 Attention Residuals 允许每一层 选择性地关注此前各层的输出,而不是简单求和,从而提升信息利用效率。

从训练效果来看,这一改动带来了明显的效率提升:

  • 达到同等性能所需算力 减少约 20%
  • 训练效率提升约 1.25 倍
  • GPQA-Diamond 推理基准上提升 7.5 分

同时,模型在 编程能力和数学推理能力方面也出现一定程度的提升。

论文还指出,该技术在工程层面的代价相对较低:

  • 训练额外开销 低于 4%
  • 推理延迟增加 不超过 2%

研究团队认为,这种结构改进还能改善深层模型中的 梯度流问题,从而缓解 Transformer 中常见的 “PreNorm 稀释”现象

这一工作也获得了部分业内人士的关注。前 OpenAI 研究科学家 Andrej Karpathy 对该技术给出了正面评价,认为这种设计更“字面意义地践行了 Attention Is All You Need 的理念”。

近年来,大模型研究逐渐从单纯扩大参数规模转向 架构效率优化。Attention Residuals 的思路也体现出一种趋势:通过改进 Transformer 内部信息流动方式,在不显著增加计算成本的情况下提升模型性能和训练效率。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor