一个可扩展、端到端可训练的潜在记忆框架,支持 1 亿令牌上下文
长期记忆对通用智能至关重要,然而完全注意力的瓶颈将大多数大语言模型(LLM)的有效上下文长度限制在 128K–1M 之间。现有的尝试,如混合线性注意力、固定大小的状态记忆(例如 RNN)以及RAG/智能体等外部存储方案,要么在极端规模下遭受精度快速衰减和延迟增长,要么缺乏端到端的可微分性或动态内存维护能力,或者需要复杂的处理流程。我们提出了记忆稀疏注意力(MSA):一个端到端可训练、可扩展的稀疏 潜在状态记忆框架。其核心思想包括:
在长上下文问答和“大海捞针”(NIAH)基准测试中,MSA 超越了同骨干网络的 RAG、最优的 RAG 栈以及领先的长上下文模型。在空前的 16K→1 亿令牌范围内,MSA 表现出 < 9% 的性能衰减,为解耦记忆容量与推理能力提供了一条可行路径。
从 16K 扩展到 1 亿令牌:MSA 将 Top-k 选择与稀疏注意力融合,保持端到端可微分的同时,允许在推理时解耦文档。在 MS MARCO 数据集上,MSA 保持 <9% 的性能衰减,并展现出强大的外推能力。
部分基线曲线因其上下文限制而提前终止。

图 1: MSA 在超长上下文下的可扩展性
MSA 将检索与生成集成到一个单一的可微分循环中。文档的潜在状态(K/V/Kᵣ)通过分块平均池化进行压缩。一个路由投影器通过余弦相似度计算相关性(在注意力头上平均池化,然后取令牌级最大值),选择 Top‑k 文档,然后将它们压缩后的 K/V 与查询的局部 K/V 拼接,用于自回归解码。路由仅应用于上层网络;下层网络保持独立的文档处理,以实现层次化对齐。
图 2: MSA 层(稀疏注意力 + 文档级 RoPE)

图 2: 记忆稀疏注意力层及并行/全局 RoPE
MSA 采用三阶段流程(图 3):
内存并行将 K̄ᵣ 分片到多个 GPU 上(查询广播 → 本地评分 → 全局归约)。内容 K̄/V̄ 保留在主机 DRAM 中,并在被选中时异步获取——平衡 VRAM 和吞吐量,以实现 1 亿令牌的部署。
图 3: 三阶段推理与内存交错

图 3: 离线编码 → 在线路由 → 稀疏生成;可选的多轮交错用于多跳推理
实验设置
问答任务:9 个数据集(MS MARCO v1, NQ, DuReader, TriviaQA(10M), NarrativeQA, PopQA, 2WikiMultiHopQA, HotpotQA, MuSiQue),记忆库大小 277K→1000 万令牌,评估指标:LLM 评判(0–5 分)。
NIAH(RULER):8 个子任务,32K→100 万令牌,报告平均准确率。
骨干网络:Qwen3‑4B‑Instruct‑2507。与同骨干网络的 RAG 以及最优的 RAG 栈(KaLMv2 + 大型生成器,可选重排序器)进行比较。
总结:平均得分 3.760,优于标准 RAG(+16.0%)、RAG+重排序(+11.5%)以及使用其最佳@k 的 HippoRAG2(+14.8%);在同骨干网络组内,除 NarrativeQA 外,MSA 在所有数据集上领先。
| 数据集 | 令牌数 | Qwen3-4B R@1 | R@5 | R@10 | Qwen3-4B (RR) R@1 | R@5 | R@10 | HippoRAG2 R@1 | R@5 | R@10 | MSA (自适应) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| MS MARCO v1 | 7.34M | 2.893 | 3.011 | 3.005 | 2.934 | 3.032 | 3.017 | 2.676 | 3.005 | 3.019 | 4.141 |
| Natural Questions | 1.47M | 3.452 | 3.374 | 3.297 | 3.494 | 3.408 | 3.385 | 3.338 | 3.389 | 3.374 | 3.545 |
| DuReader | 277K | 3.726 | 3.579 | 3.594 | 3.848 | 3.618 | 3.607 | 2.941 | 3.485 | 3.415 | 4.155 |
| TriviaQA (10M) | 10M | 4.133 | 4.414 | 4.273 | 4.313 | 4.375 | 4.391 | 4.188 | 4.430 | 4.367 | 4.621 |
| NarrativeQA | 538K | 1.611 | 2.567 | 2.860 | 3.638 | 3.492 | 3.536 | 1.959 | 2.628 | 2.655 | 3.395 |
| PopQA | 1.18M | 2.959 | 3.273 | 3.299 | 3.315 | 3.264 | 3.266 | 3.111 | 3.249 | 3.249 | 3.433 |
| 2WikiMultiHopQA | 722K | 1.065 | 3.055 | 3.136 | 1.187 | 3.057 | 3.159 | 1.045 | 3.180 | 3.330 | 4.280 |
| HotpotQA | 1.35M | 2.252 | 3.582 | 3.787 | 2.642 | 3.990 | 4.022 | 3.230 | 3.770 | 3.970 | 4.061 |
| MuSiQue | 1.41M | 0.936 | 1.752 | 1.928 | 1.144 | 1.960 | 1.965 | 1.020 | 1.907 | 2.095 | 2.211 |
| 平均 | — | 2.559 | 3.179 | 3.242 | 2.946 | 3.355 | 3.372 | 2.612 | 3.227 | 3.275 | 3.760 |
表 2: 同骨干网络 RAG 与 MSA 对比(@1/@5/@10 对比 MSA 自适应)
总结:与 KaLMv2+Qwen3‑235B 和 KaLMv2+Llama‑3.3‑70B(带/不带重排序)相比,MSA 在 4/9 的数据集上取得最佳分数,平均得分为 3.760,相对于各最强配置的相对提升分别为 +7.2%、+5.0%、+10.7% 和 +5.4%。在少数数据集(如 MuSiQue)上的差距主要归因于参数量差异和内在推理能力。
| 数据集 | KaLMv2 + Qwen3‑235B R@1 | R@5 | R@10 | Qwen3‑235B (RR) R@1 | R@5 | R@10 | KaLMv2 + Llama‑3.3 R@1 | R@5 | R@10 | Llama‑3.3 (RR) R@1 | R@5 | R@10 | MSA (自适应) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MS MARCO v1 | 2.846 | 3.028 | 3.027 | 2.886 | 3.020 | 2.995 | 2.649 | 2.904 | 2.919 | 2.881 | 2.955 | 2.952 | 4.141 |
| Natural Questions | 3.711 | 3.670 | 3.694 | 3.621 | 3.610 | 3.645 | 3.675 | 3.674 | 3.662 | 3.756 | 3.665 | 3.647 | 3.545 |
| DuReader | 4.044 | 3.991 | 3.978 | 3.973 | 3.932 | 3.891 | 4.051 | 3.846 | 3.742 | 3.967 | 3.776 | 3.780 | 4.155 |
| TriviaQA (10M) | 4.367 | 4.656 | 4.578 | 4.492 | 4.320 | 4.555 | 4.273 | 4.740 | 4.719 | 4.547 | 4.703 | 4.695 | 4.621 |
| NarrativeQA | 1.413 | 2.130 | 2.427 | 3.212 | 3.427 | 3.375 | 1.290 | 2.123 | 2.382 | 3.150 | 3.263 | 3.317 | 3.395 |
| PopQA | 2.810 | 3.347 | 3.396 | 3.268 | 3.380 | 3.376 | 2.787 | 3.298 | 3.305 | 3.337 | 3.384 | 3.362 | 3.433 |
| 2WikiMultiHopQA | 2.646 | 3.579 | 3.582 | 1.855 | 3.381 | 3.583 | 1.339 | 3.263 | 3.445 | 1.651 | 3.332 | 3.541 | 4.280 |
| HotpotQA | 3.497 | 4.090 | 4.225 | 3.341 | 4.141 | 4.194 | 3.070 | 3.896 | 4.127 | 3.428 | 4.145 | 4.203 | 4.061 |
| MuSiQue | 1.988 | 2.462 | 2.647 | 1.801 | 2.522 | 2.605 | 1.704 | 2.317 | 2.258 | 1.895 | 2.462 | 2.614 | 2.211 |
| 平均 | 3.036 | 3.439 | 3.506 | 3.161 | 3.526 | 3.580 | 2.760 | 3.340 | 3.396 | 3.179 | 3.521 | 3.568 | 3.760 |
表 3: SOTA RAG 栈(强检索器 + 大型生成器 + 可选重排序器)与 MSA 对比
总结:MSA 在 100 万令牌时保持 94.84% 的准确率。未经修改的骨干网络在超过 128K 后性能崩溃(在 100 万令牌时降至 24.69%)。混合线性注意力的长上下文模型在 ≥128K/256K 时性能明显下降。外部记忆智能体(例如 RL‑MemoryAgent‑14B)保持稳定,但绝对准确率较低,且比 MSA 表现出更陡峭的性能衰减。

图 4: 准确率 vs 上下文长度(越高越好)
@misc{chen_2026_19103670,
author = {Chen, Yu and
Chen, Runkai and
Yi, Sheng and
Zhao, Xinda and
Li, Xiaohong and
Zhang, Jianjin and
Sun, Jun and
Hu, Chuanrui and
Han, Yunyun and
Bing, Lidong and
Deng, Yafeng and
Chen, Tianqiao},
title = {MSA: Memory Sparse Attention for Efficient End-to-
End Memory Model Scaling to 100M Tokens
},
month = mar,
year = 2026,
publisher = {Zenodo},
doi = {10.5281/zenodo.19103670},
url = {https://doi.org/10.5281/zenodo.19103670},
}
本仓库和文档页面由 MSA 作者维护。有关项目更新,请访问主页:https://evermind.ai/