在大模型竞争进入“上下文长度”与“推理能力”双轮驱动阶段之际,DeepSeek 将其 API 上下文窗口从 128K 一举提升至 1M tokens。这一更新使 API 能力与其 App 和网页版对齐,也标志着超长上下文正式进入开发者可用阶段。
对于 AI 技术社区而言,这不仅是一次参数升级,更可能改变 Agent 系统设计、RAG 架构乃至推理策略的基本假设。
此次更新的核心变化在于:
从数量级来看,这一提升意味着:
这直接削弱了此前围绕上下文限制构建的一整套工程策略。
过去一年,RAG(retrieval-augmented generation)几乎是处理长文档的标准方案:
而在 1M 上下文下,出现一种新的可能:
直接将大规模原始数据放入上下文,减少检索步骤。
这带来几个变化:
因此,未来架构可能演变为“混合模式”:
超长上下文对 Agent 架构的影响更为深远。
传统 Agent 系统通常依赖外部 memory 组件:
而在 1M 上下文下:
这使得 Agent 设计可以简化为:
不过,这也带来新的工程问题:
将上下文扩展到百万级,并非简单扩容,其背后涉及多项关键技术:
标准 Transformer 的 attention 复杂度为 O(n²),在 1M tokens 下不可行,通常需要:
长序列需要更稳定的位置表示,如:
随着上下文增长,模型对远距离信息的关注能力下降,需要:
这些优化,决定了“1M 上下文是否真的可用”,而不仅是理论支持。
当前版本支持:
但尚不支持视觉输入。这一取舍在工程上是合理的:
这意味着 DeepSeek 当前更聚焦于:
在上下文扩展之外,DeepSeek 近期还推出了“专家模式”,强调复杂问题求解能力。同时,其下一代模型 DeepSeek V4 也已进入发布窗口。
这两个信号结合来看:
意味着模型正在向“信息 + 推理”双强化方向发展。
这一更新带来几个关键变化:
不再只是参数规模,context window 正成为核心指标。
部分 RAG 与 memory 系统可以被简化或替代。
长上下文推理成本高,需要更精细的 token 管理策略。
从“短提示设计”转向“长上下文编排”。
当上下文窗口达到百万级别时,大模型的使用方式正在发生质变:
DeepSeek 的这一步,虽然仍处于演进阶段,但已经清晰指向一个方向:
未来的大模型,将越来越像一个可以直接处理“完整世界片段”的系统。
而如何在这片“超长上下文”中高效推理,将成为下一阶段 AI 工程的核心课题。