在大模型竞争逐渐从“算法能力”转向“算力协同”的背景下,一条关键路径正在浮现:模型与芯片的深度共优化(co-design)。即将发布的 DeepSeek-V4,正成为这一趋势的典型案例——不仅是一次模型升级,更是国产 AI 芯片生态的一次系统性推进。
从当前披露的信息来看,DeepSeek-V4 将深度适配华为昇腾 950PR,同时兼容寒武纪等国产芯片,并在商业策略上明显倾向本土算力体系。这一系列动作,正在改变 AI 基础设施层的竞争逻辑。
过去几年,大模型训练与推理几乎默认围绕 NVIDIA CUDA 生态展开。模型开发通常遵循:
而 DeepSeek-V4 的路径则明显不同:
这意味着模型不再是“硬件无关”的抽象层,而是开始针对底层硬件进行优化设计。
从工程角度看,这类优化通常涉及:
这种 co-design 模式的目标很明确:
用软件优化弥补硬件生态差距,同时提升整体性价比。
更值得关注的是需求侧的变化。
据披露,阿里、字节、腾讯等云厂商已经采购了数十万颗昇腾 950PR,用于承载 DeepSeek 模型并对外提供服务。这背后反映出两点:
过去,模型服务与底层硬件相对解耦。而现在:
这类似于“专用推理集群”的概念。
在高端 GPU 供给受限、价格高企的情况下,国产芯片提供了:
这使得云厂商愿意为模型适配承担一定工程成本。
随着需求集中释放,昇腾 950PR 已出现约 20% 的价格上涨。
这背后是典型的供需错配:
这与此前 NVIDIA GPU 的供给紧张如出一辙,只不过发生在国产算力体系中。
值得注意的是,AI 芯片市场正在出现一个新特征:
不再是“谁性能最好谁胜出”,而是“谁能稳定供货谁胜出”。
从性能定位来看:
这意味着其核心竞争力不在绝对性能,而在:
然而,其挑战同样明显:
这也解释了为什么 DeepSeek 选择同时适配寒武纪等多家芯片厂商,以分散风险。
一个值得关注的细节是:DeepSeek 拒绝了 NVIDIA 提前获取新模型的请求。
在行业中,这类“提前窗口期”通常用于:
DeepSeek 的选择意味着:
这在一定程度上改变了传统合作模式,也反映出模型厂商在产业链中的话语权正在上升。
从更宏观的视角看,这一事件揭示了 AI 产业的一个关键转折:
未来的竞争单元将是:
三者的组合。
类似 CUDA 的生态优势正在被挑战,但替代路径不再是“完全兼容”,而是:
随着 Agent 应用爆发:
这为多种算力架构(而非单一 GPU)提供了生存空间。
DeepSeek-V4 与昇腾 950PR 的绑定,不只是一次技术适配,更像是一次产业策略的体现:
三者形成闭环。
在这一过程中,AI 产业正在从“依赖单一全球算力体系”,转向“多区域、多架构并存”的格局。
而这种变化,或许才是大模型时代最深远的影响之一。