在大模型竞争逐步转向“算力效率 + 工程落地”的阶段,一次模型发布正在改变芯片采购格局。近期,随着深度求索(DeepSeek)推出基于华为昇腾平台优化的 V4 模型,多家中国头部互联网公司迅速转向国产算力,下单热潮直接推高了昇腾芯片的需求。这一变化不仅是供应链层面的替代信号,更标志着“模型-芯片协同优化”开始主导 AI 基础设施的演进路径。
据多方消息,在 DeepSeek 发布 V4 模型后,华为的昇腾 950 系列芯片需求显著攀升。包括字节跳动、腾讯、阿里巴巴在内的头部厂商,已开始与华为接洽新一轮订单。
更值得注意的是,一批云计算与 GPU 租赁服务商也加入采购行列——这意味着需求不仅来自自用训练集群,还来自“算力转售市场”,即将昇腾资源封装为云服务对外提供。
这一现象背后,核心不是“芯片参数提升”,而是“模型可用性突破”:DeepSeek V4 在昇腾平台上的适配,降低了迁移门槛,使企业不再需要完全依赖 CUDA 生态。
长期以来,AI 训练与推理高度依赖 英伟达 的 CUDA 体系,这种“软硬一体锁定”带来了极高的迁移成本。而 DeepSeek V4 的意义在于,它在工程层面验证了一条替代路径:
训练框架适配:通过对主流框架(如 PyTorch)进行后端抽象,使其能够对接昇腾的计算栈
算子重写与融合:针对昇腾架构优化关键算子(Attention、MatMul 等),提升吞吐
通信优化:在分布式训练中适配昇腾的互联与通信协议,降低跨节点延迟
推理加速路径:通过图编译与算子融合,缩小与 GPU 推理性能差距
这一系列工作,本质上是将“模型能力”与“硬件特性”深度耦合,从而实现性能可用。
从当前行业反馈来看,昇腾 950PR 已具备与英伟达特定型号竞争的能力:
相比 NVIDIA H20,昇腾 950PR 在部分场景下表现更优
但整体仍落后于 NVIDIA H200,尤其是在高端训练任务中
这意味着,昇腾当前的竞争策略并非“全面对标最强 GPU”,而是切入:
成本敏感型训练任务
推理与在线服务场景
特定模型优化后的专用 workloads
换句话说,它正在通过“性价比 + 可用性”打开市场,而非单点性能碾压。
这次事件对 AI 工程社区的启发在于:算力采购决策正在从“硬件参数导向”转向“模型适配导向”。
过去的逻辑是:
而现在逐渐变为:
这种变化带来几个直接影响:
模型厂商话语权上升
谁能在更多硬件上跑通并优化,谁就能影响算力流向
多后端成为标配能力
单一 CUDA 路径风险上升,框架层需要支持 heterogeneous compute
算力抽象层价值提升
类似“统一调度 + 自动编译”的系统(如 graph compiler、runtime)将成为关键
GPU 租赁公司的跟进下单,释放出另一个信号:昇腾正在进入“二级市场流通”。
这意味着:
云厂商可将昇腾封装为 IaaS / PaaS 服务
中小企业无需自建集群即可使用国产算力
价格体系可能与 NVIDIA GPU 拉开差距,形成套利空间
如果 DeepSeek V4 等模型持续优化这一平台,昇腾有望在推理市场快速铺开。
尽管需求激增,但昇腾生态仍面临几个关键挑战:
开发者工具链成熟度:与 CUDA 相比仍有差距
开源生态兼容性:部分模型与库仍默认绑定 GPU
迁移成本:历史代码与 pipeline 重构代价高
性能稳定性:不同 workload 下表现波动
换句话说,“能跑”不等于“好用”,更不等于“规模化稳定运行”。
DeepSeek V4 带来的不仅是一次模型迭代,更是一次“算力生态验证”。它证明了一件事:只要模型与芯片协同优化达到一定程度,就可以撬动真实订单,而不是停留在实验室 benchmark。
对整个 AI 产业而言,这标志着一个拐点——算力竞争不再只是硬件厂商之间的较量,而是“模型 + 框架 + 芯片”三者协同的系统工程。谁能把这条链路打通,谁就有机会在下一阶段的 AI 基础设施竞赛中占据主动。