在大模型竞赛进入“算力密集型”阶段后,AI 芯片不再只是硬件问题,而是直接决定模型训练效率、推理成本乃至生态话语权的核心变量。最新产业动向显示,中国 AI 芯片市场正在发生结构性转变:华为 的昇腾(Ascend)系列出货与订单快速攀升,而 英伟达 在中国市场则因政策与供应链限制出现明显停滞。
这一变化,正在重塑 AI 工程实践中的算力选择、框架适配与系统架构设计。
市场数据显示,华为 AI 芯片业务今年预计实现至少 60% 的增长,收入规模有望达到约 120 亿美元,相比去年的 75 亿美元显著提升。增长核心来自新一代昇腾处理器——Ascend 950 系列,尤其是已进入量产阶段的 950PR。
几个关键点值得关注:
订单前置锁定产能:大量中国科技企业提前下单,意味着昇腾已进入“集群级部署”阶段,而非单点试用
产品节奏加快:除 950PR 外,华为计划在第四季度推出升级版 950DT,形成年度迭代 cadence
需求侧结构变化:采购主体从互联网公司扩展到金融、运营商、政企等多行业,推动算力需求多样化
从 AI 工程角度看,这标志着昇腾从“兼容 CUDA 生态的替代方案”,逐步演进为“可独立支撑大模型训练与推理”的基础设施。
与华为形成对比的是,英伟达在中国市场的推进明显受阻。政策层面的双向限制正在产生叠加效应:
中国监管引导本土企业优先采用国产芯片
美国对高端 GPU 出口实施限制,并要求相关芯片仅能在特定区域使用
这一背景下,包括 H200 在内的高端产品在中国市场面临清关与合规障碍,导致实际交付困难。
对 AI 技术社区而言,更深层的影响不只是“买不到卡”,而是:
CUDA 生态的连续性被打断
既有训练框架与工具链需要迁移或重构
跨区域算力调度(multi-region training)复杂度上升
换句话说,算力不再是纯粹的工程问题,而成为带有明显地缘属性的系统约束。
尽管业内普遍认为华为当前芯片性能仍落后英伟达最先进产品约两代,但其差距正在通过系统级优化被“工程化弥补”。
具体体现在三个层面:
昇腾在大规模集群中,通过自研互联与调度策略优化通信效率,降低跨节点训练的带宽瓶颈。这在大模型训练(如千亿参数级别)中尤为关键。
MindSpore 等框架配合 Ascend 编译栈,对算子进行图级优化(graph-level optimization),减少冗余计算,提升硬件利用率。这在一定程度上弥补了单卡性能差距。
通过 BF16 / FP16 混合精度训练,以及针对推理场景的算子融合(operator fusion),在实际业务中实现接近甚至可接受的性价比表现。
这类“软硬协同优化”路径,本质上与英伟达的 CUDA + TensorRT 思路类似,但生态成熟度仍存在差距。
算力结构的变化,正在反向塑造模型与应用的设计方式:
开发者需要针对不同硬件后端(CUDA vs Ascend)进行适配,包括:
并行策略(data / model / pipeline parallel)调整
算子替换与重写
精度策略优化
单一依赖 CUDA 的时代正在结束,多后端支持(multi-backend)成为主流趋势,例如同时支持 GPU、NPU 等。
在国产算力占比提升的背景下,越来越多企业选择:
缩小模型规模(small / medium LLM)
强化检索增强(RAG)而非盲目扩大参数
优化推理路径以降低算力成本
这也推动 Agent 系统从“重模型”向“轻模型 + 强工具调用”演进。
当前的变化,背后是更深层的产业逻辑:
算力主权(Compute Sovereignty) 正在成为各国科技战略核心
AI 生态可能出现“分叉”,不同区域形成各自的软硬件栈
开发者需要在多生态之间做技术权衡,而非单一平台依赖
对 AI 工程师而言,这意味着未来的核心能力之一,将不再只是“会用某个框架”,而是具备跨算力平台的系统设计能力。
从昇腾订单激增到英伟达在华受限,这不仅是一次市场份额的变化,更是 AI 基础设施层的重构信号。算力正在从“通用资源”转变为“带有地缘与生态属性的关键资产”,而这,将深刻影响下一阶段大模型与 Agent 的演进路径。