国产算力替代进入加速期：华为昇腾崛起与英伟达在华受限下的 AI 训练格局重构

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

在大模型竞赛进入“算力密集型”阶段后，AI 芯片不再只是硬件问题，而是直接决定模型训练效率、推理成本乃至生态话语权的核心变量。最新产业动向显示，中国 AI 芯片市场正在发生结构性转变：华为的昇腾（Ascend）系列出货与订单快速攀升，而英伟达在中国市场则因政策与供应链限制出现明显停滞。

这一变化，正在重塑 AI 工程实践中的算力选择、框架适配与系统架构设计。

订单驱动下的昇腾放量：从“可用替代”走向“规模部署”

市场数据显示，华为 AI 芯片业务今年预计实现至少 60% 的增长，收入规模有望达到约 120 亿美元，相比去年的 75 亿美元显著提升。增长核心来自新一代昇腾处理器——Ascend 950 系列，尤其是已进入量产阶段的 950PR。

几个关键点值得关注：

从 AI 工程角度看，这标志着昇腾从“兼容 CUDA 生态的替代方案”，逐步演进为“可独立支撑大模型训练与推理”的基础设施。

与华为形成对比的是，英伟达在中国市场的推进明显受阻。政策层面的双向限制正在产生叠加效应：

这一背景下，包括 H200 在内的高端产品在中国市场面临清关与合规障碍，导致实际交付困难。

对 AI 技术社区而言，更深层的影响不只是“买不到卡”，而是：

换句话说，算力不再是纯粹的工程问题，而成为带有明显地缘属性的系统约束。

尽管业内普遍认为华为当前芯片性能仍落后英伟达最先进产品约两代，但其差距正在通过系统级优化被“工程化弥补”。

具体体现在三个层面：

昇腾在大规模集群中，通过自研互联与调度策略优化通信效率，降低跨节点训练的带宽瓶颈。这在大模型训练（如千亿参数级别）中尤为关键。

MindSpore 等框架配合 Ascend 编译栈，对算子进行图级优化（graph-level optimization），减少冗余计算，提升硬件利用率。这在一定程度上弥补了单卡性能差距。

通过 BF16 / FP16 混合精度训练，以及针对推理场景的算子融合（operator fusion），在实际业务中实现接近甚至可接受的性价比表现。

这类“软硬协同优化”路径，本质上与英伟达的 CUDA + TensorRT 思路类似，但生态成熟度仍存在差距。

算力结构的变化，正在反向塑造模型与应用的设计方式：

开发者需要针对不同硬件后端（CUDA vs Ascend）进行适配，包括：

单一依赖 CUDA 的时代正在结束，多后端支持（multi-backend）成为主流趋势，例如同时支持 GPU、NPU 等。

在国产算力占比提升的背景下，越来越多企业选择：

这也推动 Agent 系统从“重模型”向“轻模型 + 强工具调用”演进。

当前的变化，背后是更深层的产业逻辑：

对 AI 工程师而言，这意味着未来的核心能力之一，将不再只是“会用某个框架”，而是具备跨算力平台的系统设计能力。

从昇腾订单激增到英伟达在华受限，这不仅是一次市场份额的变化，更是 AI 基础设施层的重构信号。算力正在从“通用资源”转变为“带有地缘与生态属性的关键资产”，而这，将深刻影响下一阶段大模型与 Agent 的演进路径。

2 次点击 ∙ 0 人收藏

登录后收藏

0 条回复