在最新一轮财报发布前夕,英伟达率先展示了下一代AI算力系统Vera Rubin的核心细节。公司不仅公开了整套机架的内部构造,还披露了全球供应链布局与性能数据,试图向市场传递一个明确信号:新一代AI基础设施正在进入更高能效、更高密度与更高复杂度的阶段。
英伟达表示,相比上一代Blackwell系统,Vera Rubin的每瓦性能提升达到10倍。虽然整机功耗约为前代的两倍,但在单位功耗下的算力输出实现了显著跃升,整体能效比得到大幅优化。
在当前AI算力需求呈指数级增长的背景下,能效已成为衡量数据中心竞争力的关键指标。英伟达通过架构优化与系统级整合,实现了性能与能耗之间的再平衡。
Vera Rubin机架内部包含72颗Rubin GPU与36颗Vera CPU,整套系统组件数量超过130万个,涉及来自20多个国家和地区的80多家供应商。
为应对如此复杂的系统构成,英伟达采用统一标准参考设计模式,由全球供应商按规范协同生产。即便是液冷管路末端的喷嘴,也拥有多个供应商参与制造。这种高度分工的全球化供应体系,使得系统能够在复杂结构下保持规模化生产能力。
随着功耗提升,Vera Rubin成为英伟达首个全面采用液冷散热的系统。公司认为,未来AI数据中心将大规模转向液冷架构。
液冷系统采用闭环设计,不仅提升散热效率,还可降低水资源消耗。英伟达已建议客户在建设“人工智能工厂”时优先考虑液冷基础设施,这标志着数据中心冷却方式正在发生结构性转变。
在网络架构方面,Vera Rubin搭载升级版NVLink芯片,数据传输速度提升至每秒260TB。单个机架内部需要约5000根铜缆进行连接,总长度约两英里。
如此高密度的互联设计,旨在满足大模型训练与推理对高速数据交换的需求,也意味着未来AI系统在物理层面的复杂程度将持续攀升。
除了性能提升,新系统也在维护便利性上进行了改进。例如,上一代Blackwell更换计算托盘需要约两小时,而Vera Rubin将这一时间缩短至5分钟。
此外,系统采用可插拔式低功耗内存模块,而非焊接在主板上,从而降低维修成本与升级难度。这一变化体现出英伟达在大规模部署场景下对长期运维成本的考量。
英伟达同时展示了下一代大型机架Kyber的原型。该机架可支持288块GPU,是当前配置的四倍,而整体重量仅增加约50%。通过优化布线设计和结构布局,系统在提升算力密度的同时保持了可控的物理负载。
未来的Vera Rubin Ultra系统将采用Kyber机架,预计于2027年正式上市。
Vera Rubin不仅是一代新GPU架构,更是一套高度系统化的AI算力解决方案。通过能效跃升、液冷转型、互联升级与全球供应链协作,英伟达正在推动AI基础设施进入新的阶段。
在大模型规模持续扩张的背景下,谁能在算力、能效与部署效率之间取得平衡,谁就能在下一轮AI竞争中占据主动。Vera Rubin的亮相,正是英伟达对这一趋势的最新回应。