跳转至

NVIDIA 超节点

2022 Hopper 架构发布之际,NVIDIA 提出了十年内 GPU 算力增长 1000 倍的 " 黄氏定律 "(Huang's Law)5。其中,低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身【归纳】

回顾从 Volta Rubin 系列的演进,NVIDIA 的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长。其目标是每两年提供约 6 倍的系统算力提升,并计划在十年内实现 7000 倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过 10000 。这种复合式增长并非依赖单一技术突破,而是通过一套精心设计的 " 组合策略 " 实现。

因此,超节点已不仅是硬件形态命名,而是一个将 " 互联 - 存储 - 算力 - 编程模型 " 联动优化的系统工程范式。竞争策略若缺失系统性视角,极易在实际大模型训练 / 推理场景中遭遇利用率折损与规模效率崖降。

产品演进

2020 年,NVIDIA 在其推出的 HGX-A100 系统中,通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接,构成一个 16 卡系统 22022 年,随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式,能够实现 32 GH200(32 x GPU)的互联(NVL32)42024 Blackwell 发布时,第四代 NVSwitch 能够实现 36 GB200 超级芯片(共 72 GPU)的互联(NVL72,并形成 DGX GB200 SuperPod 等机柜级产品形态 1。未来的 Vera Rubin 系列将进一步实现更大规模的互联。

如果按产品时间线看,这条路线最重要的事实并不是单个 SKU 的更替,而是 Scale-Up 域的组织半径在持续扩大:从 HGX A100 16 卡域,到 Hopper 时代的 32 卡域,再到 Blackwell 时代的 72 卡机柜级域,NVIDIA 正在把更多高价值通信稳定收束到同一个受控域内。

以下表格同时列出 Hopper Blackwell 两代 GPU 所对应的机柜级 Scale-Up 形态,以及基于这些形态向外扩展的 SuperPod 产品:

参数 NVL32 GH200 SuperPod NVL72 GB200 SuperPod
架构 Hopper Hopper Blackwell Blackwell
HBM 大小 32 x 144GB = 4.6 TB 256 x 96GB = 24.5 TB 36 x 384GB = 13.8 TB 288 x 384GB = 110 TB
LPDDR5X 大小 32 x 480GB = 15.4 TB 256 x 480GB = 123 TB 36 x 480GB = 17.3 TB 288 x 480GB = 138 TB
HBM 带宽 3.35 TB/s 4.8 TB/s 8 TB/s 8 TB/s
FP16 (FLOPS) 32 PetaFLOPS 256 PetaFLOPS 180 PetaFLOPS 1440 PetaFLOPS
INT8 (OPS) 64 PetaOPS 64 PetaOPS 360 PetaOPS 2880 PetaOPS
FP8 (FLOPS) 64 PetaFLOPS 64 PetaFLOPS 360 PetaFLOPS 2880 PetaFLOPS
FP6 (FLOPS) N/A N/A 360 PetaFLOPS 2880 PetaFLOPS
FP4 (FLOPS) N/A N/A 720 PetaFLOPS 5760 PetaFLOPS
GPU-GPU 带宽 0.9 TB/s 0.9 TB/s 1.8 TB/s 1.8 TB/s
NVSwitch Gen3 64 Port Gen3 64 Port Gen4 72 Port Gen4 72 Port
NVLink 带宽 36 x 0.9 TB/s = 32 TB/s 256 x 0.9 TB/s = 230 TB/s 72 x 1.8 TB/s = 130 TB/s 576 x 1.8 TB/s = 1 PB/s
Ethernet 带宽 16 x 200 Gb/s 256 x 200 Gb/s 18 x 400 Gb/s 576 x 400 Gb/s
IB 带宽 32 x 400 Gb/s 256 x 400 Gb/s 72 x 800 Gb/s 576 x 800 Gb/s
GPUs Power 32 x 1 kW = 32 kW 256 x 1 kW = 256 kW 36 x 2.7 kW = 97.2 kW Not provided

下面按代际梳理 DGX-1、DGX-2、DGX A100、DGX H100、GB200 NVL72/NVL576,以及 Rubin NVL72/NVL576/NVL1152 的互连结构:

代际总览

NVLink-enabled server generations

1 NVLink-enabled server generations

DGX-1 DGX H100NVIDIA 的互连演进主线可以概括为:直连 NVLink → 节点内 NVSwitch → 机架级 NVLink 域。前四代系统仍以单节点为主要互连边界;到了 GB200 Rubin 时代,NVLink / NVSwitch 已从单服务器内部互连扩展为整机架,乃至跨机架的统一互连域。

DGX-1:P100 / V100 时代的 hybrid cube-mesh

DGX-1 P100 V100 两个主要版本。两者都不是 NVSwitch 结构,而是 8-GPU hybrid cube-mesh 直连 NVLink 拓扑。P100 使用第一代 NVLink,每张卡 4 NVLinkV100 使用第二代 NVLink,每张卡 6 NVLink。因此,DGX-1 两代的拓扑家族一致,但带宽与连接能力逐步增强。

图2

2 DGX-1 P100 hybrid cube-mesh 示意

图3

3 DGX-1 V100 的连接示意

DGX-2:进入 NVSwitch 时代

DGX-2 NVIDIA 首次在 DGX 产品中引入 NVSwitch 的一代。系统包含 16 V100,并通过 NVSwitch 构成统一的 16-GPU 高带宽互连结构。与 DGX-1 相比,DGX-2 的关键变化不是 GPU 数量单纯翻倍,而是通过交换式互连把 16 GPU 组织成了更接近单一加速池的节点内系统。

图4

4 DGX-2 16-GPU NVSwitch 结构示意

DGX A100:8-GPU 节点内全互连的标准形态

DGX A100 基于 Ampere 架构的 A100 GPU。每张 A100 具有 12 条第三代 NVLink,节点内通过 6 NVSwitch 形成 8-GPU 全连接结构。一个实用的记法是:每张 GPU 以每个 NVSwitch 2 条链路的方式接入全部 6 NVSwitch,因此单卡 GPU-GPU 总带宽达到 600 GB/s

图5

5 DGX A100 的节点内互连示意

DGX H100:节点内 8 GPU + 4 NVSwitch,并支持进一步扩展

DGX H100 采用 Hopper 架构。其单节点内部由 8 H100 GPU 4 个第三代 NVSwitch 组成,单卡 GPU-GPU 总带宽达到 900 GB/s。每张 H100 配备 18 NVLink,并按 5、4、4、5 的链路分配方式接入 4 NVSwitch,在节点内形成全互连高带宽通信结构。此外,4 NVSwitch 还分别保留 20、16、16、20 NVLink ports,可用于向更大规模的 NVLink 网络进一步扩展。

图6

6 DGX H100 / NVLink Network 相关结构示意

GB200 NVL72 标志着 NVIDIA 互连结构从“单服务器内部”进一步扩展到“整机架一级域”。这里需要区分四个层级:B200 是单个 Blackwell GPUGB200 Superchip 1 Grace CPU 2 B200 GPU 组成;DGX GB200 compute tray 2 GB200 Superchip 组成,因此一个 compute tray 2 Grace CPU 4 B200 GPU;整个 NVL72 机架则由 18 compute trays 组成,总计 72 GPU

在交换平面一侧,NVL72 机架包含 9 NVLink switch trays,每个 switch tray 2 NVLink switch chips,因此整机架共有 18 switch chips。每个 B200 GPU 具有 18 NVL5 links,并采用“每个 GPU 对每个 switch chip 1 条链路”的连接方式。换言之,单个 GPU 会连接机架中的全部 18 switch chips;相应地,单个 switch chip 会连接整机架全部 72 GPU,各 1 条链路。

图7

7 GB200 NVL72 连接结构示意

图8

8 GB200 NVL72 连接结构示意(补充图)

在此基础上,基于第五代 NVLinkGB200 平台还具备继续扩展到最多 576 GPUs 单一 NVLink 域的能力。下图展示的 Polyphene prototype 8 GB200 NVL72 机架组成,可用于说明 Blackwell / GB200 平台向 576-GPU 规模扩展的代表性结构。

图9

9 基于 GB200 NVL576 Polyphene prototype 连接结构示意)

当互连演进到 NVLink 6.0 时,Vera Rubin 进一步提升了机架级统一互连能力。公开资料显示,Vera Rubin NVL72 36 NVLink 6 switches 组成机架级 all-to-all 互连结构。与 GB200 NVL72 相比,Rubin NVL72 scale-up 带宽和机架级统一性进一步增强。

图10

10 Vera Rubin NVL72 NVLink all-to-all topology

在此基础上,Rubin 平台还可以进一步构建更大规模的 NVLink 域。公开资料显示,Rubin Ultra NVL576 采用 two-layer all-to-all NVLink topology。为了继续扩大单域规模,NVIDIA 还提出了新的 MGX rack——Kyber,用于承载更大规模的 Vera Rubin Ultra scale-up 结构。根据公开资料,Kyber 首先对应 Vera Rubin Ultra NVL144 形态,并进一步支持 NVL72、NVL144、NVL576 等多种 Vera Rubin Ultra scale-up domain 选项;在此基础上,还可继续扩展到 NVL1152

图11

11 NVIDIA Kyber NVL1152 结构示意

总结

阶段 典型系统 说明
直连 NVLink (NVLink 1.0 / 2.0) DGX-1 P100 / V100 拓扑为 hybrid cube-meshP100 V100 的差别主要体现在 NVLink 代际和每卡链路数。
节点内 NVSwitch (NVLink 2.0 / 3.0 / 4.0) DGX-2、DGX A100、DGX H100 节点内 GPU 通过 NVSwitch 形成统一的高带宽互连结构。
机架级 NVLink 域 (NVLink 5.0) GB200 NVL72 72 GPU 18 switch chips 组成单一 NVLink 域。
更大规模 NVLink 域 (NVLink 5.0) GB200 扩展到最多 576 GPUs 基于第五代 NVLink,可继续扩展为更大规模的单一 NVLink 域。
机架级 NVLink 域 (NVLink 6.0) Vera Rubin NVL72 72 GPU 36 NVLink 6 switches 组成机架级 all-to-all 互连结构。
更大规模 NVLink 域 (NVLink 6.0) Rubin Ultra NVL576、Kyber NVL1152 通过 two-layer 或更大规模的 NVLink 结构,把单机架 NVLink 域继续扩展到更高规模的统一 scale-up 域。

DGX-1 DGX H100,互连演进主线是“直连 NVLink → 节点内 NVSwitch”;而到了 GB200 NVL72NVLink / NVSwitch 已从单服务器内部互连扩展为机架级 72-GPU 的统一互连域。继续向上,GB200 扩展到 576 GPURubin NVL576 以及 Kyber NVL1152,则代表 NVIDIA 正在把这种统一互连域从机架级推进到更大规模的多机架 scale-up 结构。

增长机制

回顾从 Volta Rubin 系列的演进,可以把 NVIDIA 的系统级复合增长拆成几组清晰的增长引擎:

  • 单芯片算力:每代提升约 3
  • Scale-Up :互联规模和带宽同步翻倍
  • 内存系统HBM 带宽翻倍,容量提升 3

其中,低精度数值格式、Tensor Core 和工艺进步对应单芯片与单比特效率的持续提升;互联域扩大决定了多少高价值通信仍能留在同一高带宽域内;HBM 的带宽与容量提升则决定了算力增长能否被真正“喂饱”。而从 Blackwell 开始,先进封装也进入主增长链条,意味着增长机制已经从单纯提升单点指标,转向多维变量的协同推进。

代际对比更能直观看出这一复合增长轨迹:

系列 Volta Ampere Hopper Blackwell Rubin
SKU V100 A100(HGX) GH200(CPU+GPU) GB200(CPU+2GPU) ?VR200(CPU+2GPU)
单卡算力(FP16) 0.125 PFLOPS 0.312 PFLOPS 0.9 PFLOPS 2.25 PFLOPS x 2
系统规模 8 16(OEM 提供 ) 32 72
系统总算力 1 PFLOPS 5 PFLOPS 32 PFLOPS 180 PFLOPS
系统 HBM 总容量 8 x 32GB = 0.256 TB 16 x 80GB = 1.28 TB 32 x 144GB = 4.6 TB 36 x 384GB = 13.8 TB

上述代际指标体现的是 " 系统级(按 FP16 口径)" 的复合放大轨迹。结合黄氏定律所给出的十年约 1000 倍增长拆解:低精度数值格式约 16×Tensor Core 与矩阵引擎约 12×、制程与微架构约 2.5×,可以得出一个结论:单纯依赖芯片工艺或单点架构优化已无法支撑指数级提升,必须依靠多维协同的系统工程

超节点正是这一 " 系统化方法 " 的工程化载体:以 FP16 系统算力观测,每两年约 ,十年区间潜在约 7000×;若叠加 Blackwell 世代引入的 FP6/FP4 等更低精度执行路径,其有效可用算力(在可接受精度与稀疏 / 混合精度策略前提下)还可能进一步放大到 ">10000×" 数量级。对于任何希望在超节点方向与 NVIDIA 竞争的厂商而言,系统性协同是必须的战略。【研判】

关键变量

互联域扩大

NVLink 作为 NVIDIA 超节点互联的核心协议,其代际演进体现了 " 密度效率 " 路线的工程内涵:

代际 架构 Lane 速率 GPU Link GPU 聚合带宽(双向) NVSwitch 端口 最大 NVLink
NVLink 1.0 Pascal (P100) 20 Gbps 4 160 GB/s 8 GPU
NVLink 2.0 Volta (V100) 25 Gbps 6 300 GB/s Gen1, 18 port 16 GPU
NVLink 3.0 Ampere (A100) 50 Gbps 12 600 GB/s Gen2, 36 port 16 GPU
NVLink 4.0 Hopper (H100) 100 Gbps 18 900 GB/s Gen3, 64 port 256 GPU
NVLink 5.0 Blackwell (B200/GB200) 200 Gbps 18 1800 GB/s Gen4, 72 port 576 GPU

NVLink 1.0 5.0,单 GPU 聚合带宽增长 11.25 ,最大域规模增长 72 。这种 " 带宽 × 规模 " 的双维度复合增长是 NVIDIA 超节点竞争力的核心引擎。对于大模型训练和推理而言,关键通信路径能否稳定留在同一高带宽域内,往往比单颗 GPU 的峰值算力更决定最终效率。

NV-HBI 与封装

Blackwell 架构开始,先进封装成为其算力增长的又一关键。通过 NV-HBI(NVIDIA High-Bandwidth Interface)技术,NVIDIA 将两颗 GPU 裸片(Die)高速互联,提供高达 10 TB/s 的双向带宽,使它们在逻辑上可作为单一、统一的 GPU 工作 3。这标志着 NVIDIA 的增长引擎已从单纯提升单点指标(如芯片算力或互联速率,全面转向以系统为单位的整体工程优化,从而确保稳定且可预测的性能飞跃【归纳】

系统协同

如果把 NVLinkNVSwitch NV-HBI 分开看,它们分别对应链路带宽提升、交换域扩大和封装级 D2D 互联;但放在同一条代际路线里看,更重要的事实是:它们共同把更多设计变量持续拉回同一个系统边界内联合优化。

  • 封装与 D2D:NV-HBI(双 Die10 TB/s 级)把 D2D 作为算力放大的核心
  • 互联协议:坚持 NVLink 专用协议,形成完整的软硬件闭环
  • 软件栈CUDA/NCCL 在集合通信与编程体验上优势明显,生态成熟度领先
  • 系统集成:从芯片、模组、整机到机柜的全栈交付能力

也正因如此,NVIDIA 获得的并不是若干独立的局部优势,而是一种系统级放大机制:更多算力、更大显存、更低片间开销、更大 Scale-Up 域以及更强的软件承接能力被同时组织起来。这就是为什么 NVIDIA 的超节点路线更像“系统工程平台”,而不是“高端 GPU 产品线”。

结论

NVIDIA 在超节点领域的领先地位来自于其系统化的技术战略:

  1. 垂直整合:从 GPU 芯片到 NVSwitch、NVLink、DGX 整机的全栈自研
  2. 软件护城河CUDA 生态的网络效应和 NCCL 的性能优势
  3. 持续迭代:每两年一代的稳定节奏,形成可预期的性能提升曲线
  4. ESUN 布局:作为 ESUN 发起方之一,NVIDIA 同时押注开放以太协议路线,以对冲 NVLink 生态封闭性带来的潜在反垄断和客户锁定风险

对于竞争者而言,单纯在某一维度追赶(如芯片算力或互联带宽)难以形成有效挑战,必须建立系统级的竞争能力。

因此,NVIDIA 这个案例对第一章最重要的启示,不是“它今天做得最强”,而是它证明了超节点竞争的本质:领先并不来自单芯片的孤立突破,而来自持续把新变量引入同一系统边界,并把这些变量稳定组织为真实系统能力。

参考文献