NVIDIA 超节点 ¶
在 2022 年 Hopper 架构发布之际,NVIDIA 提出了十年内 GPU 算力增长 1000 倍的 " 黄氏定律 "(Huang's Law)5。其中,低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身
回顾从 Volta 到 Rubin 系列的演进,NVIDIA 的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长。其目标是每两年提供约 6 倍的系统算力提升,并计划在十年内实现 7000 倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过 10000 倍
因此,超节点已不仅是硬件形态命名,而是一个将 " 互联 - 存储 - 算力 - 编程模型 " 联动优化的系统工程范式。竞争策略若缺失系统性视角,极易在实际大模型训练 / 推理场景中遭遇利用率折损与规模效率崖降。
产品演进 ¶
2020 年,NVIDIA 在其推出的 HGX-A100 系统中,通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接,构成一个 16 卡系统 2。2022 年,随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式,能够实现 32 颗 GH200(32 x GPU)的互联(NVL32)4。2024 年 Blackwell 发布时,第四代 NVSwitch 能够实现 36 个 GB200 超级芯片(共 72 颗 GPU)的互联(NVL72
如果按产品时间线看,这条路线最重要的事实并不是单个 SKU 的更替,而是 Scale-Up 域的组织半径在持续扩大:从 HGX A100 的 16 卡域,到 Hopper 时代的 32 卡域,再到 Blackwell 时代的 72 卡机柜级域,NVIDIA 正在把更多高价值通信稳定收束到同一个受控域内。
以下表格同时列出 Hopper 与 Blackwell 两代 GPU 所对应的机柜级 Scale-Up 形态,以及基于这些形态向外扩展的 SuperPod 产品:
| 参数 | NVL32 | GH200 SuperPod | NVL72 | GB200 SuperPod |
|---|---|---|---|---|
| 架构 | Hopper | Hopper | Blackwell | Blackwell |
| HBM 大小 | 32 x 144GB = 4.6 TB | 256 x 96GB = 24.5 TB | 36 x 384GB = 13.8 TB | 288 x 384GB = 110 TB |
| LPDDR5X 大小 | 32 x 480GB = 15.4 TB | 256 x 480GB = 123 TB | 36 x 480GB = 17.3 TB | 288 x 480GB = 138 TB |
| HBM 带宽 | 3.35 TB/s | 4.8 TB/s | 8 TB/s | 8 TB/s |
| FP16 (FLOPS) | 32 PetaFLOPS | 256 PetaFLOPS | 180 PetaFLOPS | 1440 PetaFLOPS |
| INT8 (OPS) | 64 PetaOPS | 64 PetaOPS | 360 PetaOPS | 2880 PetaOPS |
| FP8 (FLOPS) | 64 PetaFLOPS | 64 PetaFLOPS | 360 PetaFLOPS | 2880 PetaFLOPS |
| FP6 (FLOPS) | N/A | N/A | 360 PetaFLOPS | 2880 PetaFLOPS |
| FP4 (FLOPS) | N/A | N/A | 720 PetaFLOPS | 5760 PetaFLOPS |
| GPU-GPU 带宽 | 0.9 TB/s | 0.9 TB/s | 1.8 TB/s | 1.8 TB/s |
| NVSwitch | Gen3 64 Port | Gen3 64 Port | Gen4 72 Port | Gen4 72 Port |
| NVLink 带宽 | 36 x 0.9 TB/s = 32 TB/s | 256 x 0.9 TB/s = 230 TB/s | 72 x 1.8 TB/s = 130 TB/s | 576 x 1.8 TB/s = 1 PB/s |
| Ethernet 带宽 | 16 x 200 Gb/s | 256 x 200 Gb/s | 18 x 400 Gb/s | 576 x 400 Gb/s |
| IB 带宽 | 32 x 400 Gb/s | 256 x 400 Gb/s | 72 x 800 Gb/s | 576 x 800 Gb/s |
| GPUs Power | 32 x 1 kW = 32 kW | 256 x 1 kW = 256 kW | 36 x 2.7 kW = 97.2 kW | Not provided |
下面按代际梳理 DGX-1、DGX-2、DGX A100、DGX H100、GB200 NVL72/NVL576,以及 Rubin NVL72/NVL576/NVL1152 的互连结构:
代际总览 ¶

图 1 NVLink-enabled server generations
从 DGX-1 到 DGX H100,NVIDIA 的互连演进主线可以概括为:直连 NVLink → 节点内 NVSwitch → 机架级 NVLink 域。前四代系统仍以单节点为主要互连边界;到了 GB200 与 Rubin 时代,NVLink / NVSwitch 已从单服务器内部互连扩展为整机架,乃至跨机架的统一互连域。
DGX-1:P100 / V100 时代的 hybrid cube-mesh ¶
DGX-1 有 P100 与 V100 两个主要版本。两者都不是 NVSwitch 结构,而是 8-GPU 的 hybrid cube-mesh 直连 NVLink 拓扑。P100 使用第一代 NVLink,每张卡 4 条 NVLink;V100 使用第二代 NVLink,每张卡 6 条 NVLink。因此,DGX-1 两代的拓扑家族一致,但带宽与连接能力逐步增强。

图 2 DGX-1 P100 的 hybrid cube-mesh 示意

图 3 DGX-1 V100 的连接示意
DGX-2:进入 NVSwitch 时代 ¶
DGX-2 是 NVIDIA 首次在 DGX 产品中引入 NVSwitch 的一代。系统包含 16 张 V100,并通过 NVSwitch 构成统一的 16-GPU 高带宽互连结构。与 DGX-1 相比,DGX-2 的关键变化不是 GPU 数量单纯翻倍,而是通过交换式互连把 16 张 GPU 组织成了更接近单一加速池的节点内系统。

图 4 DGX-2 的 16-GPU NVSwitch 结构示意
DGX A100:8-GPU 节点内全互连的标准形态 ¶
DGX A100 基于 Ampere 架构的 A100 GPU。每张 A100 具有 12 条第三代 NVLink,节点内通过 6 个 NVSwitch 形成 8-GPU 全连接结构。一个实用的记法是:每张 GPU 以每个 NVSwitch 2 条链路的方式接入全部 6 个 NVSwitch,因此单卡 GPU-GPU 总带宽达到 600 GB/s。

图 5 DGX A100 的节点内互连示意
DGX H100:节点内 8 GPU + 4 NVSwitch,并支持进一步扩展 ¶
DGX H100 采用 Hopper 架构。其单节点内部由 8 张 H100 GPU 和 4 个第三代 NVSwitch 组成,单卡 GPU-GPU 总带宽达到 900 GB/s。每张 H100 配备 18 条 NVLink,并按 5、4、4、5 的链路分配方式接入 4 个 NVSwitch,在节点内形成全互连高带宽通信结构。此外,4 个 NVSwitch 还分别保留 20、16、16、20 个 NVLink ports,可用于向更大规模的 NVLink 网络进一步扩展。

图 6 DGX H100 / NVLink Network 相关结构示意
GB200 NVL72 / 扩展到 576 GPU:从单节点 NVSwitch 走向机架级 NVLink 域 ¶
GB200 NVL72 标志着 NVIDIA 互连结构从“单服务器内部”进一步扩展到“整机架一级域”。这里需要区分四个层级:B200 是单个 Blackwell GPU;GB200 Superchip 由 1 个 Grace CPU 和 2 个 B200 GPU 组成;DGX GB200 compute tray 由 2 个 GB200 Superchip 组成,因此一个 compute tray 含 2 个 Grace CPU 和 4 个 B200 GPU;整个 NVL72 机架则由 18 个 compute trays 组成,总计 72 个 GPU。
在交换平面一侧,NVL72 机架包含 9 个 NVLink switch trays,每个 switch tray 含 2 个 NVLink switch chips,因此整机架共有 18 个 switch chips。每个 B200 GPU 具有 18 条 NVL5 links,并采用“每个 GPU 对每个 switch chip 1 条链路”的连接方式。换言之,单个 GPU 会连接机架中的全部 18 个 switch chips;相应地,单个 switch chip 会连接整机架全部 72 个 GPU,各 1 条链路。

图 7 GB200 NVL72 连接结构示意

图 8 GB200 NVL72 连接结构示意(补充图)
在此基础上,基于第五代 NVLink,GB200 平台还具备继续扩展到最多 576 GPUs 单一 NVLink 域的能力。下图展示的 Polyphene prototype 由 8 个 GB200 NVL72 机架组成,可用于说明 Blackwell / GB200 平台向 576-GPU 规模扩展的代表性结构。

图 9 基于 GB200 的 NVL576 Polyphene prototype 连接结构示意)
Rubin NVL72 / NVL576 / NVL1152:NVLink 6 继续扩展 ¶
当互连演进到 NVLink 6.0 时,Vera Rubin 进一步提升了机架级统一互连能力。公开资料显示,Vera Rubin NVL72 由 36 个 NVLink 6 switches 组成机架级 all-to-all 互连结构。与 GB200 NVL72 相比,Rubin NVL72 的 scale-up 带宽和机架级统一性进一步增强。

图 10 Vera Rubin NVL72 NVLink all-to-all topology
在此基础上,Rubin 平台还可以进一步构建更大规模的 NVLink 域。公开资料显示,Rubin Ultra NVL576 采用 two-layer all-to-all NVLink topology。为了继续扩大单域规模,NVIDIA 还提出了新的 MGX rack——Kyber,用于承载更大规模的 Vera Rubin Ultra scale-up 结构。根据公开资料,Kyber 首先对应 Vera Rubin Ultra 的 NVL144 形态,并进一步支持 NVL72、NVL144、NVL576 等多种 Vera Rubin Ultra scale-up domain 选项;在此基础上,还可继续扩展到 NVL1152。

图 11 NVIDIA Kyber NVL1152 结构示意
总结 ¶
| 阶段 | 典型系统 | 说明 |
|---|---|---|
| 直连 NVLink (NVLink 1.0 / 2.0) | DGX-1 P100 / V100 | 拓扑为 hybrid cube-mesh;P100 与 V100 的差别主要体现在 NVLink 代际和每卡链路数。 |
| 节点内 NVSwitch (NVLink 2.0 / 3.0 / 4.0) | DGX-2、DGX A100、DGX H100 | 节点内 GPU 通过 NVSwitch 形成统一的高带宽互连结构。 |
| 机架级 NVLink 域 (NVLink 5.0) | GB200 NVL72 | 72 GPU 与 18 个 switch chips 组成单一 NVLink 域。 |
| 更大规模 NVLink 域 (NVLink 5.0) | GB200 扩展到最多 576 GPUs | 基于第五代 NVLink,可继续扩展为更大规模的单一 NVLink 域。 |
| 机架级 NVLink 域 (NVLink 6.0) | Vera Rubin NVL72 | 72 GPU 与 36 个 NVLink 6 switches 组成机架级 all-to-all 互连结构。 |
| 更大规模 NVLink 域 (NVLink 6.0) | Rubin Ultra NVL576、Kyber NVL1152 | 通过 two-layer 或更大规模的 NVLink 结构,把单机架 NVLink 域继续扩展到更高规模的统一 scale-up 域。 |
从 DGX-1 到 DGX H100,互连演进主线是“直连 NVLink → 节点内 NVSwitch”;而到了 GB200 NVL72,NVLink / NVSwitch 已从单服务器内部互连扩展为机架级 72-GPU 的统一互连域。继续向上,GB200 扩展到 576 GPU、Rubin NVL576 以及 Kyber NVL1152,则代表 NVIDIA 正在把这种统一互连域从机架级推进到更大规模的多机架 scale-up 结构。
增长机制 ¶
回顾从 Volta 到 Rubin 系列的演进,可以把 NVIDIA 的系统级复合增长拆成几组清晰的增长引擎:
- 单芯片算力:每代提升约 3 倍
- Scale-Up 域:互联规模和带宽同步翻倍
- 内存系统:HBM 带宽翻倍,容量提升 3 倍
其中,低精度数值格式、Tensor Core 和工艺进步对应单芯片与单比特效率的持续提升;互联域扩大决定了多少高价值通信仍能留在同一高带宽域内;HBM 的带宽与容量提升则决定了算力增长能否被真正“喂饱”。而从 Blackwell 开始,先进封装也进入主增长链条,意味着增长机制已经从单纯提升单点指标,转向多维变量的协同推进。
代际对比更能直观看出这一复合增长轨迹:
| 系列 | Volta | Ampere | Hopper | Blackwell | Rubin |
|---|---|---|---|---|---|
| SKU | V100 | A100(HGX) | GH200(CPU+GPU) | GB200(CPU+2GPU) | ?VR200(CPU+2GPU) |
| 单卡算力(FP16) | 0.125 PFLOPS | 0.312 PFLOPS | 0.9 PFLOPS | 2.25 PFLOPS x 2 | |
| 系统规模 | 8 | 16(OEM 提供 ) | 32 | 72 | |
| 系统总算力 | 1 PFLOPS | 5 PFLOPS | 32 PFLOPS | 180 PFLOPS | |
| 系统 HBM 总容量 | 8 x 32GB = 0.256 TB | 16 x 80GB = 1.28 TB | 32 x 144GB = 4.6 TB | 36 x 384GB = 13.8 TB |
上述代际指标体现的是 " 系统级(按 FP16 口径)" 的复合放大轨迹。结合黄氏定律所给出的十年约 1000 倍增长拆解:低精度数值格式约 16×、Tensor Core 与矩阵引擎约 12×、制程与微架构约 2.5×,可以得出一个结论:单纯依赖芯片工艺或单点架构优化已无法支撑指数级提升,必须依靠多维协同的系统工程。
超节点正是这一 " 系统化方法 " 的工程化载体:以 FP16 系统算力观测,每两年约 6×,十年区间潜在约 7000×;若叠加 Blackwell 世代引入的 FP6/FP4 等更低精度执行路径,其有效可用算力(在可接受精度与稀疏 / 混合精度策略前提下)还可能进一步放大到 ">10000×" 数量级。对于任何希望在超节点方向与 NVIDIA 竞争的厂商而言,系统性协同是必须的战略。【研判】
关键变量 ¶
互联域扩大 ¶
NVLink 作为 NVIDIA 超节点互联的核心协议,其代际演进体现了 " 密度效率 " 路线的工程内涵:
| 代际 | 架构 | 单 Lane 速率 | 每 GPU Link 数 | GPU 聚合带宽(双向) | NVSwitch 端口 | 最大 NVLink 域 |
|---|---|---|---|---|---|---|
| NVLink 1.0 | Pascal (P100) | 20 Gbps | 4 | 160 GB/s | — | 8 GPU |
| NVLink 2.0 | Volta (V100) | 25 Gbps | 6 | 300 GB/s | Gen1, 18 port | 16 GPU |
| NVLink 3.0 | Ampere (A100) | 50 Gbps | 12 | 600 GB/s | Gen2, 36 port | 16 GPU |
| NVLink 4.0 | Hopper (H100) | 100 Gbps | 18 | 900 GB/s | Gen3, 64 port | 256 GPU |
| NVLink 5.0 | Blackwell (B200/GB200) | 200 Gbps | 18 | 1800 GB/s | Gen4, 72 port | 576 GPU |
从 NVLink 1.0 到 5.0,单 GPU 聚合带宽增长 11.25 倍,最大域规模增长 72 倍。这种 " 带宽 × 规模 " 的双维度复合增长是 NVIDIA 超节点竞争力的核心引擎。对于大模型训练和推理而言,关键通信路径能否稳定留在同一高带宽域内,往往比单颗 GPU 的峰值算力更决定最终效率。
NV-HBI 与封装 ¶
从 Blackwell 架构开始,先进封装成为其算力增长的又一关键。通过 NV-HBI(NVIDIA High-Bandwidth Interface)技术,NVIDIA 将两颗 GPU 裸片(Die)高速互联,提供高达 10 TB/s 的双向带宽,使它们在逻辑上可作为单一、统一的 GPU 工作 3。这标志着 NVIDIA 的增长引擎已从单纯提升单点指标(如芯片算力或互联速率
系统协同 ¶
如果把 NVLink、NVSwitch 和 NV-HBI 分开看,它们分别对应链路带宽提升、交换域扩大和封装级 D2D 互联;但放在同一条代际路线里看,更重要的事实是:它们共同把更多设计变量持续拉回同一个系统边界内联合优化。
- 封装与 D2D:NV-HBI(双 Die,10 TB/s 级)把 D2D 作为算力放大的核心
- 互联协议:坚持 NVLink 专用协议,形成完整的软硬件闭环
- 软件栈:CUDA/NCCL 在集合通信与编程体验上优势明显,生态成熟度领先
- 系统集成:从芯片、模组、整机到机柜的全栈交付能力
也正因如此,NVIDIA 获得的并不是若干独立的局部优势,而是一种系统级放大机制:更多算力、更大显存、更低片间开销、更大 Scale-Up 域以及更强的软件承接能力被同时组织起来。这就是为什么 NVIDIA 的超节点路线更像“系统工程平台”,而不是“高端 GPU 产品线”。
结论 ¶
NVIDIA 在超节点领域的领先地位来自于其系统化的技术战略:
- 垂直整合:从 GPU 芯片到 NVSwitch、NVLink、DGX 整机的全栈自研
- 软件护城河:CUDA 生态的网络效应和 NCCL 的性能优势
- 持续迭代:每两年一代的稳定节奏,形成可预期的性能提升曲线
- ESUN 布局:作为 ESUN 发起方之一,NVIDIA 同时押注开放以太协议路线,以对冲 NVLink 生态封闭性带来的潜在反垄断和客户锁定风险
对于竞争者而言,单纯在某一维度追赶(如芯片算力或互联带宽)难以形成有效挑战,必须建立系统级的竞争能力。
因此,NVIDIA 这个案例对第一章最重要的启示,不是“它今天做得最强”,而是它证明了超节点竞争的本质:领先并不来自单芯片的孤立突破,而来自持续把新变量引入同一系统边界,并把这些变量稳定组织为真实系统能力。