整机工程 ¶
上一章的系统架构构建了超节点的逻辑互联基础,本章则转向这些逻辑互联能力在整机尺度的系统集成——如何在机柜尺度内,将高带宽、低延迟、统一内存等系统能力,稳定承载于可扩展、可持续、高可靠的硬件底座之上。
整机工程正是承担这一物理实现使命的系统性工程实践。它围绕“更高密度、更大带宽、更低延迟、更优拓扑、更高能效”五大核心诉求,聚焦机柜级结构创新、高速互联硬件、信号完整性保障、拓扑连接方案、供电散热系统的协同设计,为 AI 算力的指数级增长与计算效率的提升提供工程支撑。
更高密度:整机柜机械结构与物理承载系统 ¶
单机柜内 GPU 数量的持续攀升,体现了超节点对算力密度的追求——从传统服务器的 8 卡级,向 72 卡、144 卡乃至更高规模演进。这一演进面临三重物理约束:纵向空间有限(标准机柜高度固定
本节从纵向空间扩展、横向空间重构、节点薄型化与热电系统解耦四个维度,阐述超节点实现高密度部署的工程路径。其核心目标是将单机柜功率从传统 30–50 kW 级提升至 100–200 kW 级,支撑百卡级单机柜部署。
纵向空间扩展:机柜高度提升工程 ¶
机柜高度是决定纵向堆叠能力的首要物理约束。传统数据中心机柜高度为 42U(约 2 米
以 NVIDIA NVL72 为例,48U 机柜内容纳 18 个 1U 计算托盘(Compute Tray
机柜加高并非简单的尺寸拉伸,而是牵一发而动全身的系统工程,主要体现在三个层面:
(1)结构强化:加高后机柜立柱需承受更大的弯矩和剪切力,必须通过增加立柱截面、优化型材壁厚或采用高强度钢材,防止高负载下的结构变形,确保节点插拔精度和高速连接器可靠性。
(2)维护可达性:48U 机柜顶部距离地面约 2.2 米,上层节点已超出运维人员徒手操作范围,需配合前 / 后双维护通道,并在顶部预留吊装工具接口(如滑轨、吊臂
(3)热与电的纵向耦合:机柜加高后,垂直方向上的供电路径与液冷管路同步延长,电源铜排的电压降与液冷歧管的流量分配都需要重新核算,确保顶部节点与底部节点的供电电压偏差控制在可接受范围内,并保证各节点的冷却液流量分配均衡,避免因纵向位置差异导致散热不均。
横向空间重构:非对称宽体机柜机械结构 ¶
机柜高度受限于数据中心层高与运维可达性,因此纵向空间的扩展终有上限。传统对称机柜(19/21 英寸)在容纳计算节点、交换节点、供电与散热单元后,内部空间已被极度压缩,难以支撑更高密度的正交架构与液冷部署。
打破这一约束的路径是向横向要空间。OCP 定义的 ORW(Open Rack Wide)机柜采用非对称宽体设计,宽度达 42 英寸,约为传统 ORV3 机柜的两倍。阿里磐久超节点等系统也采用了类似的双宽架构。双倍宽度带来的不仅是物理容量的倍增,更是架构设计的自由度提升。
| 对比维度 | ORW 机柜 | 传统机柜 | 工程设计优势 |
|---|---|---|---|
| 机柜宽度 | 42 英寸(传统机柜两倍宽) | 19/21 英寸 | 双倍宽度提供更大物理空间,满足超节点高密部署与正交架构需求 |
| 架构解耦 | 供电系统可独立设计;算力节点与交换节点可灵活配置于双侧机柜 | 多节点混合,供电与散热辅助系统混合 | 提供更大配置灵活性,支持计算与交换正交部署 |
| 散热设计 | 支持节点与供电系统液冷散热 | 混合散热,能效有限 | 提高散热能效,支撑 200 kW 级热流密度 |
| 背板 / 中板设计 | 更大面积的背板 / 中板,支持更多计算核心低延迟互联 | 背板 / 中板面积受限,铜线连接距离有限 | 在铜线连接技术框架下,实现更多核心置于同一 Scale-Up 域 |
| 维护便利性 | 双宽设计使重量分布更均匀,支持抽屉式拉出故障模块 | 空间拥挤,维护需拆卸多个组件 | 模块化设计支持热插拔,缩短维护时间,提升可用性 |
| 扩展灵活性 | 模块化部署,可独立运行或横向扩展,支持解耦部署 | 扩展受物理空间限制,增加节点需新增机柜 | 灵活适应不同规模 AI 集群需求,支持未来光学技术应用 |
双宽机柜的核心工程价值在于:它将原本被供电、散热、布线占据的侧向空间释放出来,转化为可被计算与交换资源利用的有效空间。更重要的是,它为前后正交架构提供了物理前提——计算节点与交换节点可在双侧独立部署,信号路径不再受限于单一背板,为 224G 及以上速率的高速互联奠定了基础。
节点空间压缩:计算节点紧密化与 PCB 高叠层化 ¶
纵向与横向空间的扩展,最终都要落实到节点层面。节点托盘、PCB 与高速连接器三者的协同演进,构成了节点空间压缩的技术主线。
(1)节点托盘结构优化 ¶
传统风冷 GPU 节点通常为 2U–4U 高度,散热片与风扇占据大量空间。液冷技术将节点高度压缩至 1U,在有限空间内实现高密度部署、精密散热与盲插维护。
- 高密度部署:1U 节点内可部署 2–4 颗 GPU,单位 U 数 GPU 数量较传统方案提升 2–4 倍。
- 精密接触:冷板安装位平面度控制在 0.05 mm 以内,确保与 GPU die 紧密贴合,支撑千瓦级散热。
- 盲插集成:托盘后部集成高速连接器、供电端子和液冷快接头,支持无工具热插拔,支撑高密部署下的快速维护。
(2)PCB 高叠层演进 ¶
传统 AI 服务器 PCB 层数为 12–16 层,足以支撑标准 PCIe 互连。当单机柜 GPU 数量达到 72 卡以上时,信号布线密度激增,必须通过增加层数提供更多布线通道。以 NVL72(及后续 VR NVL72/Rubin 架构)为典型,PCB 技术向超高叠层范式转移。
| 产品代际 | PCB 层数 | 密度支撑能力 |
|---|---|---|
| 传统 AI 服务器 | 12–16 层 | 标准 PCIe 互连,中低密度 |
| NVL72 | 24–40 层 | 支撑 72 卡级高密互连与正交连接 |
| Rubin Ultra NVL576(未来) | 70+ 层正交背板(Orthogonal Backplane) | 支撑数百卡级全互联 |
(3)高速连接器 ¶
支撑 112G/224G PAM4 的板对板连接器(如 Amphenol Paladin HD2)采用 2.4 mm 间距设计,单连接器可支持 144 对差分信号。在正交架构下,计算节点与交换节点通过连接器直接对接,配合高叠层 PCB,实现机柜级数千对高速差分线的密集部署。
热管理重构:液冷散热系统 ¶
节点空间压缩至 1U 后,散热成为制约密度的核心瓶颈。传统风冷在 1U 空间内难以支撑 1000W 级芯片的散热需求——空气的比热容与导热系数决定了其物理极限。液冷技术的引入,将散热介质从空气切换为液体,冷板直接贴合芯片,不仅将节点高度从 2U–4U 压缩至 1U,更消除了前后风道占用,为机柜纵向堆叠更多节点释放了空间。
液冷系统的核心组件及其工程功能如下:
| 液冷组件 | 硬件规格 | 工程功能 | 密度支撑价值 |
|---|---|---|---|
| 冷板(Cold Plate) | 内部微通道铜,流道宽度 0.1–1 mm,表面镀层防腐蚀 | 直接贴合 GPU/CPU,带走高热量 | 1U 空间内实现千瓦级散热,支撑节点薄型化 |
| 分液歧管(Manifold) | 不锈钢,垂直布置于机柜两侧 | 将冷却液均匀分配至各节点 | 垂直贯通设计替代风道,释放横向空间 |
| 盲插快接头 | 支持数千次插拔,无滴漏设计,大流量通过 | 支持带液插拔,维护时零泄漏 | 实现高密节点热维护,保障机柜级可用性 |
| 冷量分配单元(CDU) | 板式换热器 + 变频泵 + 传感器,换热量数百 kW 级 | 智能调节冷却参数 | 单机柜级散热管理,支撑百 kW 级功率密度 |
整柜解热能力达上百 kW 级,可支撑单芯片 1000W TDP 的散热需求,为更高密度部署提供热管理基础。
集中供电系统:高密部署的能量底座 ¶
节点空间压缩与液冷散热解决了“算力如何放进去”的问题,但另一个瓶颈随之浮现:传统分布式供电在 50 千瓦级以上机柜中已无法支撑。每节点独立电源模块(PSU)占用 1.5U–2U 高度,且交流 - 直流转换发热分散,既挤压算力空间,又加剧散热负担。集中供电通过“去节点化”将供电系统从计算节点剥离,成为高密度机柜的使能技术。
超节点采用“集中转换、母线传输、节点降压”的三级供电架构:电源框(Power Shelf)统一承担交流 - 直流转换(通常置于机柜底部
(1)空间释放:从节点内置到机柜集中 ¶
传统架构中,每节点配置 1+1 冗余电源模块(CRPS
- 节点高度释放:去除 PSU 后,计算节点从 2U–4U 压缩至 1U–2U,单柜可部署节点数提升 50%–100%。
- 有效空间提升:供电系统占用从机柜容量的 25%–30% 降至 5%–8%,释放的纵向空间直接转化为算力部署空间。
- 结构解耦:消除风冷电源与液冷管路的布局冲突,支持分液歧管(Manifold)垂直贯通,进一步压缩节点间距。
(2)48V 母线:高功率密度的电气基础 ¶
当单机柜功率向 200 千瓦演进时,传统 12V 供电面临数千安培级电流,母线截面积和铜损急剧增加,宝贵的侧向空间被挤占。48V 架构的密度支撑价值体现在三个方面:
- 线规优化:电流降至 1/4,同等功率下铜损大幅降低,铜排(BusBar)截面积可减少约一半,这节省的机柜侧向空间可用于液冷管路或增加节点横向密度。
- 热源外移:电源框(Power Shelf)效率可达 97% 左右,较节点内电源模块(PSU,通常 92%–94%)提升了效率,且能够使发热集中排出,避免热空气在节点间循环,减少散热对密度提升的制约。
- 盲插维护:大电流盲插端子支持节点无工具热插拔,适应高密部署下频繁的运维需求,能够保障机柜级可用性。
(3)近负载供电与节点薄型化 ¶
在 1U 节点内支撑 1000W 级图形处理器(GPU
- 高密度转换:采用多相数字脉冲宽度调制(PWM)和集成驱动与金属氧化物半导体场效应晶体管(DrMOS
) ,在有限印制电路板(PCB)面积内完成 48V → 0.8V/1.8V 的大电流降压,以支撑 GPU 瞬态功耗需求。 - 结构适配:将电压调节模块部署于 GPU 侧向或底部,避免增加节点厚度,确保 1U 节点与正交连接器可靠对接。
(4)供电 - 散热 - 密度的系统协同 ¶
集中供电与液冷系统形成“热电分离”的协同架构:
- 热源解耦:电源框的转换热损耗通过独立风道或冷板排出,不进入计算节点液冷回路,简化冷量分配单元(CDU)流量设计。
- 气流释放:去除节点内电源模块风扇后,机柜无需预留电源散热风道,可部署更密集的液冷分液歧管,实现“全液冷 + 集中供电”的更高密度。
- 维护协同:盲插接口支持带液热插拔,可以满足高密部署下的快速维护需求。
综上,超节点的“更高密度”通过纵向扩展(机柜加高
更大带宽:机柜级 HBD 的物理通路 ¶
密度提升解决了“单位空间内放多少算力”的问题,但算力能否有效释放取决于芯片间的通信带宽。当单机柜 GPU 数量从 8 卡级跃升至 72 卡级以上时,若每 GPU 需对外提供 TB/s 级带宽,机柜级聚合带宽需求将达数十 TB/s 乃至百 TB/s 级 , 传统 PCIe 交换架构已无法满足需求。这一量级的带宽无法通过单一技术路径实现,必须依赖“SerDes 速率提升 × 并行通道扩展 × 交换 Radix 增大”的协同运作,从物理层到交换层系统性突破带宽瓶颈。
高速互联组件:从板级到机柜级的带宽延伸 ¶
机柜级带宽是通道速率与布线密度的乘积。前者由 SerDes 技术决定,后者由连接器与 PCB 工艺支撑。
(1)高速 SerDes:单通道速率的代际跃升 ¶
多个高速 SerDes 集成于 GPU 芯片中,支持 112G/224G PAM4 速率,达成 TB/s 级单芯片对外互联带宽。在芯片设计层面,SerDes 的集成面临速率与面积的权衡:更高的速率(如 224G)可在同等面积下提供翻倍带宽,或减少所需 SerDes 数量以节省芯片面积。
当单 GPU 集成数十至上百个 SerDes 通道、机柜内部署数十颗 GPU 时,机柜级 SerDes 通道总数达数千条,形成“空间并行 × 速率提升”的双重扩展,支撑 PB/s 级聚合带宽。
(2)正交连接器:机柜级的带宽密度保障 ¶
正交架构的价值不仅在于低延迟,更在于其超高布线密度。传统背板架构受限于 PCB 层数和走线空间,单连接器支持的差分对数量有限;正交连接器(如 Amphenol Paladin HD2)支持每英寸上百对差分信号,配合 40 层以上高密度 PCB,实现机柜级数千条高速差分对的密集部署。
无背板直插消除了 PCB 中间层的走线损耗与过孔限制,允许在有限空间内部署更多并行通道,直接支撑更大带宽需求。在信号完整性与结构可靠性得到保障的前提下,硬件设计者倾向于选择 pitch 更小、差分对密度更高的连接器——因为单位空间内的带宽密度,直接决定了超节点 Scale-Up 域的规模上限。
大 Radix 交换节点:带宽汇聚与 Scale-Up 域扩展 ¶
SerDes 与连接器解决了物理层带宽密度问题,但将这些高速通道汇聚为统一的 Scale-Up 域,需要大 Radix 交换芯片。交换芯片的端口数量与速率,共同决定了高带宽域(HBD)的规模上限。
(1)大 Radix 的带宽汇聚机制 ¶
传统小 Radix 交换芯片(32–48 端口)连接百卡级集群时需要多级级联(2–3 级
大 Radix 芯片(64–128+ 端口)支持单级交换覆盖整个机柜,任意 GPU 间可维持直连等效带宽,避免多级交换的带宽打折。当 Scale-Up 域从 16 卡扩展至 72 卡乃至 144 卡时,大 Radix 芯片使单柜内所有节点全互联成为可能,无需依赖跨机柜光互连。这是“机柜级”带宽优势的核心体现——将高速互联的物理边界与系统边界统一,避免协议栈跨越多个交换层级带来的效率损耗。
(2)SerDes 与交换芯片的协同 ¶
交换芯片的 SerDes 速率需与 GPU 侧匹配,否则交换层将成为带宽瓶颈。若 GPU 采用 224G SerDes 而交换芯片仅支持 112G,则需通过 2:1 的链路聚合实现带宽匹配,不仅增加布线复杂度,还会引入额外的延迟与功耗。因此,大 Radix 芯片需集成与 GPU 同代甚至下一代的 SerDes IP,确保整机带宽无瓶颈。
在协议层面,不同互联协议(NVLink、UALink、PCIe/CXL)正逐渐向共享物理层 SerDes 的方向演进。这意味着:交换芯片可复用同一套物理层,通过配置支持不同的上层协议,为超节点的开放生态提供硬件基础。
机柜级更大带宽的工程路径 ¶
机柜级“更大带宽”通过“物理层 SerDes 速率跃升(56G → 112G → 224G)× 连接器布线密度倍增(正交架构)× 交换层 Radix 扩展(单级大端口汇聚)”的组合工程实现。这种协同使超节点在单机柜内即可构建数十 TB/s 乃至百 TB/s 级聚合带宽的高带宽域(HBD
| 参数 | 规格特征 | 工程意义 | 与带宽的关联 |
|---|---|---|---|
| SerDes 速率 | 112G PAM4(当前)/ 224G PAM4(下一代) | 匹配 GPU 互联速率需求 | 决定单通道带宽上限 |
| 并行通道规模 | 数百对(中密度背板)→ 数千对(极高密度正交) | 正交架构 + 液冷释放布线空间 | 决定并行度,与速率相乘得总带宽 |
| 交换端口数 | 64–128+ 端口,每端口高速率 | 单芯片支持数十至百卡级全互联 | 决定 Scale-Up 域规模与收敛比 |
从系统视角看,更大带宽的工程价值不仅在于数字本身,更在于它改变了算力与通信的平衡关系——当通信时间被压缩后,大模型训练的效率边界将从“通信受限”转向“计算受限”,这是超节点区别于传统服务器集群的本质特征。
更低延迟:传播路径与信号完整性的双重保障 ¶
带宽提升解决了“数据能传多快”的问题,但大模型训练对延迟的敏感度同样严苛——All-Reduce 同步中,任一链路的额外延迟都会拖慢整个集群的迭代速度。当信号速率提升至 112G/224G PAM4 时,延迟问题呈现双重挑战:一是物理传播距离本身带来的延迟,二是信号完整性不足导致的链路层重传。后者一旦发生,延迟将从百纳秒级骤增至毫秒级,破坏了低延迟的确定性。
本节从正交架构、信号完整性保障、线缆工程权衡三个层面,阐述机柜级亚微秒级延迟的实现路径。
正交架构:传播延迟的最小化 ¶
正交架构的核心逻辑是以物理架构的垂直正交,换取电信号路径的水平最短。通过横向计算节点与纵向交换节点的垂直直接对接,消除长距离背板走线与跨机架线缆,压缩信号传播延迟。
| 架构类型 | 信号路径 | 延迟特征 |
|---|---|---|
| 传统背板架构 | GPU 托盘 → 背板 PCB 走线 → 交换托盘 | 路径长,经过多层 PCB 过孔和走线,传播延迟高 |
| 线缆飞线架构(如 GB200) | GPU 托盘 → 高速线缆(OverPass)→ 交换托盘 | 线缆长度带来额外传播延迟,且存在弯曲半径限制 |
| 正交直插架构(如阿里磐久 128) | GPU 托盘 → 板对板连接器 → 交换托盘 | 路径最短,直接压接,信号传播延迟最小化 |
正交架构将信号路径从传统背板的数十厘米缩短至数厘米,仅物理传播延迟即可降低数纳秒至十数纳秒。正交连接器(如 Paladin HD2)的压接阻抗连续性优于背板过孔,能减少信号反射与阻抗不连续导致的延迟抖动。对于需要亚微秒级同步的 Scale-Up 网络,正交架构通过物理路径最短化,为百纳秒级 GPU 间通信提供了基础路径保障。
信号完整性保障:确定性延迟的基础 ¶
在 112G/224G PAM4 高带宽下,信号完整性直接决定延迟的确定性。若信号损耗过大导致误码,链路层重传将引入毫秒级惩罚,使延迟从百纳秒级骤增至毫秒级。因此,必须通过材料与器件工程确保信号一次传输成功,避免重传延迟。
(1)高速中继芯片:信号质量的主动恢复 ¶
| 类型 | 硬件实现 | 延迟影响 | 工程价值 |
|---|---|---|---|
| Redriver | 模拟均衡芯片 | 亚纳秒级固定延迟 | 高频补偿,延长短距离 PCB 走线,避免信号衰减 |
| Retimer | 集成时钟恢复(CDR)的数字芯片 | 数纳秒至十数纳秒处理延迟 | 完全重建信号,消除抖动与损耗,确保眼图张开,避免链路层重传 |
Retimer 的延迟权衡:虽然引入数纳秒至十数纳秒的固定处理延迟,但通过消除信号抖动与损耗,它能确保误码率(BER)降至 10⁻¹² 以下,避免毫秒级重传延迟。在机柜级长距离连接(如 7 米有源电缆 AEC)中,净延迟收益显著为正。
(2)PCB 与铜箔材料:损耗的源头控制 ¶
为满足 224Gbps 级信号传输,基板材料介电性能需数量级提升,确保信号在传输过程中保持完整性,避免因损耗导致的重传。
| 技术参数 | 传统服务器 | GB200/GB300 NVL72 | VR NVL72 (Rubin) |
|---|---|---|---|
| 覆铜板(CCL)等级 | FR-4 (M4) | M7 → M8 | M8/M9+ |
| 介电损耗(Df) | ~0.02 | 0.002–0.005 | <0.001(碳氢树脂可达 0.0005) |
| 树脂体系 | 环氧 | 改性环氧 / 聚苯醚(PPO) | 碳氢树脂 / 聚烯烃弹性体(OPE) |
| 增强材料 | 普通玻纤 | 低介电常数玻纤(LDK) | 石英布(Quartz/Q-glass) |
介电损耗因子(Df)越低,高频信号传输损耗越小,眼图高度越高,误码率越低,因此低 Df 材料是避免重传延迟的物理基础。在铜箔方面,则采用 HVLP4(超低轮廓)铜箔,表面粗糙度较 HVLP2 进一步降低,以减少趋肤效应导致的信号散射损耗,确保 224G 信号完整性。
(3)线缆选择与延迟权衡 ¶
| 类型 | 硬件构造 | 延迟特征 | 适用场景 |
|---|---|---|---|
| 无源铜缆(DAC) | 无源 twinax 铜缆 | 传播延迟最低(~5 ns/m |
极短跳线(<1 m |
| 有源铜缆(AEC) | 有源铜缆,两端集成 Retimer | 传播延迟 + 固定处理延迟(~10–20 ns) | 跨背板连接(3–7 m |
| 有源光缆(AOC) | 有源光缆,光电转换 | 传播延迟低但光电转换引入固定延迟(~50–100 ns) | 跨机柜连接(>10 m |
工程权衡遵循分层原则:第一层(柜内)优先采用正交铜连接,成本最低、延迟最低且无确定性抖动;第二层(跨柜)根据距离选择 AEC 或 AOC,需容忍相应的处理延迟。避免在极短距离使用高损耗方案导致潜在重传风险。
更低延迟的系统实现 ¶
机柜级低延迟的实现是“路径缩短”与“质量保障”的协同结果:
- 正交架构通过物理路径最短化,将基础传播延迟降至理论极限(百纳秒级)
- Retimer、高端 PCB、低损耗铜箔通过确保信号完整性,将误码率控制在重传阈值以下,避免毫秒级重传惩罚,保障延迟的确定性(Deterministic Latency)
- 线缆工程权衡在距离与延迟间取舍:柜内优先 DAC 或 AEC(最低延迟
) ,跨柜采用 AOC(可接受延迟)
从系统视角看,低延迟的工程价值不仅在于绝对值,更在于确定性。当延迟抖动被安全地控制在微秒级以内时,上层集合通信库(如 NCCL)的同步开销可被精准预测,大模型训练的端到端效率才能成为可预期、可信任的可优化。
更优拓扑:机柜级连接架构与算力协同 ¶
带宽与延迟解决了“单条链路能传多快”的问题,但整个系统的通信效率还取决于另一层因素:这些链路如何组织成网络拓扑。错误的拓扑选型可能导致带宽收敛、延迟累积、扩展成本失控,甚至与上层模型架构的通信模式不匹配,造成算力空转。本节从拓扑类型、多维权衡、演进趋势三个层面,阐述超节点实现计算规模与通信效率最优匹配的工程路径。
拓扑架构的类型与工程特征 ¶
超节点整机拓扑的硬件实现呈现多元化,不同拓扑在 \" 端口密度、线缆复杂度、光 / 电互连比例、扩展边际成本 \" 等方面存在显著差异。
| 拓扑类型 | 硬件特征 | 网络直径 | 光 / 电互连比例 | 适用规模(超节点域) | 工程复杂度 |
|---|---|---|---|---|---|
| Full Mesh(全互联) | 每节点直接互联,无中间交换 | 1 跳 | 全铜缆(极短距) | 小规模(<32 节点) | 极高(端口数平方增长) |
| Fat-Tree(胖树) | 分层交换,收敛比可调 | 2–4 跳 | 铜缆 + 光缆混合 | 中小规模(32–256 节点) | 中(需多级交换硬件) |
| Dragonfly(蜻蜓) | 组内全互联 + 组间稀疏连接 | 2–3 跳 | 高比例光互连(中长距) | 大规模(>256 节点) | 高(需光交换 /OCS 硬件) |
| 3D-Torus(三维环面) | 规则网格,近邻互联 | 3–6 跳(平均) | 铜缆为主(中短距) | 超大规模并行(特定算法) | 低(规则布线) |
拓扑选型的多维权衡 ¶
拓扑选型需在算力规模、模型架构、工程约束三个维度间综合权衡,而非单一维度的最优解。
(1)按算力规模选型 ¶
| 规模 | 优选拓扑 | 硬件工程特征 | 性能特征 |
|---|---|---|---|
| 小规模(≤32 节点,单机柜) | Full Mesh 或单级 Fat-Tree | 正交无背板架构,全铜缆互连,单级交换芯片或直连 | 直径 1–2 跳,All-to-All 无收敛 |
| 中等规模(64–256 节点,1–4 机柜) | 两级 Fat-Tree | 机柜内 Leaf 交换(铜缆)+ 机柜间 Spine 交换(光缆) | 直径 2 跳,收敛比可调(3:1 至 1:1) |
| 大规模(>256 节点,多机柜) | Dragonfly 或 3D-Torus | 高密度光互连,可部署 OCS 光开关 | 直径 2–3 跳(Dragonfly)或 4–6 跳(3D-Torus) |
(2)按模型架构协同 ¶
不同模型架构的通信模式差异显著,拓扑需与之匹配:
| 模型类型 | 通信特征 | 拓扑需求 | 硬件工程要点 |
|---|---|---|---|
| Dense 模型 | All-Reduce 密集,通信量与参数规模成正比 | 低直径(1–2 跳 |
单级 Fat-Tree,机柜内全铜缆,光互连比例 <20% |
| MoE 模型 | All-to-All 不规则,存在热点专家 | 灵活路由、高扇出、可重构性 | 两级 Fat-Tree 或 Dragonfly + OCS,光互连比例 30%–50%,支持组间动态带宽调整 |
| 推理模型 | KV-Cache 跨节点访问频繁,异构计算 | 低延迟、异构互联、弹性扩展 | 单级 Fat-Tree 或解耦架构,支持 CXL.mem 内存语义 |
拓扑演进趋势 ¶
(1)光交换与动态重构 ¶
在 Spine 层或 Dragonfly 全局链路部署光电路交换(OCS
(2)专用推理拓扑 ¶
Groq 的 LPX 系统展示了推理场景的另一种路径:采用编译器协同的静态互连拓扑(如确定性 Mesh 或 Torus
(3)以内存为中心的拓扑 ¶
CXL 技术正在重新定义机柜级的拓扑逻辑,从“以计算为中心”转向“以内存为中心”。通过引入 CXL 内存池(CXL Memory Pool
本节小结:拓扑选型没有普适的最优解,而是在算力规模、模型架构、工程成本三者间的系统权衡。随着光交换、CXL 内存池等技术的成熟,拓扑正从“静态布线”向“可编程资源”演进,让物理互联的拓扑结构,能够像计算资源一样被调度和优化,从而更精准地匹配上层负载的通信模式。
更高能效:供电与散热优化 ¶
密度提升带来了算力增长,但也带来了功耗激增——单机柜功率从 30 kW 跃升至 120 kW 乃至更高。若能效无法同步优化,这些功耗将转化为高昂的电费与散热成本,使算力扩张在经济上不可持续。超节点的能效提升源于供电链路效率优化与散热机制范式转移的系统性协同,目标是将电能利用效率(PUE)从传统风冷架构的 1.4 以上降至 1.1 左右。
高效供电:链路效率的三级跃升 ¶
传统数据中心供电架构经历多级转换(AC-DC-AC-DC
(1)机房级:高压直流(HVDC)直供 ¶
传统 UPS 双变换系统(AC-DC-AC)效率约 90%,且存在谐波损耗。采用 240V/336V HVDC 省去逆变环节,将机房级供电效率提升至 96% 以上。800V HVDC 方案更进一步,可直接与新能源直流系统对接,从源头提升清洁能源利用效率。
(2)机柜级:48V 直流母线 ¶
当单机柜功率向 200 kW 演进时,传统 12V 母线电流高达万安培级,根据焦耳定律(P_loss = I²R
(3)节点级:高密度电压调节模块(VRM)¶
计算节点内采用多相数字脉冲宽度调制(PWM)加集成驱动与金属氧化物半导体场效应晶体管(DrMOS)方案,实现 48V 直接降压至负载电压(0.5V–1.8V
液冷散热:从气流组织到靶向冷却 ¶
当单机柜功率超过 50 kW 时,传统风冷散热的物理局限开始显现。风冷依赖高转速风扇驱动气流,其自身功耗随散热需求呈非线性增长——在 200 kW 机柜中,风扇阵列功耗可达总 IT 功耗的 10%–15%,成为不可忽视的能耗项。与此同时,机房空调(CRAC/CRAH)需将冷风精确送达每一处热点,冷热风混合造成的能量浪费进一步推高制冷功耗。二者叠加,使散热系统在总能耗中的占比随功率密度提升而急剧攀升。
液冷利用液体远高于空气的比热容与导热系数,将散热介质从空气切换为液体,冷板直接贴合芯片带走热量。这一转变的核心价值在于:将散热从“大空间气流组织”变为“定点热交换”,从根源上消除风扇功耗、压缩空调负荷,重构散热能耗结构。
(1)液冷对 PUE 的结构性优化 ¶
- 消除风扇功耗:液冷节点去除或大幅减少风扇,在 200 kW 机柜中可减少数十千瓦的无效功耗,直接降低 IT 设备能耗基数。
- 降低机房空调负荷:液冷承担机柜绝大部分热负荷(CPU + GPU
) ,仅余少量热量(内存、SSD)需风冷处理。空调系统从“全负荷制冷”转为“辅助除湿 / 补冷”,制冷功耗大幅降低——这是 PUE 降至 1.1 左右的关键支撑。 - 提升自然冷却时间:冷板与芯片表面温差控制较风冷更为精确,允许更高的进水温度(如 40°C 以上
) ,延长自然冷却(Free Cooling)适用时间,进一步降低制冷能耗。
(2)液冷系统工程与能效协同 ¶
- CDU 智能控制:冷量分配单元(CDU)采用变频泵和 PID 温控,根据实时负载动态调节流量。低负载推理场景下降低泵速节省循环功耗,高负载训练场景下提升换热效率。
- 热电分离优化:电源框的 AC-DC 转换热损耗通过独立风道或冷板排出,不与 GPU 计算液冷回路混合。这种“计算液冷 + 供电风冷 / 液冷”的分离设计,允许 CDU 针对 GPU 高热流密度优化参数,避免为兼顾供电余热而妥协流量设计。
- 废热高品位回收:液冷将 GPU 废热以温水形式(较风冷排风温度更高)排出,可直接用于办公供暖或工业预热,实现能源梯级利用。
(3)液冷硬件的能效工程实现 ¶
| 液冷组件 | 能效相关工程特征 | 能效优化机制 |
|---|---|---|
| 冷板微通道 | 0.1–1 mm 精密流道,低流阻设计 | 降低泵功消耗,减少 CDU 循环能耗 |
| 分液歧管(Manifold) | 不锈钢主管道,低阻力分支 | 减少沿程阻力,降低泵送功率 |
| 盲插快接头 | 大口径、低流阻设计 | 减少连接点压降,维持系统低循环功耗 |
| 冷量分配单元(CDU) | 钎焊板式换热器 + 变频磁力泵 | 根据热负荷动态调节,避免定频运行能耗 |
供电与散热的系统协同:PUE<1.1 的实现路径 ¶
高效供电与液冷散热构成“能效双支柱”,通过“热电分离、各自优化”的协同机制突破传统能效瓶颈:
-
能耗基数的削减:供电链路优化将原本损耗的相当比例电能压缩至较低水平(效率提升约十个百分点
) ,直接减少 IT 设备能耗基数;液冷消除风扇功耗,进一步降低总能耗需求。 -
散热负荷的降低:供电损耗减少意味着机柜内热源减少,叠加液冷承担绝大部分热负荷,空调系统仅需处理剩余少量热量,制冷功耗从占数据中心总能耗的较大比例降至较低水平。
-
能效的乘数效应:传统架构中“供电发热 → 增加散热 → 散热功耗增加 → PUE 恶化”的恶性循环被打破。供电余热(低品位)与计算余热(高品位)分别管理,避免散热系统为处理“供电散热”而超额配置,实现“1+1>2”的能效增益。
能效延伸:从 PUE 到每 Token 能耗 ¶
大模型推理的能效瓶颈已从计算单元转向 KV Cache 的存储与访问。Groq 的 LPX 系统通过全片上 SRAM 加编译器静态调度,实现数据零搬运的极致能效,证明了数据局部性对推理能效的决定性作用。
超节点通过 CXL 内存分层架构(Memory Tiering)在机柜级实现类似的能效优化:将 KV Cache 热数据保留于高带宽内存(HBM
这一演进的意义在于:能效优化的边界正在从基础设施层(PUE)向算效层(Energy per Token)延伸。当供电与散热已逼近物理极限时,存算协同将成为下一阶段能效提升的主战场。
本节小结:超节点的“更高能效”通过供电链路的三级效率跃升与散热机制的范式转移(消除风扇、大幅降低空调负荷)的系统性协同,将 PUE 从传统架构的 1.4 以上压缩至 1.1 左右。在此基础上,CXL 内存分层等存算协同技术正将能效优化延伸至每 Token 能耗维度,为 AI 算力的可持续扩张提供更完整的能效基础。
整机工程发展趋势:面向“Token 生产工厂”¶
前文从密度、带宽、延迟、拓扑、能效五个维度,阐述了超节点整机工程的物理实现路径。将这些维度拉通来看,一个清晰的趋势正在浮现:超节点正从“AI 训练集群”向“Token 生产工厂”演进。二者的核心区别在于:训练集群仅追求峰值算力,而“Token 生产工厂”追求的是稳定、可预期、低成本地输出推理结果,将算力转化为可计量的服务。
这一转变对整机工程提出了新的要求:密度不再是单纯的物理堆叠,而是单位空间内的 Token 产出密度;带宽不再只是通道速率,更是内存语义的统一;延迟不再只追求绝对数值,更强调确定性;拓扑不再固定,而是可被软件定义;能效的边界从 PUE 延伸至每 Token 能耗。五个维度的演进路径如下:
五大维度演进路径 ¶
(1)更高密度:从物理堆叠到 Token 产出密度 ¶
- 空间重构:节点与机柜的双向空间扩展,支撑单机柜百卡级 / 200 kW 部署,满足大规模并发 Token 生产需求。
- 逻辑密度:CXL 内存池化解耦算力与内存,减少冗余 HBM 配置,提升单位硅面积有效算力密度,支撑长上下文推理的内存需求。
(2)更大带宽:从通道速率到内存语义统一 ¶
- 物理带宽:224G PAM4 SerDes 加正交连接器,实现机柜级百 TB/s 聚合带宽,支撑 MoE 模型的 All-to-All 通信。
- 语义升级:CXL 3.0 实现机柜级 Load/Store 内存语义(<1 μs 延迟
) ,替代传统 DMA,支撑大上下文 KV Cache 分层访问。 - 近存计算:借鉴专用推理芯片架构,缩短数据搬运距离,逼近存算一体能效极限,缓解内存墙。
(3)更低延迟:从物理延迟到确定性延迟 ¶
- 路径压缩:正交无背板架构加 M8/M9+ 级覆铜板材料,将传播延迟压缩至百纳秒级,误码率 <10⁻¹² 消除重传风险。
- 确定性保障:编译器静态调度加确定性路由,延迟抖动 <5%,支撑交互式推理 SLA(TTFT <100 ms,TBT <20 ms
) 。
(4)更优拓扑:从固定拓扑到软件定义机柜 ¶
- 三维解耦:CXL 技术实现计算 - 内存 - 存储池化,支撑 Prefill-Decode 分离等新型推理架构,拓扑从“以 GPU 为中心”转向“以内存为中心”。
- 动态重构:OCS 光交换支持毫秒级拓扑重构,适应 MoE 热点专家迁移;专用推理拓扑(Mesh/Torus)消除动态路由开销。
(5)更高能效:从 PUE 到每 Token 能耗 ¶
- 基础设施:集中供电(>97% 效率)加液冷散热,PUE <1.1。
- 数据搬运:CXL 内存分层(KV Cache 冷数据 offload 至低功耗内存池
) ,较全 HBM 配置降低 30%–50% 内存能耗。
演进总结与展望 ¶
上述五个维度的演进并非孤立,而是共同指向三大共性趋势:存算协同(从计算中心到数据驻留