探索构型(大环路 + 分布式 dOCS)¶
dOCS(distributed Optical Circuit Switching)模块:指将光电路交换(OCS)能力分布式集成到可插拔光模块内部的互连器件,使单个光模块同时具备:
- 高速光互连传输(光模块基本功能)
- 线路级 / 通道级的动态交换与重构能力(OCS 功能)
该范式在 SIGCOMM 2025 《InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers》论文中首次被明确提出并命名为 transceiver-centric HBD architecture:在收发器层统一 " 连接 + 动态交换 ",而不是 " 收发器点到点 + 依赖集中式交换机做动态交换 "。
核心技术 ¶
光互连光交换 dOCS 超节点方案基于分布式光交换芯片与光互连网络架构,其核心技术包括:
(1)基于硅光的光互连光交换 dOCS 芯片:传统 OCS 技术一般采用 MEMS 或者 DLC 等技术,dOCS 芯片采用硅光技术,可利用成熟的 CMOS 工艺,实现更小的尺寸、更低的成本、更高的可靠性。
(2)全光互连光交换替代电互连电交换:传统 Scale-up 网络依赖电交换机(如 PCIe 或以太网交换机
(3)分布式光交换拓扑:通过部署多颗光互连光交换 dOCS 芯片(每颗芯片支持多路光信号交换
探索构型(大环路 + 分布式 dOCS)¶
dOCS(distributed Optical Circuit Switching)模块是指将光电路交换(OCS)能力分布式集成到可插拔光模块内部的互连器件,使单个光模块同时具备:
高速光互连传输(光模块基本功能)
线路级 / 通道级的动态交换与重构能力(OCS 功能)
该范式在 SIGCOMM 2025 《InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers》论文中首次被明确提出并命名为 transceiver-centric HBD architecture。该方案将光电路交换(OCS)能力下沉并分布式集成到可插拔光模块内部,实现了\"收发器即交换机\"的全新物理互联范式。其核心取舍是:以激进的收发器功能重构和极致的物理层能耗比为优先约束,通过分布式 OCS 实现拓扑的动态重构与故障隔离,在帕累托前沿上探索大规模互联的成本、延迟与碳足迹极限,为此承受最高的技术不确定性与颠覆性的软件栈协同设计成本。
目标问题 ¶
当前主流的大规模 Scale-Up 网络(如 NVL72 的多级胖树或 Google TPU 的 3D Torus)在向更高级别扩展时,正面临两个难以调和的工程矛盾:
系统能效与碳排放瓶颈:以交换机为中心(Switch-centric)的架构在扩大规模时,不仅带来布线复杂度的爆炸,其多级电交换层级的光电转换(O-E-O)与包处理机制会消耗海量电能。在智算中心向碳中和演进的背景下,传统电互联架构的功耗增长曲线已严重偏离多目标优化(碳排放、性能与成本)的合理区间。
拓扑刚性与算力浪费:以计算节点直连为中心(GPU-centric)的架构虽然省去了中间交换机,但拓扑高度刚性。在动辄数万卡的大规模集群中,单节点或单链路故障极易引发蝴蝶效应,导致整个大环路或三维环面切片失效,故障爆炸半径极大。
随着大语言模型(LLM)参数规模的爆炸式增长,张量并行(TP)成为跨 GPU 分割模型的关键手段,上述矛盾在高带宽域(HBD)架构中被进一步放大:
资源碎片化:固定的物理拓扑难以适配多样化的 TP 组规模,导致算力资源浪费。
故障容错性差:在大型集群中,单一节点的故障往往会导致整个计算任务中断,缺乏有效的物理隔离机制。
交换层级依赖:传统设计中,收发器仅支持点对点连接,必须依赖高基数交换机进行路由,这引入了额外的延迟和功耗开销。
分布式 dOCS(Distributed Optical Circuit Switching)试图在物理底层打破这一僵局:通过在最边缘的光模块中直接嵌入动态光路切换能力,既保留了物理层直连的极低功耗与无包交换延迟,又获得了集中式交换机才具备的拓扑弹性和故障绕行能力。InfiniteHBD 正是基于这一思路,提出了\"以收发器为中心\"的架构------通过将 OCS 能力下沉至光模块,赋予每个节点动态重构连接的能力,从而在物理层面解决拓扑刚性与故障隔离问题。
协议基础与架构定义 ¶
在传统架构中,光模块(Transceiver)仅作为被动的点对点光电信号转换器。InfiniteHBD 的核心创新在于将 OCS 嵌入每个收发器中,实现了从\"点对点\"到\"点对多点\"连接模式的根本性转变:
分布式可重构链路:废弃高基数电交换机,收发器本身通过内置的光矩阵实现通道级的光路重构(Point-to-Multipoint routing)。收发器不再是被动的信号转换器,而是具备动态路由能力的主动节点。
无包交换传输:链路握手建立后,数据以纯光信号(Photonic domain)进行端到端传输。这彻底消除了传统网络层中的帧头解析、SRAM 查表路由与多级缓存排队延迟,使端到端 Goodput 逼近物理介质的理论上限。
面向负载的动态变长环路:利用节点内的自环(Loopback)与节点间的外部光纤互联,底层拓扑不再是静态的 Spine-Leaf 或 Torus,而是可以根据上层通信模式动态构建出适应不同异构负载的变长环路(Variable-size rings)。系统可据此根据模型规模动态调整 TP 组大小,最大化资源利用率。
物理层故障隔离:当某个节点发生故障时,相邻节点的 OCS 可以直接在物理层旁路故障节点,防止故障扩散,保障集群的整体可用性。
核心组件与物理实现 ¶
本构型物理实现依赖于支持 OCS 的新型收发器及特定的组网结构。
硅光 dOCS 收发器:该构型的物理核心。依托先进的硅光集成(Silicon Photonics)与 2.5D/3D 封装技术,在单个光收发器模块内部微缩集成微机电(MEMS)或热光调谐的马赫-曾德尔干涉仪(MZI)光开关阵列,同时承担 800G/1.6T 高速光收发与微秒级光路重构的双重任务。
无源光核心:节点间直接通过光纤网络相连。由于移除了耗电的电交换芯片和重型散热模组,机柜间甚至整个计算域的主干互联蜕变为完全无源的光链路。这不仅大幅降低了 TCO,更在硬件层面提供了极佳的细粒度能耗感知基础------系统的能耗主要集中在端侧节点,而非网络中间件。
小型集群验证:论文展示了一个由 32 个实验性 GPU 组成的小规模集群,采用支持 PCIe 4 协议的互连链路(96 条通道)。该集群通过固定光模块构建物理环,用于评估环形拓扑的通信性能。
性能评估与对比 ¶
本构型构建的环形拓扑在延迟和带宽利用率方面表现出色,且具备良好的扩展性,以下以 InfiniteHBD 为例:
| 性能指标 | InfiniteHBD | 对比基准 |
|---|---|---|
| 小包延迟 | 相比 NVLink Switch 设计降低约 13% | 得益于直接的 GPU-to-GPU 链路,减少了交换跳数 |
| AllReduce 带宽利用率(16 GPU) | 77.11% | 接近理论峰值 |
| AllReduce 带宽利用率(32 GPU) | 77.26% | 规模扩大一倍,利用率无明显衰减 |
| 对标 H100 8-GPU 单机 | 略低于单机效率(81.77%) | 在大规模扩展下逼近单机效率,打破了传统集群的性能瓶颈 |
分析:
低延迟优势:直接的 GPU-to-GPU 链路消除了中间交换环节,使得小包传输延迟显著降低,这对延迟敏感的 TP 通信至关重要。
扩展性优势:从 16 GPU 扩展至 32 GPU 时,带宽利用率保持稳定(甚至微升),证明了环形拓扑在大规模集群中的有效性。相比之下,传统层级交换架构在规模扩展时常面临严重的性能衰减。
软件系统与控制面协同 ¶
去交换化意味着网络本身失去了逐跳寻址与自适应拥塞控制能力,控制面复杂度被全盘推向全局调度系统。这对系统软件栈提出了前所未有的全栈协同要求:
全局拓扑管理器:必须具备异构负载的先验感知能力。针对 LLM 全生命周期的不同阶段,Orchestrator 需根据模型规模下发指令配置 OCS 收发器,执行不同粒度的拓扑重构。例如,在稠密训练的参数同步期,构建极大范围的环路以最大化 AllReduce 吞吐;在 MoE(混合专家模型)训练或长上下文推理阶段,则快速切分为多个高连通性的短环路,以适应 All-to-All 的高频交叉流。
毫秒级硬件自愈与绕行:当监控组件探测到节点离线时,Orchestrator 直接下发指令至相邻节点的 OCSTrx,在纯光物理层切断并桥接新光路(Bypass)。健康的计算资源被瞬间隔离保护,将算力闲置浪费率控制在传统架构的十分之一以下。软件层仅需更新路由表,无需进行复杂的协议重收敛。
软硬协同的流控机制:由于不存在中间缓存,通信库(如定制版 NCCL)必须与硬件的微秒级光路切换严格对齐。软件栈需要精确掌控通信节拍,提前预热光路,实现计算与通信的完美掩盖。
帕累托视角分析 ¶
大环路 + 分布式 dOCS 在帕累托前沿上的位置极为极端且极具颠覆性,它代表了互联架构向物理极限外推的尝试,通过硬件层面的创新重新定义了性能与成本的平衡。下表将其与现有主流构型进行系统对比:
| 对比维度 | 交换机中心架构(如 NVL72 胖树) | 节点直连架构(如 TPU 3D Torus) | 大环路 + 分布式 dOCS |
|---|---|---|---|
| 交换机依赖 | 高(多级电交换机) | 无 | 无 |
| 拓扑灵活性 | 中(受限于交换层级) | 低(静态拓扑) | 高(动态变长环路) |
| 故障爆炸半径 | 中(交换机单点故障影响大) | 大(单链路断裂可切断整个切面) | 小(物理层旁路,毫秒级隔离) |
| 端到端延迟 | 较高(多跳 O-E-O + 包处理) | 低(直连,但多跳累积) | 极低(纯光直连,无包交换) |
| 网络功耗 | 高(交换芯片 + 散热) | 低(无中间设备) | 极低(无源光核心) |
| 软件栈复杂度 | 低(成熟生态) | 中 | 极高(全栈协同设计) |
| 技术成熟度 | 高(已量产部署) | 高(已量产部署) | 低(实验室验证阶段) |
| 扩展性上限 | 中(受交换机基数与层级数约束) | 中(受维度与物理布线约束) | 高(理论上仅受光功率预算约束) |
这种 \" 用极端的软件复杂度换取极端的系统能效与拓扑弹性 \" 的特性,使其在能力边界上无法被任何现有的标准构型所替代。该方案的最佳适配区域是:大规模张量并行训练场景、对故障容忍度要求极高的长周期训练任务,以及需要灵活适配不同模型尺寸的异构计算集群。
局限与演进方向 ¶
光器件的插入损耗与良率:将光交换矩阵微缩至可插拔模块内,最大的物理阻碍在于串扰(Crosstalk)和级联插入损耗(Insertion Loss)。随着环路跳数的增加,光信号的衰减可能需要引入昂贵的掺铒光纤放大器(EDFA),这会在一定程度上抵消其成本优势。当前硅光代工体系的良率提升仍需 2-3 年的产业孵化。
环形拓扑的固有缺陷:虽然测试数据显示扩展性良好,但超大规模环形拓扑仍面临累积延迟和链路利用率的挑战,可能需要结合多环或切分策略。
并行策略限制:当前架构注重于张量并行,但对于专家并行(EP)的支持仍需要继续探索。
软硬件协同复杂度:OCS 的引入增加了硬件控制的复杂性,需要高度定制化的驱动与通信库支持。
演进路径预判:单一的分布式 dOCS 很难在所有流量特征下保持完美,未来的帕累托最优解可能沿两条路径演进:
光电双轨制:利用标准以太网(或类似 UALink 的轻量总线)处理高频控制信令与细粒度访存请求,同时利用 dOCS 构建的无源光网作为处理大规模集合通信的专用\"重载管道\"。这种分而治之的架构将有希望在保证低延迟的同时,实现能效和弹性的多目标全局最优。
CPO 深度集成:结合共封装光学(Co-Packaged Optics)技术,将 OCS 直接集成进 GPU 封装内部,进一步缩短互连距离,降低能耗,实现全光交换的进一步微缩化。