探索构型(Dragonfly + OCS 型)¶
随着大模型技术的迅猛发展,模型训练参数量呈指数级攀升。以下图为例,从 2017 年的 BERT 模型到 2025 年的 GPT5 模型,参数量增长超过 1000 倍,然而 GPU 单卡算力的增长却并不显著。在此情形下,迫切需要借助高速互连来实现大量 GPU 的超节点集成部署,以保持算力增长并满足激增的计算需求。为应对上述挑战,本章节提出 以太全互联 + Dragonfly 拓扑 + OCS 光电路交换 的探索构型,以匹配算力高速增长需求。

架构定义、组网描述与技术演进 ¶
目标问题 ¶
网络特性会同时影响系统的性能表现、功耗控制、成本投入与可用性。对超节点而言,真正要解决的不是单点带宽不足,而是如何在训练侧承接更大的同步通信域、在推理侧守住更低的尾时延,并把扩容成本控制在可交付区间内。
从超节点规模的角度看,把 10 万卡集群从 512 个 256P 超节点重组为 16 个 8K 超节点,并不会改变 GPU、模块和交换机总量,却可以把高带宽域规模放大 32 倍。这样一来,更多高价值通信可以在超节点内部承载,参数面可转由 VPC 平面完成互联,网络架构和运维复杂度都能随之下降。

在总 GPU 数量不变时,扩大超节点边界可以显著增大高带宽域,并降低跨节点组织成本。
方案架构与算力演进 ¶
以太互联 + Dragonfly 拓扑 + OCS 弹性架构 是面向大规模超节点组网设计的光电融合方案。它以高性能无损以太网为通用传输底座,以 Dragonfly+ 分层直连拓扑为基础物理结构,以 OCS 光电路交换为拓扑弹性重构核心,通过“电分组交换 + 光电路交换”的协同,把组内收敛、组间直达和光层重构组织到同一套体系里。

Dragonfly + OCS 的核心不是简单增配交换机,而是把总线平面、Group 内电交换与 Group 间光交换分层组织。
从算力演进角度看,Dragonfly+ 具备较好的规模外推能力,GPU、电交换机与 OCS 三类端口的增长都可以驱动组网规模提升。若设 GPU 端口数为 \(X\),交换机端口数为 \(R\),组内网络层数为 \(L\),在标准无收敛组网下,组内节点规模为 \(N_g=\left(\frac{R}{2}\right)^L\),组间端口数为 \(R_g=X \times N_g=X \times \left(\frac{R}{2}\right)^L\),因此总组网规模为 \(N=(R_g+1)\times N_g=X\times\left(\frac{R}{2}\right)^{2L}+\left(\frac{R}{2}\right)^L\)。这意味着增加网络层级、交换机端口数和 GPU 端口数,都可以推动超节点进一步放大。
更重要的是,随着单端口速率从 400G 演进到 800G、1.6T,电交换机必须同步提升交换容量才能维持端口数不变,而 OCS 端口规模的增长与单端口速率基本解耦,因此这一路线在代际扩展上有更大的自由度。

Dragonfly 可以在“大规模、均衡性、并行链路”之间选择不同形态,这也是其适配不同通信画像的重要基础。
组网描述 ¶
本架构采用“计算接入层 - 电交换组 - 光交换层”三级组网结构:
- 计算接入层:由 GPU 节点和智能网卡(
SuperNIC)构成。单节点通过高速以太网接口接入电交换机,网卡硬件卸载RoCEv2协议栈,支撑训练和推理场景下的低时延、高吞吐集合通信。 - 电交换层:对应
Dragonfly+的Group层,单个Group由若干以太网交换机组成,组内采用Clos结构,单组可支持几十到数百个 GPU 节点接入。 - 光交换层:作为弹性能力核心,
Dragonfly Group的上行端口接入OCS光交换矩阵,通过MEMS微镜或压电陶瓷实现全光无阻塞交叉连接。任意两个Group之间都可以通过OCS建立专用光链路,无需额外光电转换即可实现组间直达。
核心组件与关键技术:硬件、软件与算法协同 ¶
硬件组件 ¶
架构的硬件组件由四个核心模块构成,共同形成端到端的光电协同底座。
光路交换机(OCS)¶
OCS 是 Dragonfly+ 顶层的核心枢纽,对速率和协议保持透明。其底层器件主要包含四种技术路线:
- MEMS:通过微镜偏转光线,当前商业化最成熟。
- 液晶:无活动部件,通过改变液晶折射率实现光束偏转,可靠性高。
- 压电陶瓷:利用压电效应精确驱动物理对准,插损较低。
- 硅光子开关:具备纳秒级切换潜力,是未来实现快速光交换的重要方向。
以太交换机 ¶
AI 专用以太网交换机提供高速以太网端口,并内置硬件级拥塞控制、遥测与无损转发能力,作为 Dragonfly Group 的交换载体,承接组内高频数据交换。
光模块 ¶
高速光模块与光器件包括高速硅光模块以及 LPO/NPO/CPO 等方案。随着端侧 I/O 密度继续提升,光模块不再只是“链路附件”,而是能效和带宽密度的重要决定项。
智能网卡 ¶
智能网卡(SuperNIC)负责 RoCEv2 等协议处理,并承担端侧拥塞控制与流量整形。
软件与协议栈 ¶
架构采用“端网协同、光电协同”的全栈软件设计:
- 拓扑管理器:监控物理健康度,并根据 AI 任务规模计算最优拓扑切片方案。
- OCS 控制器:把逻辑拓扑指令翻译为底层光学器件控制信号。
- 路由:以太网层面可复用传统
Clos的路由技术,实现负载均衡转发。 - 集合通信:识别
OCS层次上的流量模式,利用Group内外编排优化AllReduce、All-to-All等操作的带宽利用率。由于L1电交换层可把流量扇出到不同Group的直连端口,即便OCS是端口级交换,仍可在系统层实现高带宽集合通信。 - 数据平面协议栈:
传输层:主流采用
RoCEv2,UEC则面向下一代 AI 网络定义了更细的拥塞控制、流量分类和端到端遥测机制。 链路层:无损以太网技术,包括PFC、ECN等机制。
典型行业公司实践:英伟达 ¶
英伟达以 Spectrum-X 平台为核心,构建了面向通用 GPU 集群的“以太互联 + OCS弹性”方案。相较传统以太网,这一路线通过更强的端网协同与流量调度,把以太网从通用数据中心网络进一步推向 AI 定向优化网络,并验证了 Dragonfly+ 在万卡级集群下的可扩展性。
架构优势 ¶
规模扩展性 ¶
- 协议透明、平滑迁移:从标准以太网构型演进到
Dragonfly + OCS时,无需改写柜内基本结构,更多变化集中在控制面和调度面。 - 规模外推能力强:
OCS端口数提升4倍,即可推动超节点规模近似提升4倍;而这一路线不再被高端电交换芯片工艺和代际节奏完全锁死。 - 网络直径可控:
Dragonfly+把端到端跳数控制在较低范围内,避免Clos在规模上升后层级持续增加。
性能、可靠性与能效 ¶
- 时延更低:一电一光的两层组网使组内时延固定、组间跳数恒定;文档给出的判断是,端到端整体时延可较传统电交换方案降低
20%以上。 - 带宽利用率更高:
OCS可以按需重构带宽分配,使整网对分带宽和链路利用率同步提升。 - 可靠性更强:
OCS支持毫秒级故障切换,无需修改路由配置即可绕过故障节点。 - 能耗更低:在该探索构型下,电交换设备可减少约
33%,光模块数量可减少约50%,网络功耗可降低约30%,同时网络MTBF约可提升一倍。
代际兼容与成本 ¶
OCS 的速率与协议透明性意味着核心网络无需伴随端口速率代际演进而整体更换,很多情况下仅需升级边缘光模块即可。对超节点而言,这一点的重要性不在节省一代设备成本,而在于把“扩容”和“换代”从同一个资本开支事件中拆开。
架构演进与适配 ¶
代际规模演进 ¶
按源文档给出的三阶段设定,Dragonfly + OCS 的规模增长主要由顶层 OCS 端口数驱动,而标准 Clos 方案更容易被交换芯片容量锁定在约 8K 量级:
| 阶段 | 电交换芯片 | OCS 端口数 | 单端口速率 | 标准 CLOS 典型规模 | Dragonfly + OCS 典型规模 |
|---|---|---|---|---|---|
| 阶段 1 | 51.2T |
256 |
400G |
约 8K |
16K |
| 阶段 2 | 102.4T |
512 |
800G |
约 8K |
32K |
| 阶段 3 | 204.8T |
1024 |
1.6T |
约 8K |
64K |
逻辑拓扑演进 ¶
顶层逻辑拓扑并不必然固定为单一 Dragonfly 结构。通过控制面重构,网络可以根据任务通信需求调整为更适配流量形态的逻辑拓扑,例如针对 AllReduce 的 Ring、针对 All-to-All 的 Mesh,从而把拓扑能力和业务通信模式更直接地绑在一起。
帕累托位置 ¶
从取舍结构看,Dragonfly + OCS 更靠近“把边界往更大规模推,但尽量不重写全栈”的一侧。它获得的是规模、时延、能效和生态连续性之间的较优平衡,付出的代价则是更重的管控软件与算法适配。
| 维度 | 帕累托位置 | 与其他方案的对比 |
|---|---|---|
| 拓扑弹性 | ★★★ 组间 OCS 重构 |
标准构型无重构(★Torus + OCS(★★★★★) |
| 故障隔离 | ★★★★★ 故障卡隔离 |
标准构型(★★★★★Torus + OCS(★★★★★) |
| 功耗与 TCO | ★★★★ 组内电交换、组间光交换 |
标准构型(★★★Torus + OCS(★★★★★) |
| 规模上限 | ★★★★★ 万卡级 |
标准构型(★★★Torus + OCS(★★★★) |
| 时延 | ★★★★★ 时延稳定,且少一跳电交换 |
标准构型(★★★★Torus + OCS(★★★★) |
| 生态成熟度 | ★★★★ 复用以太协议生态,仅需软件适配 |
标准构型(★★★★★Torus + OCS(★★★) |
展望 ¶
以太互联 + Dragonfly 拓扑 + OCS 代表了一条从“电交换主导”向“光电融合主导”演进的现实探索路径。它的价值不只是把网络做大,而是在尽量保留现有以太生态的前提下,把高带宽域继续外推到更大边界。
未来,随着 CPO、硅光集成和更高密度端侧光 I/O 成熟,这一路线有望继续向“芯片出光、全光直连”演进;若再叠加空芯光纤等低时延技术,其在大规模训练与低时延推理之间的兼容性还会进一步增强。