探索构型(3D Torus + OCS 型)¶
为支撑大模型训练、推理与智算中心规模化需求,本章节提出 以太全互联 + 3D Torus 拓扑 + OCS 光电路交换 的探索构型。它通过计算、互联、拓扑和调度四层协同,突破传统规模算力上限、通信瓶颈与能效约束,尝试把成本、功耗、切片可用性和故障绕行能力同时压到更优的工程位置。
架构定义、组网描述与技术演进 ¶
目标问题 ¶
自 Transformer 模型诞生以来,大模型的参数规模和上下文长度持续增长,算力需求快速放大,而单卡算力提升正在放缓。对这一路线而言,核心问题不是继续把交换网络做厚,而是能否通过更扁平的拓扑、更轻的光层和更强的重构能力,把更多资源让渡给端侧算力。
如果说 Dragonfly + OCS 的重点是把边界往更大规模推而尽量不重写全栈,那么 3D Torus + OCS 优先保留的是另一组能力:去除传统多级交换,同时保留拓扑可重构性,在成本和能效的帕累托边界上获得切片可用性、故障绕行能力和任务贴合度。
方案架构与算力演进 ¶
以太互联 + 3D Torus + OCS 是一种大平层网络设计架构。它在计算节点(GPU/AI 加速器)的端侧保留标准以太网协议栈(如 RoCEv2OCS 进行直连。通过 OCS 的动态光路切换,物理网络可以被逻辑组合为任意维度的 3D Torus 拓扑。
这一路线的算力演进优势主要受 OCS 端口规模驱动,而不是受制于高端电交换芯片的工艺与代际节奏。只要 OCS 端口数持续增长,超节点边界就可以继续外推;而 OCS 本身从 256 端口到 1K 端口甚至更大端口,都存在明确演进路径。文档给出的判断是,OCS 端口数提升 4 倍,即可推动该构型超节点规模近似提升 4 倍。
组网描述 ¶
- 计算接入层:计算节点配置多张高速以太网卡并输出光信号,端侧 I/O 需要具备一定的转发与调度承接能力。
- 光层全互联层:计算节点的光纤直接接入
OCS的输入和输出端口,不再经过大型电交换机。 - 动态成环:
OCS在内部通过光学器件将特定链路闭合为首尾相连的3D Torus网格;当任务需求变化或节点故障时,可以实时重构光路,改变Torus形状或绕过故障节点。
核心组件与关键技术:硬件、软件与算法协同 ¶
硬件组件 ¶
光路交换机(OCS)¶
OCS 是该构型的物理层核心枢纽,对速率和协议保持透明。其底层器件主要包含四种技术路线:
- MEMS:通过微镜偏转实现光路切换,当前商业化最成熟。
- 液晶:无活动部件,通过改变折射率实现切换,可靠性较高。
- 压电陶瓷:利用压电效应驱动物理对准,插损较低。
- 硅光子开关:具备纳秒级切换潜力,是未来高速光交换的重要方向。
光模块与光电集成组件 ¶
当前主流是可插拔光模块,如 400G/800G 单模 FR 模块。随着单芯片 I/O 带宽跨越 T 级,传统可插拔模块的功耗会迅速变成瓶颈,因此未来更可能演进到 NPO 与 CPO,把光引擎进一步压到交换芯片或 GPU 基板附近。
智能网卡 ¶
智能网卡负责 RoCEv2 等协议处理,并承担端侧拥塞控制。
软件与协议栈 ¶
- 拓扑管理器:监控物理健康度,并根据 AI 任务规模计算最优拓扑切片方案,为不同任务切割出互不干扰的
3D Torus子网。 - OCS 控制器:把逻辑拓扑指令翻译为底层光学器件控制信号。
- 路由:以太网层面通常采用维度顺序路由结合自适应路由,确保数据在
3D Torus中无环路且尽量均衡传输。 - 集合通信:在
OCS构建出特定尺寸的3D Torus后,集合通信算法需要与该拓扑形状共同优化。 - 数据平面协议栈:
传输层:主流采用
RoCEv2;UEC面向下一代 AI 传输定义了更细的拥塞控制、流量分类与端到端遥测机制。 链路层:无损以太网技术,包括PFC、ECN等机制,并需要进一步处理Torus拓扑下的死锁预防问题。
典型行业公司实践:谷歌 ¶
概述 ¶
在人工智能算力集群的演进过程中,谷歌通过自研 TPU 系列芯片,构建了一套以 OCS 为核心、以 3D Torus 为逻辑拓扑的高性能智算网络。这一路线的代表性不在于“谷歌用了 Torus”,而在于它证明了:拓扑重构能力本身可以成为超节点的一种系统能力。
物理架构 ¶
谷歌智算网络建立在高度模块化的 4×4×4 TPU Cube 之上。单个 Cube 由 64 块 TPU 芯片组成,在 Cube 内部,每块芯片引出的 6 条 ICI 高速链路通过 PCB 背板与铜缆实现全电信号直连;位于 Cube 六个外表面的 96 条链路则引出光纤,接入由 48 台自研 Palomar OCS 组成的交换中心。
这 48 台 OCS 被严格划分为 X、Y、Z 三组物理正交的集群,每组 16 台 OCS 只负责对应维度的流量闭环。OCS 内部通过 2D MEMS 微镜阵列完成纯物理层光路切换,将网格边缘节点物理直连回起始节点,从而形成逻辑上的 3D Torus。基于这套能力,拥有 4096 节点的超节点可以被动态切分成不同形状的 3D Torus 切片,而且不同用户之间可以做到完全物理隔离。

谷歌 TPU 的代表性不只是采用 Torus,而是把 Cube 内电连接、Cube 间光互联与维度化 OCS 调度组织成同一套系统。
可用性与切片 ¶
当某个 TPU 芯片发生硬件故障时,集中控制器会通知 OCS 在光层直接“跳过”故障节点,重新闭合 Torus 环。这意味着该架构的恢复路径不必完全依赖上层软件重调度,而可以在物理层先恢复可用拓扑,再由上层控制面完成任务迁移和切片修补。
架构优势 ¶
规模扩展性 ¶
OCS + Torus 突破了传统电交换网络的层级和端口数约束。通过网络扁平化和物理解耦,新增算力单元接入 OCS 后即可被动态纳入某个 Torus 切片,从而沿着“更大超节点”方向平滑演进。对这一构型而言,规模外推的关键不只是继续堆节点,而是继续维持“可切片、可绕障、可重构”的组织能力。
性能、可靠性与能效 ¶
利用任务拓扑重构、故障域隔离和 OCS 光链路切换,谷歌 TPU v4 系统可用性达到 99.98%,折算年平均停机时间约为 1.75 小时。对超节点而言,这说明 Torus + OCS 的价值不只是节能,更在于它可以把故障恢复直接纳入拓扑组织能力。
在双层 Clos 架构下,GPU 间通信路径往往需要 3 跳;而 Torus 结构下,相邻节点之间可以实现免交换的 0 跳通信,因此它对 AllReduce 这类可逐跳规约的通信天然友好。代价在于,对 All-to-All 这类不规则流量,若网络直径过大,多跳转发会占用多个端口出口带宽,因此需要通过扭曲拓扑或更高维度 Torus 进一步优化。
代际兼容与成本 ¶
在谷歌公布的公开数据中,TPU v4 的 3D Torus 超节点网络成本占系统总成本的比例低于 5%,网络功耗占系统总功耗的比例低于 3%,显著低于典型 Clos 网络常见的 10% 到 20% 区间。以端侧每卡出 6 个端口为例,Clos 架构每卡至少需要 12 个光模块,而 OCS + 3D Torus 平均每卡约 1.5 个光模块,硬件数量和运维压力都显著下降。OCS 对速率和协议透明的特性,也使这一路线在代际升级时更容易把“换代”和“扩容”拆开处理。
架构演进与适配 ¶
代际规模演进 ¶
谷歌 TPU 网络在 TPU v4 时代通过 64 个 Cube 实现了 4096 卡 Pod 互连,而最新的 TPU v7 (Ironwood) 已把集群规模推向 9216 卡。对这一构型而言,规模演进的关键不只是继续堆节点,而是继续维持“可切片、可绕障、可重构”的组织能力。
逻辑拓扑演进 ¶
在拓扑算法层面,TPU v7 引入了 Twisted 3D Torus 设计,通过 OCS 建立可变步长的“虫洞”式跳跃互连,使得光纤链路不再受物理相邻位置限制。它通过优化绕回步长缩短超大规模网络的逻辑直径,缓解传统环面在大规模节点下 All-to-All 跳数过多的问题,也进一步把“物理部署”与“逻辑拓扑”解耦开来。
帕累托位置 ¶
从取舍结构看,3D Torus + OCS 更靠近“成本与能耗更低、拓扑弹性与故障隔离更强,但软件复杂度也更高”的一侧。它不是对谷歌方案的简单复述,而是一种把拓扑重构能力直接纳入局部性边界组织方式的构型。
| 维度 | 帕累托位置 | 与其他方案的对比 |
|---|---|---|
| 拓扑弹性 | ★★★★★ 全拓扑 OCS 重构 |
标准构型无重构(★Dragonfly + OCS(★★★) |
| 故障隔离 | ★★★★★ 光层绕障、切片恢复 |
标准构型(★★★★★Dragonfly + OCS(★★★★★) |
| 功耗与 TCO | ★★★★★ 无源光层核心 |
标准构型(★★★Dragonfly + OCS(★★★★) |
| 规模上限 | ★★★★ 千卡到万卡 |
标准构型(★★★Dragonfly + OCS(★★★★★) |
| 时延 | ★★★★ 近邻低、远邻高 |
标准构型(★★★★Dragonfly + OCS(★★★★★) |
| 生态成熟度 | ★★★ Google TPU 已验证,通用生态仍在建设 |
标准构型(★★★★★Dragonfly + OCS(★★★★) |
展望 ¶
相较传统 Clos 架构,3D Torus + OCS 在拓扑弹性、故障隔离和 TCO 优化方面都展现出独特价值。它的意义并不只是“更省电”,而是提供了一种不同于统一交换语义的超节点组织方式。
随着 CPO、硅光集成和高速以太协议栈逐步成熟,这一路线有可能从“以太网端侧 + 光层重构”继续向“芯片出光 + 全光直连”演进,成为开放以太生态下构建全光超节点的一条重要探索路径。