跳转至

互联技术演进

本节承接第五章里“哪些变量会先改写链路功耗与拓扑弹性”这一问题。对超节点而言,互联技术并不是单纯把链路速率做高,而是在重新定义带宽应该以什么物理介质、什么功耗代价和什么控制面复杂度被组织起来。它真正影响的,不只是第四章各类参考设计在未来 23 年里还能否维持当前的成立条件,也包括机架布线、供配电、冷却和维护半径是否还能承接更大的受控域。

光互联与交换技术在这里并不是器件目录,而是沿着“从当前可部署方案到更激进重构方案”的顺序,去看不同路径会先改写什么约束、又会把哪类方案推向更有利或更不利的位置。

光互联技术演进

互联方案在这里不再按“16 / 64 / 256 卡”的规格目录展开,而是对应三类不同的工程窗口:可直接部署的低门槛路径、可作为过渡的混合路径、以及面向更大规模的重构路径。 同样是光互联,它们首先改写的约束并不相同。

再往器件层收一层,packaging.md 和这里的分工也会更清楚:LPONPOCPO 并不是同一条路上的简单前后代,而是分别对应三种不同的物理组织半径。LPO 先压低可插拔链路的功耗和时延,NPO 先收短前面板长电气走线,CPO 则直面超高速时代 PCB 链路预算和端口密度同时触顶的问题。把这三者统称成“光模块升级”,反而会遮掉它们改写的是不同约束。

可直接部署的低门槛路径

线性直驱光模块(LPO)

线性直驱光模块(Linear-drive Pluggable Optics, LPO)是当前最值得先看的变量之一,因为它改动最小,却最可能先进入部署。其核心不是“光模块换代”本身,而是通过移除传统可插拔光模块中的 DSP/CDR,在尽量保持现有可插拔生态的前提下,先把链路功耗、散热压力和部分短距时延开销压下来。

对超节点而言,LPO 的现实价值主要有三点:

  • 功耗与热设计更友好:去掉 DSP/CDR 后,模块功耗和热负担显著下降,更适合高密度机柜。
  • 成本与部署门槛更低:相较于需要重建封装或交换层的路线,LPO 更容易作为现有系统的平滑升级路径。
  • 协议透明:它不直接绑定特定互联协议,因此更容易被不同加速器和交换体系吸收。

最近的光互联规范整理给出了几个更有分量的量级:在 400G/800G 场景下,去掉模块侧 DSP 后,模块功耗常可从 14-18 W 压到 8 W 以下,系统侧大致可节省 4-8 W/端口;如果只看模块内部,DSP 往往占据接近一半功耗。与此同时,LPO 还能把链路附加时延压到 20 ns 以内,并维持 100m-2km 的短中距传输能力。LPO 之所以更接近当前可直接吸收的变量,也正在于此,而不是因为它代表一条更激进的系统重构路线。

光直连方案

对当前不少以 8 卡为基本单元的系统而言,最现实的第一步并不是立即引入复杂交换层,而是先用光直连把受控域从 8 卡稳妥扩大到 16 卡。这样做的意义,不只是在规模上翻倍,更在于它能以较低控制面复杂度验证:在本组织的器件、布线、冷却和软件条件下,光互联究竟能否稳定承接更大的局部性边界。

因此,LPO 直连更像一种“低门槛验证路径”:它不是最终形态,却能先把带宽、距离和功耗三个最直接的约束暴露出来。若系统已经明确需要继续把前面板到 ASIC 的长电气走线从 >150 mm 收到 <25 mm,同时又希望保留热插拔和模块替换能力,工程重心就会自然转向 NPO;问题的关键也随之从“是否引入光”转向“把光电边界放在哪里”。

16卡超节点拓扑

1: 16 卡超节点拓扑示意图

通过 LPO 光模块把传统 8 卡服务器扩成 16 卡超节点,本质上是在不显著增加交换复杂度的前提下,扩大单个受控域的覆盖范围。相比仍把更多通信留给网卡侧路径处理,这种方案更有利于观察 TP、细粒度同步和小域内共享流量在真实系统中的表现。


过渡期的混合路径

部分电交换光互连方案

相比光直连,部分电交换光互连代表的是一种更典型的过渡路径:一部分带宽继续留在机内,另一部分带宽被拉到光层和交换层处理。 它的价值在于,不必一次性完成整套拓扑重构,就可以先获得更高的并行策略灵活性。

部分电交换光互连架构

2: 部分电交换光互连架构图

这种混合路径通常出现在两个条件同时成立时:一是希望把受控域从 16 卡继续向 32/64 卡推大;二是交换芯片端口密度、成本或供应链条件还不足以支撑一次性全交换。它本质上不是终态,而是把“局部高带宽保留”和“更大范围资源调度”分阶段处理。

分布式光交换方案

当系统继续外推时,真正值得跟踪的变量不再只是“交换机端口够不够”,而是是否要把拓扑可重构性引入到互联层本身。这正是 OCS/dOCS 路线的意义。它们不是单纯替代电交换,而是在试图把“组网形状”也变成可以被调度和重构的对象。

dOCS 光学可插拔模块是一种带有硅光 OCS 的线性可插拔光模块。与中心化 OCS 相比,它更激进的地方不在器件本身,而在于把一部分交换能力继续下沉到端侧,使系统在更大范围内按需重构互连关系。

dOCS系统架构

3: dOCS 分布式光交换系统架构

dOCS 更接近一种“持续观察的前沿变量”:它确实可能改写中心交换层的角色,但真正决定其工程影响的,不只是低功耗和低延迟,还包括控制面复杂度、故障恢复路径和现场运维能力。

电气 SerDes 天花板与宽接口替代路径

LPO/NPO CPO 的演进动力,归根结底来自电气 SerDes 的带宽密度正在逼近物理极限。NVLink 1.0 5.0,带宽增长超过 11×,但 Lane 数仅从 32 增至 36;增长几乎全部来自单 Lane 速率从 20G 拉到 200G。NVLink 6.0(Rubin)通过双向 SerDes 再翻一倍,但这已是铜介质上可行的最后一次倍增——真正的单向 448G SerDes 仍面临极高的插损和功耗挑战,工程可行性尚不确定。

这一瓶颈可以用带宽密度直接量化。当前 Blackwell 224G SerDes 的封装逃逸带宽密度约 0.4 Tbit/s/mm,已接近有机基板上 flip-chip BGA 凸点密度的物理极限。而一旦光电边界收到封装内部,电气接口不再需要驱动长距离走线,宽并行接口(Wide I/O)就可以替代串行 SerDes

接口类型 电气距离 带宽密度(单向) 说明
224G LR SerDes(板级) 150–300 mm ~0.4 Tbit/s/mm 当前 NVLink 5.0
UCIe-S(基板级 D2D ~10 mm ~1.8 Tbit/s/mm 近封装宽接口
UCIe-A(interposer D2D <2 mm ~10 Tbit/s/mm 共封装宽接口

UCIe-A reticle 级芯片的单条长边上即可提供约 330 Tbit/s(~41 TB/s)的单向逃逸带宽,双边合计超过 660 Tbit/s——这与 Blackwell 全芯片仅 23.6 Tbit/s 的封装外带宽形成了一个数量级以上的落差 1。当然,UCIe-A 目前只适用于 interposer 上毫米级互联,与板级长距 SerDes 并非同维度比较;但这恰恰说明了 CPO 的系统意义:一旦光引擎被收到封装内部,电气接口不再承担长距驱动,带宽密度的上限就会从 SerDes 速率墙转移到光纤侧的逃逸能力上。这也是 CPO " 器件升级 " 跃升为 " 系统架构变量 " 的根本原因。

面向更大规模的重构路径

当超节点继续推向 128/256 卡乃至更大规模时,问题的重心会从“能不能把带宽拉出来”转向“是否还愿意继续依赖更多层电交换”。交换层级增加带来的,不只是延迟增加,更是布线、维护、可靠性与系统复杂度的联动上升。

一层全交换光互连方案

如果交换机端口密度和光模块条件继续改善,一层全交换光互连仍可能是一条现实路径。它的意义不在于“全交换天然更先进”,而在于它能在不引入更复杂拓扑控制面的前提下,把更大的受控域维持在统一交换语义之下。

一层全交换光互连架构

5: 一层全交换光互连架构

核心思路是将每个 XPU 的全部带宽通过 LPO 光纤拉出,连接到高端口密度的电交换机,从而解耦传统 8 卡服务器的内部层级化带宽结构。当 XPU 之间不再经过固定的机内交换机而是共享统一的全交换 Fabric 时,节点内外的带宽差异被消除,TP/EP 等并行策略的放置约束也随之放松。这条路径的前提是交换芯片端口密度和光模块功耗 / 成本能够同步到位。

光电混合分布式光交换

如果高端口密度交换芯片仍然受限,另一条更现实的路径是“有限电交换 + 分布式光交换”的混合重构。它不是理想最优,而是在器件约束下尽量保住规模扩展和灵活性。

光电混合分布式光交换架构

4: 光电混合分布式光交换架构

其基本组织方式是:机内 8 卡仍通过低端口密度电交换芯片完成全交换,多台 8 卡服务器之间通过 dOCS 模块按需建立光互连,组成 128/256 卡超节点或灵活切分为多个子域。dOCS 在这里承担两个角色:一是跨机互联的带宽通道,二是故障隔离与动态重配的控制抓手——当某台服务器故障时,系统可以绕过故障节点重新编排互连关系,以 8 卡为最小粒度进行替换。

这条路径对国产芯片环境有现实吸引力:它不依赖高端交换芯片,把电交换控制在可获取的器件能力内,同时借助光交换实现更大规模的弹性组网。其工程挑战主要在 dOCS 控制面的成熟度和现场运维可操作性上。

光模块技术演进

光模块的 30 年演进,本质上由三股力量驱动:更高单通道速率、更高端口密度、更低单位比特功耗。 每一次代际跨越,都伴随着调制格式、封装形态或器件平台的拐点。

代际 典型封装 关键拐点 核心驱动力
1G → 10G SFP / SFP+ 小型化热插拔封装取代焊接式 1×9 GBIC 端口密度需求
10G → 100G QSFP 单通道速率触顶 ~25G,转向 4 通道并行传输 信号完整性瓶颈
100G → 400G QSFP-DD / OSFP NRZ → PAM4 调制全面切换;硅光集成开始规模化 Nyquist 带宽极限
400G → 800G OSFP(8×100G PAM4) AI 算力集群驱动刚性需求;SR8/DR8/2×FR4 多规格分化 万卡级训练集群互联
800G → 1.6T OSFP224(8×200G PAM4) 单波 200G 器件成熟;薄膜铌酸锂进入视野 带宽密度与功耗持续压力
1.6T → 3.2T+ 待定(单通道 448G IEEE E4AI 标准化推进中 下一代算力集群需求

光模块形态与速率演进

6: 光模块形态与速率演进

对超节点而言,光模块代际最直接的系统影响有两个:一是 800G1.6T 的容量翻倍会直接抬升标准以太和 Dragonfly 方案在单交换层内的可承载规模;二是 LPO 的引入使模块功耗从 ~15 W 降至 ~78 W 量级,对高密度机柜的热设计约束有实质性缓解。更重要的是,光模块路线正在从“链路部件升级”逐步变成“整机工程变量”:功耗、散热、线缆密度、维护方式与交换层设计开始被同时牵动。400G 代际的 PAM4 转折则是当前整条链路设计(SerDes、交换芯片、线缆)的技术底座——后续所有代际均建立在 PAM4 调制之上。


光交换设备

光交换机(OCS)在光纤间直接建立和断开物理连接,实现 N×N 端口的无阻塞交换。其核心优势是协议透明(与信号速率、调制格式无关)和极低功耗(无光电转换,功耗仅为同规模电交换机的十几分之一至百分之一以下。对超节点而言,OCS 的价值不在于替代电交换,而在于为可重构拓扑提供物理层面的调度抓手。

当前主流的光交换技术路线有四种,各自在端口规模、切换速度和插入损耗上取舍不同:

  • 3D MEMS:通过双轴反射微镜阵列偏转光束实现选路,静电驱动为主。端口规模大(可扩展至千端口、插损低(~3 dB、成本较低;切换时间在几十毫秒级别。当前成熟度最高。

MEMS光交换示意图

7: MEMS 光交换工作原理示意图

  • 数字液晶(DLC):利用液晶电光效应与晶体光楔级联产生离散角度偏转,通过 L 层组合实现 \( 2^L \) 端口切换。端口规模可达 300×300(理论上限约 512,成本低、驱动电压低(≤10 V,但切换时间较慢(几百毫秒级,且对装调工艺要求高。

  • 直接光束偏转(DLBS):将光纤准直器固定在压电陶瓷驱动器上直接偏转,光程短、插损最低(~2.5 dB,端口规模可达 576×576;但成本高,大角度对准对驱动精度要求苛刻,规模扩展受限。

  • 硅光 SiP MEMS:基于硅光平台的波导级 MEMS 开关阵列,切换时间在微秒到十几微秒级别,集成度高。主要挑战是端口规模受限(当前 128×128 量级)且插损较高(128×128 规模下 5–7 dB,已超过光模块功率预算

技术对比

技术方案 相对成本 端口数量 切换时间 插入损耗 (dB) 驱动电压 (V)
MEMS 320×320(可扩展至千端口) 几十毫秒 ~3 ≈100
DLC 300×300 几百毫秒 ~4 ≤10
DLBS 576×576 几十毫秒 ~2.5 ≈10
SiP MEMS 128×128 十几微秒 >5 30~50

对参考设计而言,OCS 技术选型的关键权衡是:切换速度决定拓扑重构的响应粒度,端口规模决定可重构域的上限,插入损耗决定链路预算能否闭合。 当前 3D MEMS 在规模和成本上最成熟,SiP MEMS 在切换速度上最具潜力。故障恢复主要依赖硬件冗余(双电源、双控制器、冗余端口,控制平面则需要在全局视图(集中式)和高可靠(分布式)之间取舍。真正决定 OCS 能否从探索走向部署的,不是单个器件指标,而是控制面时延、故障恢复路径和运维可操作性的综合成熟度。


信道介质

光纤作为互联的物理载体,其类型选择直接影响超节点的密度、距离和时延约束。当前数据中心主要使用四类光纤,各自服务于不同场景:

光纤类型 典型场景 核心优势 关键约束
多模光纤(OM3/OM4,50μm 芯径) 机架内短距(≤150 m) 成本低(VCSEL 光源、部署成熟 模式色散限制带宽和距离
小直径单模光纤200μm 涂覆层 + G.657 抗弯) 机柜间中距、骨干布线 密度提升约 50%、气流优化;支持 400G–1.6T 当前数据中心布线主力
空芯光纤(HCF) 跨中心长距、低时延关键链路 时延降低 30%–47%、损耗已突破至 0.05 dB/km(低于传统单模理论极限) 工业化拉丝与熔接技术仍不成熟
多芯光纤 高密度骨干连接(DCI) 空分复用,容量随芯数线性增长 芯间串扰控制

对超节点而言,短距内多模和小直径单模已是成熟基础,无需特别关注。值得跟踪的变量是空芯光纤:若其工业化成熟,会直接改善跨机柜和跨中心场景的时延约束——微软已计划在 Azure 网络中大规模部署(通过收购 Lumenisity 推进,国内运营商也已开展现网试点。多芯光纤则主要解决管道资源紧张场景下的容量倍增问题,对超节点机柜内互联的影响较间接。


先进互联拓扑演进

互联拓扑的演进与光互联强相关:当铜互联在距离 / 插损 / 功耗 / 维护复杂度上触顶时,系统往往会同时引入“更强的拓扑稀疏化”和“可重构链路(OCS)”来提升有效带宽与鲁棒性。


新型总线技术演进

除“介质与交换”外,Scale-Up 体系的另一条主线是“总线语义与编程模型”的演进:统一寻址、原子操作、隔离与可观测能力,决定了上层通信库与系统软件能否把硬件带宽转化为稳定的 Goodput

对参考设计的影响

从第四章的参考设计视角看,互联技术演进并不是独立的技术目录,而是在重新排序不同方案的成立条件。真正被改写的,也不是某条链路本身,而是系统愿意把多少通信留在受控域内、又愿意为此承担多少布线、冷却与控制面复杂度:

  • 对标准构型的影响:LPO、800G/1.6T 模块与更高端口密度交换芯片的成熟,会直接抬升标准以太方案在规模、功耗和布线上的上限。
  • Dragonfly + OCS 的影响OCS 器件能力、光模块功耗和控制平面成熟度,是其能否从“可行探索”走向“更大规模实用方案”的关键变量。
  • Torus + OCS / dOCS 的影响:如果分布式光交换、快速硅光开关与低功耗可插拔光学继续成熟,低直径可重构拓扑的工程可行性会明显提升;反之则仍主要停留在特定场景或探索性部署。

按产业成熟度看,互联技术内部其实分属不同阶段:LPO、800G 光模块和更高端口密度交换芯片已接近已验证趋势;OCS、dOCS 和更激进的硅光交换方案则更接近工程推断,其工程路径可见,但控制面和规模化运维证据仍不足。后续最需要补强的,是光模块量产功耗数据、OCS 切换时延与故障恢复数据,以及云厂商在真实负载下的部署反馈。

未来 23 年里,真正需要看清的是:谁会先改写链路功耗与拓扑弹性这两个主导约束LPO 属于可直接进入当前部署的变量;OCS/dOCS 属于需要并行验证的变量;更激进的硅光交换仍应保持观察与原型投入。互联技术演进对第四章的意义,也不在于替代参考设计,而在于重写它们的成立条件。


  1. Dylan Patel, Daniel Nishball, Myron Xie, et al. "Co Packaged Optics (CPO) Book – Scaling with Light for the Next Wave of Interconnect." SemiAnalysis, Jan 2026.