互联技术演进 ¶

本节承接第五章里“哪些变量会先改写链路功耗与拓扑弹性”这一问题。对超节点而言，互联技术并不是单纯把链路速率做高，而是在重新定义带宽应该以什么物理介质、什么功耗代价和什么控制面复杂度被组织起来。它真正影响的，不只是第四章各类参考设计在未来 2–3 年里还能否维持当前的成立条件，也包括机架布线、供配电、冷却和维护半径是否还能承接更大的受控域。

光互联与交换技术在这里并不是器件目录，而是沿着“从当前可部署方案到更激进重构方案”的顺序，去看不同路径会先改写什么约束、又会把哪类方案推向更有利或更不利的位置。

光互联技术演进 ¶

互联方案在这里不再按“16 卡 / 64 卡 / 256 卡”的规格目录展开，而是对应三类不同的工程窗口：可直接部署的低门槛路径、可作为过渡的混合路径、以及面向更大规模的重构路径。 同样是光互联，它们首先改写的约束并不相同。

再往器件层收一层，packaging.md 和这里的分工也会更清楚：LPO、NPO、CPO 并不是同一条路上的简单前后代，而是分别对应三种不同的物理组织半径。LPO 先压低可插拔链路的功耗和时延，NPO 先收短前面板长电气走线，CPO 则直面超高速时代 PCB 链路预算和端口密度同时触顶的问题。把这三者统称成“光模块升级”，反而会遮掉它们改写的是不同约束。

可直接部署的低门槛路径 ¶

线性直驱光模块（LPO）¶

线性直驱光模块（Linear-drive Pluggable Optics, LPO）是当前最值得先看的变量之一，因为它改动最小，却最可能先进入部署。其核心不是“光模块换代”本身，而是通过移除传统可插拔光模块中的 DSP/CDR，在尽量保持现有可插拔生态的前提下，先把链路功耗、散热压力和部分短距时延开销压下来。

对超节点而言，LPO 的现实价值主要有三点：

功耗与热设计更友好：去掉 DSP/CDR 后，模块功耗和热负担显著下降，更适合高密度机柜。
成本与部署门槛更低：相较于需要重建封装或交换层的路线，LPO 更容易作为现有系统的平滑升级路径。
协议透明：它不直接绑定特定互联协议，因此更容易被不同加速器和交换体系吸收。

最近的光互联规范整理给出了几个更有分量的量级：在 400G/800G 场景下，去掉模块侧 DSP 后，模块功耗常可从 14-18 W 压到 8 W 以下，系统侧大致可节省 4-8 W/端口；如果只看模块内部，DSP 往往占据接近一半功耗。与此同时，LPO 还能把链路附加时延压到 20 ns 以内，并维持 100m-2km 的短中距传输能力。LPO 之所以更接近当前可直接吸收的变量，也正在于此，而不是因为它代表一条更激进的系统重构路线。

光直连方案 ¶

对当前不少以 8 卡为基本单元的系统而言，最现实的第一步并不是立即引入复杂交换层，而是先用光直连把受控域从 8 卡稳妥扩大到 16 卡。这样做的意义，不只是在规模上翻倍，更在于它能以较低控制面复杂度验证：在本组织的器件、布线、冷却和软件条件下，光互联究竟能否稳定承接更大的局部性边界。

因此，LPO 直连更像一种“低门槛验证路径”：它不是最终形态，却能先把带宽、距离和功耗三个最直接的约束暴露出来。若系统已经明确需要继续把前面板到 ASIC 的长电气走线从 >150 mm 收到 <25 mm，同时又希望保留热插拔和模块替换能力，工程重心就会自然转向 NPO；问题的关键也随之从“是否引入光”转向“把光电边界放在哪里”。

通过 LPO 光模块把传统 8 卡服务器扩成 16 卡超节点，本质上是在不显著增加交换复杂度的前提下，扩大单个受控域的覆盖范围。相比仍把更多通信留给网卡侧路径处理，这种方案更有利于观察 TP、细粒度同步和小域内共享流量在真实系统中的表现。

过渡期的混合路径 ¶

部分电交换光互连方案 ¶

相比光直连，部分电交换光互连代表的是一种更典型的过渡路径：一部分带宽继续留在机内，另一部分带宽被拉到光层和交换层处理。 它的价值在于，不必一次性完成整套拓扑重构，就可以先获得更高的并行策略灵活性。

这种混合路径通常出现在两个条件同时成立时：一是希望把受控域从 16 卡继续向 32/64 卡推大；二是交换芯片端口密度、成本或供应链条件还不足以支撑一次性全交换。它本质上不是终态，而是把“局部高带宽保留”和“更大范围资源调度”分阶段处理。

分布式光交换方案 ¶

当系统继续外推时，真正值得跟踪的变量不再只是“交换机端口够不够”，而是是否要把拓扑可重构性引入到互联层本身。这正是 OCS/dOCS 路线的意义。它们不是单纯替代电交换，而是在试图把“组网形状”也变成可以被调度和重构的对象。

dOCS 光学可插拔模块是一种带有硅光 OCS 的线性可插拔光模块。与中心化 OCS 相比，它更激进的地方不在器件本身，而在于把一部分交换能力继续下沉到端侧，使系统在更大范围内按需重构互连关系。

dOCS 更接近一种“持续观察的前沿变量”：它确实可能改写中心交换层的角色，但真正决定其工程影响的，不只是低功耗和低延迟，还包括控制面复杂度、故障恢复路径和现场运维能力。

电气 SerDes 天花板与宽接口替代路径 ¶

从 LPO/NPO 到 CPO 的演进动力，归根结底来自电气 SerDes 的带宽密度正在逼近物理极限。NVLink 从 1.0 到 5.0，带宽增长超过 11×，但 Lane 数仅从 32 增至 36；增长几乎全部来自单 Lane 速率从 20G 拉到 200G。NVLink 6.0（Rubin）通过双向 SerDes 再翻一倍，但这已是铜介质上可行的最后一次倍增——真正的单向 448G SerDes 仍面临极高的插损和功耗挑战，工程可行性尚不确定。

这一瓶颈可以用带宽密度直接量化。当前 Blackwell 224G SerDes 的封装逃逸带宽密度约 0.4 Tbit/s/mm，已接近有机基板上 flip-chip BGA 凸点密度的物理极限。而一旦光电边界收到封装内部，电气接口不再需要驱动长距离走线，宽并行接口（Wide I/O）就可以替代串行 SerDes：

接口类型	电气距离	带宽密度（单向）	说明
224G LR SerDes（板级）	150–300 mm	~0.4 Tbit/s/mm	当前 NVLink 5.0
UCIe-S（基板级 D2D）	~10 mm	~1.8 Tbit/s/mm	近封装宽接口
UCIe-A（interposer 级 D2D）	<2 mm	~10 Tbit/s/mm	共封装宽接口

UCIe-A 在 reticle 级芯片的单条长边上即可提供约 330 Tbit/s（~41 TB/s）的单向逃逸带宽，双边合计超过 660 Tbit/s——这与 Blackwell 全芯片仅 23.6 Tbit/s 的封装外带宽形成了一个数量级以上的落差¹。当然，UCIe-A 目前只适用于 interposer 上毫米级互联，与板级长距 SerDes 并非同维度比较；但这恰恰说明了 CPO 的系统意义：一旦光引擎被收到封装内部，电气接口不再承担长距驱动，带宽密度的上限就会从 SerDes 速率墙转移到光纤侧的逃逸能力上。这也是 CPO 从 " 器件升级 " 跃升为 " 系统架构变量 " 的根本原因。

面向更大规模的重构路径 ¶

当超节点继续推向 128/256 卡乃至更大规模时，问题的重心会从“能不能把带宽拉出来”转向“是否还愿意继续依赖更多层电交换”。交换层级增加带来的，不只是延迟增加，更是布线、维护、可靠性与系统复杂度的联动上升。

一层全交换光互连方案 ¶

如果交换机端口密度和光模块条件继续改善，一层全交换光互连仍可能是一条现实路径。它的意义不在于“全交换天然更先进”，而在于它能在不引入更复杂拓扑控制面的前提下，把更大的受控域维持在统一交换语义之下。

核心思路是将每个 XPU 的全部带宽通过 LPO 光纤拉出，连接到高端口密度的电交换机，从而解耦传统 8 卡服务器的内部层级化带宽结构。当 XPU 之间不再经过固定的机内交换机而是共享统一的全交换 Fabric 时，节点内外的带宽差异被消除，TP/EP 等并行策略的放置约束也随之放松。这条路径的前提是交换芯片端口密度和光模块功耗 / 成本能够同步到位。

光电混合分布式光交换 ¶

如果高端口密度交换芯片仍然受限，另一条更现实的路径是“有限电交换 + 分布式光交换”的混合重构。它不是理想最优，而是在器件约束下尽量保住规模扩展和灵活性。

其基本组织方式是：机内 8 卡仍通过低端口密度电交换芯片完成全交换，多台 8 卡服务器之间通过 dOCS 模块按需建立光互连，组成 128/256 卡超节点或灵活切分为多个子域。dOCS 在这里承担两个角色：一是跨机互联的带宽通道，二是故障隔离与动态重配的控制抓手——当某台服务器故障时，系统可以绕过故障节点重新编排互连关系，以 8 卡为最小粒度进行替换。

这条路径对国产芯片环境有现实吸引力：它不依赖高端交换芯片，把电交换控制在可获取的器件能力内，同时借助光交换实现更大规模的弹性组网。其工程挑战主要在 dOCS 控制面的成熟度和现场运维可操作性上。

光模块技术演进 ¶

光模块的 30 年演进，本质上由三股力量驱动：更高单通道速率、更高端口密度、更低单位比特功耗。 每一次代际跨越，都伴随着调制格式、封装形态或器件平台的拐点。

代际	典型封装	关键拐点	核心驱动力
1G → 10G	SFP / SFP+	小型化热插拔封装取代焊接式 1×9 和 GBIC	端口密度需求
10G → 100G	QSFP	单通道速率触顶 ~25G，转向 4 通道并行传输	信号完整性瓶颈
100G → 400G	QSFP-DD / OSFP	NRZ → PAM4 调制全面切换；硅光集成开始规模化	Nyquist 带宽极限
400G → 800G	OSFP（8×100G PAM4）	AI 算力集群驱动刚性需求；SR8/DR8/2×FR4 多规格分化	万卡级训练集群互联
800G → 1.6T	OSFP224（8×200G PAM4）	单波 200G 器件成熟；薄膜铌酸锂进入视野	带宽密度与功耗持续压力
1.6T → 3.2T+	待定（单通道 448G）	IEEE E4AI 标准化推进中	下一代算力集群需求

对超节点而言，光模块代际最直接的系统影响有两个：一是 800G → 1.6T 的容量翻倍会直接抬升标准以太和 Dragonfly 方案在单交换层内的可承载规模；二是 LPO 的引入使模块功耗从 ~15 W 降至 ~7–8 W 量级，对高密度机柜的热设计约束有实质性缓解。更重要的是，光模块路线正在从“链路部件升级”逐步变成“整机工程变量”：功耗、散热、线缆密度、维护方式与交换层设计开始被同时牵动。400G 代际的 PAM4 转折则是当前整条链路设计（SerDes、交换芯片、线缆）的技术底座——后续所有代际均建立在 PAM4 调制之上。

光交换设备 ¶

光交换机（OCS）在光纤间直接建立和断开物理连接，实现 N×N 端口的无阻塞交换。其核心优势是协议透明（与信号速率、调制格式无关）和极低功耗（无光电转换，功耗仅为同规模电交换机的十几分之一至百分之一以下）。对超节点而言，OCS 的价值不在于替代电交换，而在于为可重构拓扑提供物理层面的调度抓手。

当前主流的光交换技术路线有四种，各自在端口规模、切换速度和插入损耗上取舍不同：

3D MEMS：通过双轴反射微镜阵列偏转光束实现选路，静电驱动为主。端口规模大（可扩展至千端口）、插损低（~3 dB）、成本较低；切换时间在几十毫秒级别。当前成熟度最高。

数字液晶（DLC）：利用液晶电光效应与晶体光楔级联产生离散角度偏转，通过 L 层组合实现 \( 2^L \) 端口切换。端口规模可达 300×300（理论上限约 512），成本低、驱动电压低（≤10 V），但切换时间较慢（几百毫秒级），且对装调工艺要求高。
直接光束偏转（DLBS）：将光纤准直器固定在压电陶瓷驱动器上直接偏转，光程短、插损最低（~2.5 dB），端口规模可达 576×576；但成本高，大角度对准对驱动精度要求苛刻，规模扩展受限。
硅光 SiP MEMS：基于硅光平台的波导级 MEMS 开关阵列，切换时间在微秒到十几微秒级别，集成度高。主要挑战是端口规模受限（当前 128×128 量级）且插损较高（128×128 规模下 5–7 dB，已超过光模块功率预算）。

技术对比 ¶

技术方案	相对成本	端口数量	切换时间	插入损耗 (dB)	驱动电压 (V)
MEMS	低	320×320（可扩展至千端口）	几十毫秒	~3	≈100
DLC	低	300×300	几百毫秒	~4	≤10
DLBS	高	576×576	几十毫秒	~2.5	≈10
SiP MEMS	中	128×128	十几微秒	＞5	30~50

对参考设计而言，OCS 技术选型的关键权衡是：切换速度决定拓扑重构的响应粒度，端口规模决定可重构域的上限，插入损耗决定链路预算能否闭合。 当前 3D MEMS 在规模和成本上最成熟，SiP MEMS 在切换速度上最具潜力。故障恢复主要依赖硬件冗余（双电源、双控制器、冗余端口），控制平面则需要在全局视图（集中式）和高可靠（分布式）之间取舍。真正决定 OCS 能否从探索走向部署的，不是单个器件指标，而是控制面时延、故障恢复路径和运维可操作性的综合成熟度。

信道介质 ¶

光纤作为互联的物理载体，其类型选择直接影响超节点的密度、距离和时延约束。当前数据中心主要使用四类光纤，各自服务于不同场景：

光纤类型	典型场景	核心优势	关键约束
多模光纤（OM3/OM4，50μm 芯径）	机架内短距（≤150 m）	成本低（VCSEL 光源）、部署成熟	模式色散限制带宽和距离
小直径单模光纤（200μm 涂覆层 + G.657 抗弯）	机柜间中距、骨干布线	密度提升约 50%、气流优化；支持 400G–1.6T	当前数据中心布线主力
空芯光纤（HCF）	跨中心长距、低时延关键链路	时延降低 30%–47%、损耗已突破至 0.05 dB/km（低于传统单模理论极限）	工业化拉丝与熔接技术仍不成熟
多芯光纤	高密度骨干连接（DCI）	空分复用，容量随芯数线性增长	芯间串扰控制

对超节点而言，短距内多模和小直径单模已是成熟基础，无需特别关注。值得跟踪的变量是空芯光纤：若其工业化成熟，会直接改善跨机柜和跨中心场景的时延约束——微软已计划在 Azure 网络中大规模部署（通过收购 Lumenisity 推进），国内运营商也已开展现网试点。多芯光纤则主要解决管道资源紧张场景下的容量倍增问题，对超节点机柜内互联的影响较间接。

先进互联拓扑演进 ¶

互联拓扑的演进与光互联强相关：当铜互联在距离 / 插损 / 功耗 / 维护复杂度上触顶时，系统往往会同时引入“更强的拓扑稀疏化”和“可重构链路（OCS）”来提升有效带宽与鲁棒性。

详细拓扑讨论见：先进互联拓扑演进

新型总线技术演进 ¶

除“介质与交换”外，Scale-Up 体系的另一条主线是“总线语义与编程模型”的演进：统一寻址、原子操作、隔离与可观测能力，决定了上层通信库与系统软件能否把硬件带宽转化为稳定的 Goodput。

详细讨论见：新型总线技术演进

对参考设计的影响 ¶

从第四章的参考设计视角看，互联技术演进并不是独立的技术目录，而是在重新排序不同方案的成立条件。真正被改写的，也不是某条链路本身，而是系统愿意把多少通信留在受控域内、又愿意为此承担多少布线、冷却与控制面复杂度：

对标准构型的影响：LPO、800G/1.6T 模块与更高端口密度交换芯片的成熟，会直接抬升标准以太方案在规模、功耗和布线上的上限。
对 Dragonfly + OCS 的影响：OCS 器件能力、光模块功耗和控制平面成熟度，是其能否从“可行探索”走向“更大规模实用方案”的关键变量。
对 Torus + OCS / dOCS 的影响：如果分布式光交换、快速硅光开关与低功耗可插拔光学继续成熟，低直径可重构拓扑的工程可行性会明显提升；反之则仍主要停留在特定场景或探索性部署。

按产业成熟度看，互联技术内部其实分属不同阶段：LPO、800G 光模块和更高端口密度交换芯片已接近已验证趋势；OCS、dOCS 和更激进的硅光交换方案则更接近工程推断，其工程路径可见，但控制面和规模化运维证据仍不足。后续最需要补强的，是光模块量产功耗数据、OCS 切换时延与故障恢复数据，以及云厂商在真实负载下的部署反馈。

未来 2–3 年里，真正需要看清的是：谁会先改写链路功耗与拓扑弹性这两个主导约束。LPO 属于可直接进入当前部署的变量；OCS/dOCS 属于需要并行验证的变量；更激进的硅光交换仍应保持观察与原型投入。互联技术演进对第四章的意义，也不在于替代参考设计，而在于重写它们的成立条件。

Dylan Patel, Daniel Nishball, Myron Xie, et al. "Co Packaged Optics (CPO) Book – Scaling with Light for the Next Wave of Interconnect." SemiAnalysis, Jan 2026. ↩