先进封装技术演进 ¶

LPO/CPO/NPO 封装技术 ¶

本节承接第五章里“哪些变量会先改写互连的物理距离与代价”这一问题。对超节点而言，封装并不是芯片设计的后处理步骤，而是在重新定义互连距离、带宽密度和单位比特能耗的系统变量。可插拔光模块（如 QSFP-DD）代表了光电分离的现状，而 LPO 是其改良，NPO/CPO 则是朝向光电深度融合的进一步演进，体现了“封装即系统”的思路。它们改变的也不只是器件形态，而是电光转换该放在模组、板级还是封装内完成，以及相应的热设计、维护半径和系统集成方式。

在人工智能大模型训练和推理需求爆炸式增长的背景下，全球数据中心正经历从传统云架构向高性能计算集群（HPC）的深刻转型。随着 GPU 算力指数级提升，网络互联带宽已成为制约系统效率的关键瓶颈。研究数据显示，在缺乏高效互联的情况下，高达 33% 的 GPU 时间可能因等待网络可用性而被浪费。与此同时，端口速率持续向 800G、1.6T 演进，传统可插拔光模块正同时触碰“功耗墙”与“信号完整性”上限。也正因为如此，LPO、NPO 和 CPO 的讨论不能停留在器件形态比较，而必须落回第五章的核心判断：它们会先改写哪类约束，又会如何改变第四章参考设计的排序。

LPO/NPO/CPO 技术定位 ¶

三者并非简单的替代关系，而是面向不同场景、不同阶段的技术阶梯。LPO 聚焦对现有可插拔生态的 " 降功耗 " 改良；NPO 作为中间形态，平衡了集成度与可维护性；CPO 则把更多高速电互联压回封装边界之内。它们在集成度、功耗、成本、标准化和可维护性上构成连续光谱，也对应着不同的系统组织半径。

真正需要先分清的是，三条路线并不在同一条演进线上，也不在解决同一个问题。LPO、NPO、CPO 之所以会同时出现，恰恰是因为当前系统面对的约束并不单一：有的压力来自链路功耗，有的来自前面板长电走线带来的信号完整性压力，还有的来自 112G/224G 时代板级链路预算和端口密度同时逼近上限。也因此，它们在工程上对应的是三种不同窗口：

路线	更像在解决什么问题	典型电气半径 / 距离窗口	更直接的收益	更突出的代价
`CPO`	当 `112G/224G` 时代 PCB 链路预算和端口密度开始触顶，如何继续压缩电气距离	封装内到板内；电气链路毫米级，系统侧更偏板内 / 机架内	最低时延、最高带宽密度、链路损耗显著下降	热设计、良率、测试与维护难度最高
`NPO`	当不愿立即进入共封装，又必须把前面板长电走线收短时，如何取得折中	`>150 mm` 前面板走线压缩到 `<25 mm` 近 ASIC 走线；机架内到短距机架间	降低信号完整性压力，同时保留模块化维护	板级机械 / 散热设计和近端布线复杂
`LPO`	当目标是尽量不改系统形态，先把可插拔链路功耗和时延压下去	保留可插拔形态；更适合机架内外短中距链路	改造门槛最低，功耗和时延立刻改善	更依赖主机侧均衡与链路裕量，标准化仍在推进

同一份规范里给出的场景化判断也很清楚：CPO 更适合机架内极低时延、高带宽密度的 GPU-to-GPU 互联；NPO 更接近 2024-2026 窗口中的过渡路线；LPO 则更适合存量系统升级和机柜间 100m-2km 的短中距光互联。这样看，问题的重点就不再是谁更先进，而是谁先解决当前最痛的约束。

沿着这个脉络继续往下看，三者之间最重要的差别，也就不是“哪一个指标更亮”，而是系统究竟把复杂度、代价和维护责任压在了哪一层：

维度	`CPO`	`NPO`	`LPO`
主力速率窗口	`112G / 224G PAM4`	`112G / 224G PAM4`	`56G / 112G PAM4`
典型均衡方式	片上 `DSP + FEC`	轻量 `AEC / DSP`	主机侧 `FFE/CTLE/DFE`，模块侧无 `DSP`
附加链路时延	最低，常见目标 `<10 ns`	低，常见量级 `10-50 ns`	低，常见量级 `<20 ns`
更适合的距离窗口	板内到机架内短距	机架内到短距机架间	机架间到跨机柜短中距
维护方式	最弱，通常不支持热插拔	中等，保留模块化替换能力	最强，维持可插拔形态
更像什么角色	极致性能目标	过渡窗口	现实部署路径

三种路线并不在同一评价轴上竞争。CPO 把问题压回封装和测试体系，NPO 把问题压回板级设计和近端布线，LPO 则把问题压回主机侧均衡和链路管理。

容易被忽略的隐含前提 ¶

原规范里还有一类内容，表面上像厂商实现细节，抽出来看其实对应三条非常关键的判断：

复杂度不会消失，只会迁移。 LPO 去掉模块侧 DSP 后，并不是问题消失，而是把均衡和补偿责任转移到主机侧 SerDes、链路训练和系统级裕量管理上。判断这条路线能否落地，不能只看模块功耗下降，还要看主机侧是否有足够均衡能力和长期链路稳定性。
热漂与在线校准会从“实现细节”升级为生产前提。 对 CPO 而言，共封装后的热串扰和温度梯度会显著放大；对 LPO 而言，无 DSP 链路对温漂更敏感。原规范中反复强调的连续自适应、背景校准和温度跟踪，放到白皮书里更适合被表述为：未来光互联路线能否进入生产，不只取决于器件指标，还取决于能否在 7x24 运行中持续维持 BER 与时延稳定。
维护性和可替换性本身就是架构变量。 CPO 的极致性能优势，与热插拔能力弱、测试与故障定位更复杂是同时出现的；NPO 和 LPO 则恰恰因为保留了更强的模块化替换能力，才在过渡期和大规模部署中更有工程吸引力。也就是说，维护半径不是部署后的运维问题，而是路线选择本身的一部分。

线性驱动可插拔光学（LPO）¶

LPO（Linear-drive Pluggable Optics）的核心是移除传统可插拔光模块中的高功耗数字信号处理器（DSP），代之以模拟的线性驱动器和线性跨阻放大器（TIA）。传统 Re-timed 模块中 DSP 负责时钟恢复、色散补偿与信号损伤修复，但在 800G 速率下，DSP 功耗已占模块总功耗近半、成本约占 1/3。LPO 通过简化光模块链路，将信号补偿能力转移到交换芯片 ASIC 侧协同处理，在短距传输内实现显著功耗降低。

综合来看，LPO 模块在维持可热插拔的条件下可有效降低光互连功耗、成本与时延，能够高度契合 AI 计算中心短距离、大带宽、低功耗、低延时的需求。公开整理数据里，一个更具体的量级判断是：在 400G/800G 场景中，去掉模块侧 DSP 后，模块功耗通常可从 14-18 W 压到 8 W 以下，系统侧可节省 4-8 W/端口；若从整机 BOM 看，800G LPO 的系统总成本也可比传统 DSP 模块方案再降一个小台阶。

主要挑战在于：链路性能依赖于 ASIC 与模块的协同优化，对信道损伤的容忍度降低，可能影响互操作性；传输距离虽然可以覆盖 100 m-2 km 的短中距互联，但功率预算和链路裕量需要更保守地预留；产业也仍需建立统一的线性接口标准。

封装形式 ¶

LPO 当前主要采用硅光器件平台，通过激光器分光共享进一步降低 BOM 成本。LPO 主要采用与 DSP 模块相同的封装方案，一般有两种封装形式：

打线（Wire Bonding）封装：EIC 与硅光芯片平铺在散热基板上，通过打线方式实现 PCB 到 EIC、再到硅光 PIC 的电互连；
倒装（Flip-chip）封装：EIC 通过金球或焊料面对面贴装在硅光芯片上，硅光芯片再通过打线方式或倒贴焊接方式与 PCB 连接。这种封装方式下信号路径经过金线连接次数明显减少，有利于提升信号链路带宽。

LPO 尤其适用于 AI/ML 集群中 GPU/XPU 之间高速、短距的脊叶架构互连，是向更高集成度光电封装过渡前最具商业可行性的 " 立即可用 " 技术。它更接近已验证趋势，并不是因为它在所有维度都最好，而是因为它几乎不要求组织先重建维护体系和封装体系，就能先把链路功耗、部分时延和机柜热密度压力压下去。

近封装光学（NPO）¶

NPO（Near-packaged Optics）是一种介于传统可插拔光学与全集成 CPO 之间的中间形态。其核心出发点是在解决 " 信号完整性 " 问题的同时，规避 CPO 在封装复杂度、热管理及可靠性方面的风险。NPO 将光引擎从面板处的可插拔插槽移走，放置在交换机 PCB 主板上，并使其紧挨着 ASIC 芯片，通常距离控制在 1 至 5 厘米范围内。在这种形态下，光引擎通常采用模块化、可插拔或焊接的形式固定在主板上，并通过超短距离的电走线与 ASIC 连接。

NPO 在集成度与灵活性间取得了折中：相比可插拔，它提升了带宽密度并降低了功耗；相比 CPO，它降低了封装复杂度和热管理难度，维护更便捷。更具体地说，NPO 最有代表性的工程动作，是把传统前面板可插拔方案中 >150 mm 的长电气走线收短到 <25 mm，从而显著降低插损和 SerDes 均衡压力。公开整理资料还常给出另一个可操作的量级：如果用轻量 AEC DSP 代替全量 DSP/Retimer，功耗通常可再节省 30-40%。

挑战在于：板级高速通道设计难度高；光学引擎与 ASIC 之间需要高密度、低损耗的连接器；整体系统的机械与散热设计更为复杂。也正因为如此，NPO 更像是一个“组织可以在现有维护方式之上承接的过渡窗口”，而不是一个天然终态。

封装形式 ¶

NPO 模组一般有两种封装方式：

MCM（Multi-chip module）2D 封装：电芯片与硅光芯片均贴装在封装基板上，通过封装基板实现电信号的高速互连；
Flip-chip 2.5D 封装：与光模块的 2.5D 封装方式类似，可以进一步减小光模组尺寸，有效降低电链路插损。

对于超大规模数据中心而言，NPO 提供了一个可以在较短时间内实现且风险可控的升级路径，无需依赖 TMV、TSV 等先进封装工艺，直接在传统光模块厂商进行最后组装。

NPO 适用于对带宽和能效有较高要求，但又需要一定模块化灵活性以适配不同距离或技术迭代的场景，如高端数据中心交换平台、以及特定规模的 AI 训练集群。若结合最近两年的产业窗口看，NPO 最适合被理解为 2024-2026 这一阶段的重要过渡方案，或是在某些对可维护性要求极高场景中的长期选择。

共封装光学（CPO）¶

CPO（Co-packaged Optics）代表的是一种更激进的短距光互连路线。它打破了电信号在 PCB 上传输的传统范式，将光电转换环节直接移入交换芯片或计算芯片的封装内部，实现了物理层面上光电转换与 ASIC 逻辑芯片的深度集成。

CPO 将多路光学引擎（通常基于硅光技术）与 ASIC 通过先进封装（硅中介层、RDL、微凸块）集成在同一封装内，电信号在封装内部以极短距离互连后直接转换为光信号射出，几乎消除了高速电信号在 PCB 上的传输。系统架构通常由核心电芯片、光引擎模块、硅中介层及外部激光器源（ELS）组成。Broadcom 的 Bailly 平台已在单个封装内集成 8 个 6.4T 光引擎，构建出 51.2T 总交换容量。

CPO 的系统级收益包括：能效目标低于 5 pJ/bit（数量级提升）、单封装带宽密度达数十 Tb/s、减少连接器和 PCB 层数从而本质上解决信号完整性问题。公开对比数据还给出了两个更硬的证据锚点：在传统 >150 mm 板级链路假设下，CPO 在 100G/Lane 时可较可插拔方案节省约 10 dB 单端损耗，在 200G/Lane 时节省约 14 dB；在 51.2T 交换机量级的公开方案比较中，整体系统功耗可从约 2000 W 降到 1350 W，若进一步使用更短电链路方案，还可能继续压到约 1150 W。

工程挑战同样严峻：高功耗 ASIC 与温度敏感光学元件紧邻导致散热设计空前复杂；封装后难以单独测试光电部件，良率和故障诊断困难；更关键的是，它天然弱化了热插拔维护能力。也就是说，CPO 的优势越大，往往越意味着组织必须提前接受更重的测试体系、维护体系和供应链协同成本。

封装技术路线 ¶

当前 CPO 主流封装技术路线主要有两种 3D 封装技术路线：

FOWLP（Fan-out Wafer-level Packaging）¶

以 Broadcom、Cisco 为代表。EIC 芯片嵌入 molding 材料，通过垂直互连结构 TMV（Through Molding Via）实现 EIC 与倒装 PIC 之间的电互连。优势是工艺相对成熟，挑战在于 EIC 内嵌方式对光引擎散热不友好，且 molding 过程需保护光口以避免耦合性能退化。

CPO FOWLP封装结构 — 图 6: 博通公司 6.4T OE 光引擎 FOWLP 封装结构

COUPE（Compact Universal Photonic Engine）¶

以 NVIDIA、TSMC 为代表。与 FOWLP 同为 3D 封装结构，但采用更先进的 TSV（Through Silicon Via）+ Hybrid Bonding 技术：EIC 与 PIC 直接堆叠键合，避免焊球寄生效应，电信号直接穿过 PIC 芯片与 EIC 互连，相比 TMV 方案可显著缩短走线长度、改善链路带宽。光耦合方面支持端面耦合与面耦合（光栅或 90° 反射镜结构）两种方案。

CPO COUPE封装结构 — 图 7: TSMC 的 COUPE 光引擎封装方案结构及 Nvidia CPO 光引擎截面

产业进展 ¶

CPO 已从概念验证走向更明确的产品化窗口。产业界近两年在高端交换芯片侧持续推进基于 CPO 的交换平台，说明至少在交换芯片这一侧，CPO 已不再只是远期概念，而是开始进入可交付、可验证的工程阶段。不过，这并不意味着 CPO 已经成为通用答案；其在计算芯片侧的大规模落地，仍受制于热管理、良率、测试与维护体系。更符合当前产业状态的判断是：在追求极致带宽密度和极低时延的窗口里，CPO 正在形成越来越强的工程吸引力。

可靠性方面，早期产业数据已经开始松动 "CPO 不可靠 " 的预设。Meta 在 ECOC 2025 上披露了 15 台 Broadcom Bailly 51.2T CPO 交换机的现场测试结果：累计约 1500 万 400G 端口 · 设备小时，前 400 万端口 · 设备小时内零不可纠正码字（UCW）；CPO 链路的平均无故障时间（MTBF）约 260 万设备小时，而同场景可插拔光模块仅约 50–100 万设备小时¹。这组数据虽然仍来自实验室级部署（15 台交换机、约 11 个月），尚不足以替代大规模现网验证，但已首次为 CPO 可靠性从 " 焦虑 " 转向 " 可量化比较 " 提供了产业级证据锚点。

从集群经济性角度看，CPO 在 scale-out 与 scale-up 两侧的价值权重并不对称。以 GB300 NVL72 三层 InfiniBand 集群为参照，网络仅占集群总成本的 15–18%，光模块又占网络成本的约 60%；即便 CPO 将光模块功耗压降 65–73%（800G 场景：可插拔模块 16–17 W vs CPO 光引擎 + ELS 约 4–5 W），折算到集群总功耗也仅节省约 2–4%，总成本仅降 3–7%²。但在 scale-up 侧，情况截然不同：NVLink 5.0 每 GPU 提供 7200 Gbit/s 的单向互联带宽，是 scale-out 网卡侧的 9 倍；铜互联的距离上限（≤2 m）又将 scale-up 受控域锁在 1–2 个机柜以内。CPO 恰恰能同时突破距离墙和带宽密度墙，使 scale-up 域不再被物理介质天花板约束。这也是为什么主要超大规模厂商的 CPO 投入正在从 scale-out 交换机试水转向 scale-up 互联的长期承诺。

对参考设计的影响 ¶

对第四章的参考设计而言，封装技术演进决定的并不是“是否需要互连”，而是“互连该放在什么物理距离上、以什么功耗与维护代价实现”：

标准以太构型：LPO 会先作为最现实的降功耗与平滑升级路径，帮助传统以太交换方案继续向更高带宽演进。
Dragonfly + OCS：NPO/CPO 的成熟会显著改善组间高带宽链路的能效和端口密度，使其在更大规模下更具吸引力。
Torus + OCS / dOCS：如果共封装或近封装光学进一步降低链路能耗与封装外 I/O 压力，可重构低直径拓扑的工程门槛会随之下降。

封装并不是第五章中与第四章平行的独立话题，而是会直接改变第四章各类方案在功耗、密度、维护性和成熟度上的排序。

按产业成熟度看，封装路线已形成清晰分层：LPO 属于已验证趋势；CPO 在交换芯片侧正从工程推断向更接近已验证趋势过渡，但在计算芯片侧仍面临更大的热管理与良率挑战；NPO 作为中间形态，工程可行性介于两者之间。后续真正需要产业界补强的，是不同封装形态下的实测功耗密度、热设计边界、可维护性成本以及量产良率与供应链准备度。

封装技术演进的核心意义是重新定义“互连该放在什么物理距离上、以什么代价实现”。LPO 改良的是当前链路功耗，NPO/CPO 改变的是未来 I/O 距离和带宽密度的上限。封装不会独立决定哪种参考设计胜出，但它会持续重写第四章各类方案在功耗、密度、维护性和成熟度上的排序。

Meta. "CPO Reliability Study: Broadcom Bailly 51.2T Switch." Presented at ECOC 2025. ↩
Dylan Patel, Daniel Nishball, Myron Xie, et al. "Co Packaged Optics (CPO) Book – Scaling with Light for the Next Wave of Interconnect." SemiAnalysis, Jan 2026. ↩