跳转至

先进封装技术演进

LPO/CPO/NPO 封装技术

本节承接第五章里“哪些变量会先改写互连的物理距离与代价”这一问题。对超节点而言,封装并不是芯片设计的后处理步骤,而是在重新定义互连距离、带宽密度和单位比特能耗的系统变量。可插拔光模块(如 QSFP-DD)代表了光电分离的现状,而 LPO 是其改良,NPO/CPO 则是朝向光电深度融合的进一步演进,体现了“封装即系统”的思路。它们改变的也不只是器件形态,而是电光转换该放在模组、板级还是封装内完成,以及相应的热设计、维护半径和系统集成方式。

封装技术演进路线

1: 封装技术演进路线图(从可插拔到 CPO

在人工智能大模型训练和推理需求爆炸式增长的背景下,全球数据中心正经历从传统云架构向高性能计算集群(HPC)的深刻转型。随着 GPU 算力指数级提升,网络互联带宽已成为制约系统效率的关键瓶颈。研究数据显示,在缺乏高效互联的情况下,高达 33% GPU 时间可能因等待网络可用性而被浪费。与此同时,端口速率持续向 800G1.6T 演进,传统可插拔光模块正同时触碰“功耗墙”与“信号完整性”上限。也正因为如此,LPO、NPO CPO 的讨论不能停留在器件形态比较,而必须落回第五章的核心判断:它们会先改写哪类约束,又会如何改变第四章参考设计的排序。

光互连形态概览

2: 几种不同的光互连形态示意图

LPO/NPO/CPO 技术定位

三者并非简单的替代关系,而是面向不同场景、不同阶段的技术阶梯。LPO 聚焦对现有可插拔生态的 " 降功耗 " 改良;NPO 作为中间形态,平衡了集成度与可维护性;CPO 则把更多高速电互联压回封装边界之内。它们在集成度、功耗、成本、标准化和可维护性上构成连续光谱,也对应着不同的系统组织半径。

真正需要先分清的是,三条路线并不在同一条演进线上,也不在解决同一个问题。LPONPOCPO 之所以会同时出现,恰恰是因为当前系统面对的约束并不单一:有的压力来自链路功耗,有的来自前面板长电走线带来的信号完整性压力,还有的来自 112G/224G 时代板级链路预算和端口密度同时逼近上限。也因此,它们在工程上对应的是三种不同窗口:

路线 更像在解决什么问题 典型电气半径 / 距离窗口 更直接的收益 更突出的代价
CPO 112G/224G 时代 PCB 链路预算和端口密度开始触顶,如何继续压缩电气距离 封装内到板内;电气链路毫米级,系统侧更偏板内 / 机架内 最低时延、最高带宽密度、链路损耗显著下降 热设计、良率、测试与维护难度最高
NPO 当不愿立即进入共封装,又必须把前面板长电走线收短时,如何取得折中 >150 mm 前面板走线压缩到 <25 mm ASIC 走线;机架内到短距机架间 降低信号完整性压力,同时保留模块化维护 板级机械 / 散热设计和近端布线复杂
LPO 当目标是尽量不改系统形态,先把可插拔链路功耗和时延压下去 保留可插拔形态;更适合机架内外短中距链路 改造门槛最低,功耗和时延立刻改善 更依赖主机侧均衡与链路裕量,标准化仍在推进

同一份规范里给出的场景化判断也很清楚:CPO 更适合机架内极低时延、高带宽密度的 GPU-to-GPU 互联;NPO 更接近 2024-2026 窗口中的过渡路线;LPO 则更适合存量系统升级和机柜间 100m-2km 的短中距光互联。这样看,问题的重点就不再是谁更先进,而是谁先解决当前最痛的约束。

沿着这个脉络继续往下看,三者之间最重要的差别,也就不是“哪一个指标更亮”,而是系统究竟把复杂度、代价和维护责任压在了哪一层:

维度 CPO NPO LPO
主力速率窗口 112G / 224G PAM4 112G / 224G PAM4 56G / 112G PAM4
典型均衡方式 片上 DSP + FEC 轻量 AEC / DSP 主机侧 FFE/CTLE/DFE,模块侧无 DSP
附加链路时延 最低,常见目标 <10 ns 低,常见量级 10-50 ns 低,常见量级 <20 ns
更适合的距离窗口 板内到机架内短距 机架内到短距机架间 机架间到跨机柜短中距
维护方式 最弱,通常不支持热插拔 中等,保留模块化替换能力 最强,维持可插拔形态
更像什么角色 极致性能目标 过渡窗口 现实部署路径

三种路线并不在同一评价轴上竞争。CPO 把问题压回封装和测试体系,NPO 把问题压回板级设计和近端布线,LPO 则把问题压回主机侧均衡和链路管理。

容易被忽略的隐含前提

原规范里还有一类内容,表面上像厂商实现细节,抽出来看其实对应三条非常关键的判断:

  • 复杂度不会消失,只会迁移。 LPO 去掉模块侧 DSP 后,并不是问题消失,而是把均衡和补偿责任转移到主机侧 SerDes、链路训练和系统级裕量管理上。判断这条路线能否落地,不能只看模块功耗下降,还要看主机侧是否有足够均衡能力和长期链路稳定性。
  • 热漂与在线校准会从“实现细节”升级为生产前提。CPO 而言,共封装后的热串扰和温度梯度会显著放大;对 LPO 而言,无 DSP 链路对温漂更敏感。原规范中反复强调的连续自适应、背景校准和温度跟踪,放到白皮书里更适合被表述为:未来光互联路线能否进入生产,不只取决于器件指标,还取决于能否在 7x24 运行中持续维持 BER 与时延稳定。
  • 维护性和可替换性本身就是架构变量。 CPO 的极致性能优势,与热插拔能力弱、测试与故障定位更复杂是同时出现的;NPOLPO 则恰恰因为保留了更强的模块化替换能力,才在过渡期和大规模部署中更有工程吸引力。也就是说,维护半径不是部署后的运维问题,而是路线选择本身的一部分。

线性驱动可插拔光学(LPO)

LPO(Linear-drive Pluggable Optics)的核心是移除传统可插拔光模块中的高功耗数字信号处理器(DSP,代之以模拟的线性驱动器和线性跨阻放大器(TIA。传统 Re-timed 模块中 DSP 负责时钟恢复、色散补偿与信号损伤修复,但在 800G 速率下,DSP 功耗已占模块总功耗近半、成本约占 1/3LPO 通过简化光模块链路,将信号补偿能力转移到交换芯片 ASIC 侧协同处理,在短距传输内实现显著功耗降低。

LPO与传统光模块对比

2: LPO 与传统光模块架构对比

综合来看,LPO 模块在维持可热插拔的条件下可有效降低光互连功耗、成本与时延,能够高度契合 AI 计算中心短距离、大带宽、低功耗、低延时的需求。公开整理数据里,一个更具体的量级判断是:在 400G/800G 场景中,去掉模块侧 DSP 后,模块功耗通常可从 14-18 W 压到 8 W 以下,系统侧可节省 4-8 W/端口;若从整机 BOM 看,800G LPO 的系统总成本也可比传统 DSP 模块方案再降一个小台阶。

主要挑战在于:链路性能依赖于 ASIC 与模块的协同优化,对信道损伤的容忍度降低,可能影响互操作性;传输距离虽然可以覆盖 100 m-2 km 的短中距互联,但功率预算和链路裕量需要更保守地预留;产业也仍需建立统一的线性接口标准。

封装形式

LPO 当前主要采用硅光器件平台,通过激光器分光共享进一步降低 BOM 成本。LPO 主要采用与 DSP 模块相同的封装方案,一般有两种封装形式:

  • 打线(Wire Bonding)封装EIC 与硅光芯片平铺在散热基板上,通过打线方式实现 PCB EIC、再到硅光 PIC 的电互连;
  • 倒装(Flip-chip)封装EIC 通过金球或焊料面对面贴装在硅光芯片上,硅光芯片再通过打线方式或倒贴焊接方式与 PCB 连接。这种封装方式下信号路径经过金线连接次数明显减少,有利于提升信号链路带宽。

LPO封装形式

3: LPO 光模块两种典型的封装形式

LPO 尤其适用于 AI/ML 集群中 GPU/XPU 之间高速、短距的脊叶架构互连,是向更高集成度光电封装过渡前最具商业可行性的 " 立即可用 " 技术。它更接近已验证趋势,并不是因为它在所有维度都最好,而是因为它几乎不要求组织先重建维护体系和封装体系,就能先把链路功耗、部分时延和机柜热密度压力压下去。


近封装光学(NPO)

NPO(Near-packaged Optics)是一种介于传统可插拔光学与全集成 CPO 之间的中间形态。其核心出发点是在解决 " 信号完整性 " 问题的同时,规避 CPO 在封装复杂度、热管理及可靠性方面的风险。NPO 将光引擎从面板处的可插拔插槽移走,放置在交换机 PCB 主板上,并使其紧挨着 ASIC 芯片,通常距离控制在 1 5 厘米范围内。在这种形态下,光引擎通常采用模块化、可插拔或焊接的形式固定在主板上,并通过超短距离的电走线与 ASIC 连接。

NPO技术架构

4: NPO 技术架构图

NPO 在集成度与灵活性间取得了折中:相比可插拔,它提升了带宽密度并降低了功耗;相比 CPO,它降低了封装复杂度和热管理难度,维护更便捷。更具体地说,NPO 最有代表性的工程动作,是把传统前面板可插拔方案中 >150 mm 的长电气走线收短到 <25 mm,从而显著降低插损和 SerDes 均衡压力。公开整理资料还常给出另一个可操作的量级:如果用轻量 AEC DSP 代替全量 DSP/Retimer,功耗通常可再节省 30-40%

挑战在于:板级高速通道设计难度高;光学引擎与 ASIC 之间需要高密度、低损耗的连接器;整体系统的机械与散热设计更为复杂。也正因为如此,NPO 更像是一个“组织可以在现有维护方式之上承接的过渡窗口”,而不是一个天然终态。

封装形式

NPO 模组一般有两种封装方式:

  • MCM(Multi-chip module)2D 封装:电芯片与硅光芯片均贴装在封装基板上,通过封装基板实现电信号的高速互连;
  • Flip-chip 2.5D 封装:与光模块的 2.5D 封装方式类似,可以进一步减小光模组尺寸,有效降低电链路插损。

NPO封装形式

5: NPO 光组件两种典型的封装形式

对于超大规模数据中心而言,NPO 提供了一个可以在较短时间内实现且风险可控的升级路径,无需依赖 TMVTSV 等先进封装工艺,直接在传统光模块厂商进行最后组装。

NPO 适用于对带宽和能效有较高要求,但又需要一定模块化灵活性以适配不同距离或技术迭代的场景,如高端数据中心交换平台、以及特定规模的 AI 训练集群。若结合最近两年的产业窗口看,NPO 最适合被理解为 2024-2026 这一阶段的重要过渡方案,或是在某些对可维护性要求极高场景中的长期选择。


共封装光学(CPO)

CPO(Co-packaged Optics)代表的是一种更激进的短距光互连路线。它打破了电信号在 PCB 上传输的传统范式,将光电转换环节直接移入交换芯片或计算芯片的封装内部,实现了物理层面上光电转换与 ASIC 逻辑芯片的深度集成。

CPO 将多路光学引擎(通常基于硅光技术)与 ASIC 通过先进封装(硅中介层、RDL、微凸块)集成在同一封装内,电信号在封装内部以极短距离互连后直接转换为光信号射出,几乎消除了高速电信号在 PCB 上的传输。系统架构通常由核心电芯片、光引擎模块、硅中介层及外部激光器源(ELS)组成。Broadcom Bailly 平台已在单个封装内集成 8 6.4T 光引擎,构建出 51.2T 总交换容量。

CPO 的系统级收益包括:能效目标低于 5 pJ/bit(数量级提升、单封装带宽密度达数十 Tb/s、减少连接器和 PCB 层数从而本质上解决信号完整性问题。公开对比数据还给出了两个更硬的证据锚点:在传统 >150 mm 板级链路假设下,CPO100G/Lane 时可较可插拔方案节省约 10 dB 单端损耗,在 200G/Lane 时节省约 14 dB;在 51.2T 交换机量级的公开方案比较中,整体系统功耗可从约 2000 W 降到 1350 W,若进一步使用更短电链路方案,还可能继续压到约 1150 W

工程挑战同样严峻:高功耗 ASIC 与温度敏感光学元件紧邻导致散热设计空前复杂;封装后难以单独测试光电部件,良率和故障诊断困难;更关键的是,它天然弱化了热插拔维护能力。也就是说,CPO 的优势越大,往往越意味着组织必须提前接受更重的测试体系、维护体系和供应链协同成本。

封装技术路线

当前 CPO 主流封装技术路线主要有两种 3D 封装技术路线:

FOWLP(Fan-out Wafer-level Packaging)

BroadcomCisco 为代表。EIC 芯片嵌入 molding 材料,通过垂直互连结构 TMV(Through Molding Via)实现 EIC 与倒装 PIC 之间的电互连。优势是工艺相对成熟,挑战在于 EIC 内嵌方式对光引擎散热不友好,且 molding 过程需保护光口以避免耦合性能退化。

CPO FOWLP封装结构

6: 博通公司 6.4T OE 光引擎 FOWLP 封装结构

COUPE(Compact Universal Photonic Engine)

NVIDIATSMC 为代表。与 FOWLP 同为 3D 封装结构,但采用更先进的 TSV(Through Silicon Via)+ Hybrid Bonding 技术:EIC PIC 直接堆叠键合,避免焊球寄生效应,电信号直接穿过 PIC 芯片与 EIC 互连,相比 TMV 方案可显著缩短走线长度、改善链路带宽。光耦合方面支持端面耦合与面耦合(光栅或 90° 反射镜结构)两种方案。

CPO COUPE封装结构

7: TSMC COUPE 光引擎封装方案结构及 Nvidia CPO 光引擎截面

产业进展

CPO 已从概念验证走向更明确的产品化窗口。产业界近两年在高端交换芯片侧持续推进基于 CPO 的交换平台,说明至少在交换芯片这一侧,CPO 已不再只是远期概念,而是开始进入可交付、可验证的工程阶段。不过,这并不意味着 CPO 已经成为通用答案;其在计算芯片侧的大规模落地,仍受制于热管理、良率、测试与维护体系。更符合当前产业状态的判断是:在追求极致带宽密度和极低时延的窗口里,CPO 正在形成越来越强的工程吸引力。

可靠性方面,早期产业数据已经开始松动 "CPO 不可靠 " 的预设。Meta ECOC 2025 上披露了 15 Broadcom Bailly 51.2T CPO 交换机的现场测试结果:累计约 1500 400G 端口 · 设备小时,前 400 万端口 · 设备小时内零不可纠正码字(UCWCPO 链路的平均无故障时间(MTBF)约 260 万设备小时,而同场景可插拔光模块仅约 50100 万设备小时 1。这组数据虽然仍来自实验室级部署(15 台交换机、约 11 个月,尚不足以替代大规模现网验证,但已首次为 CPO 可靠性从 " 焦虑 " 转向 " 可量化比较 " 提供了产业级证据锚点。

从集群经济性角度看,CPO scale-out scale-up 两侧的价值权重并不对称。以 GB300 NVL72 三层 InfiniBand 集群为参照,网络仅占集群总成本的 15–18%,光模块又占网络成本的约 60%;即便 CPO 将光模块功耗压降 65–73%(800G 场景:可插拔模块 1617 W vs CPO 光引擎 + ELS 4–5 W,折算到集群总功耗也仅节省约 2–4%,总成本仅降 3–7%2。但在 scale-up 侧,情况截然不同:NVLink 5.0 GPU 提供 7200 Gbit/s 的单向互联带宽,是 scale-out 网卡侧的 9 倍;铜互联的距离上限(≤2 m)又将 scale-up 受控域锁在 12 个机柜以内。CPO 恰恰能同时突破距离墙和带宽密度墙,使 scale-up 域不再被物理介质天花板约束。这也是为什么主要超大规模厂商的 CPO 投入正在从 scale-out 交换机试水转向 scale-up 互联的长期承诺。

CPO封装架构

8: CPO 封装架构示意图

对参考设计的影响

对第四章的参考设计而言,封装技术演进决定的并不是“是否需要互连”,而是“互连该放在什么物理距离上、以什么功耗与维护代价实现”:

  • 标准以太构型LPO 会先作为最现实的降功耗与平滑升级路径,帮助传统以太交换方案继续向更高带宽演进。
  • Dragonfly + OCSNPO/CPO 的成熟会显著改善组间高带宽链路的能效和端口密度,使其在更大规模下更具吸引力。
  • Torus + OCS / dOCS:如果共封装或近封装光学进一步降低链路能耗与封装外 I/O 压力,可重构低直径拓扑的工程门槛会随之下降。

封装并不是第五章中与第四章平行的独立话题,而是会直接改变第四章各类方案在功耗、密度、维护性和成熟度上的排序。

按产业成熟度看,封装路线已形成清晰分层:LPO 属于已验证趋势CPO 在交换芯片侧正从工程推断向更接近已验证趋势过渡,但在计算芯片侧仍面临更大的热管理与良率挑战;NPO 作为中间形态,工程可行性介于两者之间。后续真正需要产业界补强的,是不同封装形态下的实测功耗密度、热设计边界、可维护性成本以及量产良率与供应链准备度。

封装技术演进的核心意义是重新定义“互连该放在什么物理距离上、以什么代价实现”。LPO 改良的是当前链路功耗,NPO/CPO 改变的是未来 I/O 距离和带宽密度的上限。封装不会独立决定哪种参考设计胜出,但它会持续重写第四章各类方案在功耗、密度、维护性和成熟度上的排序。


  1. Meta. "CPO Reliability Study: Broadcom Bailly 51.2T Switch." Presented at ECOC 2025. 

  2. Dylan Patel, Daniel Nishball, Myron Xie, et al. "Co Packaged Optics (CPO) Book – Scaling with Light for the Next Wave of Interconnect." SemiAnalysis, Jan 2026.