多 Die 堆叠技术(Chiplet 与 UCIe)¶
多 Die 堆叠在超节点中的定位 ¶
本节承接第五章里“哪些变量会先改写单节点能力边界”这一问题。对超节点而言,Chiplet 与多 Die 堆叠并不是单纯的封装工艺升级,而是在重新定义一个节点内部到底能装下多少算力、带宽和近存储能力。单芯片工艺逼近物理极限、良率成本恶化、功耗密度持续上升的背景下,多 Die 堆叠(Multi-Die Stacking)已经从“先进封装选项”逐步走向“高密度算力系统的主路径之一”。它改变的也不只是单颗芯片的实现方式,而是把原本分散在板级、节点级甚至机柜级的一部分约束,重新拉回封装边界内协同解决。
多 Die 堆叠,是指将多颗功能独立、工艺解耦的裸芯片(Die/Chiplet)通过 2.5D 中介层、3D 垂直键合、TSV、微凸点等先进封装手段,在物理空间上高密度集成,形成一个逻辑统一、带宽共享、延迟极低的“超级芯片”或“超级算力模块”。它不是 Chiplet 的子集,而是 Chiplet 得以规模化、高性能化、工程化落地的物理载体与实现基础。第五章之所以把它单独拿出来讨论,正是因为它会直接改变第四章参考设计里“多少压力留在节点内、多少压力被推到节点间”的边界划分。
多 Die 堆叠的核心是把关键互联距离从 " 板级 / 连接器级 " 压缩到 " 封装 / 微互联级 ",从而为更高带宽、更低单位比特能耗、以及更强的系统语义(寻址 / 原子 / 一致性能力)创造条件。这意味着系统优化的重心不再只是“机柜内怎么连得更快”,还包括“哪些通信可以不再离开封装边界”。在工程落地上,需要关注三个核心约束面:
- 互联与协议:Die-to-Die(D2D)互联决定了堆叠能否规模化复制;UCIe 等标准化分层接口有助于降低跨厂商 / 跨代际集成成本。
- 供电与散热:堆叠会把热点推入封装内部,PDN 与热路径往往比信号更先成为瓶颈,需要与液冷 / 冷板 / 热扩散结构协同设计。
- 测试与可靠性:堆叠越深越需要 " 分层测试 + 可追溯遥测 " 闭环(Known-Good-Die、封装前后测试、运行时错误隔离
) ,否则系统级良率与运维成本会反向吞噬带宽收益。
多 Die 堆叠并不是超节点的普通附加优化。对于追求更高算力密度、更高近存储带宽和更低单位比特能耗的路线而言,它已经越来越接近前提条件;只是这种前提能否被真正兑现,仍取决于良率、热管理、测试闭环和接口生态是否同步成熟。
多 Die 堆叠技术基础体系 ¶
多 Die 堆叠可以被理解为后摩尔时代最重要的芯片系统集成范式之一,其本质是把更多原本属于 " 板级系统 " 的约束,前移到 " 封装级系统 " 中解决。
基本概念与分类 ¶
多 Die 堆叠按集成方式可分为两大类:
2.5D 堆叠(中介层架构)
- 多颗 Die 并排放置在硅中介层(Silicon Interposer)上
- 通过中介层内的走线实现 Die-to-Die 互联
- 典型代表:CoWoS、CoS、InFO_LSI
3D 堆叠(垂直键合架构)
- Die 之间垂直叠放
- 依靠 TSV(硅通孔)+ 微凸点 / Cu-Cu 键合直接相连
- 典型代表:Foveros、3D IC、Hybrid Bonding
| 技术路线 | 通俗理解 | 超节点定位 | 典型带宽密度 | 典型延迟 |
|---|---|---|---|---|
| 传统单芯片 | 一颗大 SoC | 很难继续承担更高密度超节点主路径 | — | — |
| 2.5D 堆叠 | 芯片 " 并排坐 " 在硅底板上 | 超节点主力方案 | 1–5 TB/s/mm² | 2–5 ns |
| 3D 堆叠 | 芯片 " 上下叠 " | 下一代超节点核心 | 10–100 TB/s/mm² | 0.5–2 ns |
| 板级 PCIe/CXL | 芯片插在主板上 | 只能做外部扩展 | 0.01–0.1 TB/s/mm² | 50–200 ns |
多 Die 堆叠的带宽与时延特性显著优于主板级互联,这也是它会持续抬高节点内解决能力的重要原因。
关键支撑技术 ¶
- 微凸点(Micro-bump):间距通常 ≤ 20μm,实现高密度互联。
- 混合键合(Hybrid Bonding):Cu-Cu 直接键合,间距 ≤ 10μm,3D 堆叠的核心工艺。
- 硅通孔 TSV:穿透硅衬底的垂直导电通道,实现 3D 堆叠的上下供电、信号、接地。
- 硅中介层 Interposer:多颗 Die 的 " 高速布线底板 ",可集成 RDL、去耦电容、供电网络。
- 重布线层 RDL:实现 Pin 脚重新映射,适配不同 Die 的 I/O 分布。
- 内插式散热与均热板:解决堆叠带来的热阻塞问题,超节点工程化的关键。
主流多 Die 堆叠封装架构 ¶

图 1:多 Die 堆叠主流技术路线对比——2.5D 与 3D 堆叠的结构差异、核心参数及演进关系
2.5D CoWoS(Chip-on-Wafer-on-Substrate)¶
当前超节点最主流方案。多颗 Chiplet(Compute、HBM、IOD)贴在硅中介层上,中介层再贴在有机基板上,供电从基板穿过中介层给 Die 供电,HBM 可与计算 Die 紧邻放置,获得 TB 级内存带宽。
硅中介层采用高密度布线,凸点间距控制在 5 μm 以下,实现芯粒间的高速互联;单封装内可集成 8–16 颗芯粒,互联带宽达到 10–16 TB/s,延迟 <5 ns。该技术兼容性强,可集成不同尺寸、不同工艺的芯粒,成本相对 3D 封装较低,适配超节点的规模化部署需求。
超节点价值:
- 单封装可集成 8~16 颗芯粒
- 支持 HBM2e/HBM3/HBM3e
- 良率高、可靠性高、可量产
- 是今天 AI 超节点的标准底座
2.5D CoS(Chip-on-Substrate)¶
简化版 2.5D,省去硅中介层,直接在有机基板上集成,成本更低,适合规模化自主可控超节点。
3D Foveros / 3D IC¶
下一代超节点核心架构。计算 Die、内存 Die、IOD Die 垂直堆叠,互联距离从毫米 → 微米 → 纳米,带宽密度提升一个数量级,延迟可降至 1 ns 以内。
该技术采用 Cu-Cu 键合工艺,凸点间距控制在 2 μm 以下,单封装内可集成 16–32 颗芯粒,互联带宽达到 20 TB/s 以上,延迟 <3 ns。优势是互联密度高、延迟低、功耗低,适配超高算力超节点需求;缺点是成本高、工艺复杂,良率相对较低,主要用于高端 AI 训练超节点。
超节点价值:
- 真正实现 " 算力叠算力、内存叠内存 "
- 单机柜算力密度进一步提升
混合堆叠:2.5D + 3D 融合架构 ¶
未来 3 年超节点主流形态,底层用 3D 堆叠提升密度,顶层用 2.5D 扩展 HBM 与 IOD,兼顾密度、带宽、良率、成本。
工程实证:NVIDIA NV-HBI 与 Blackwell 双 Die 封装 ¶
上述技术路线在 2024 年已获得最高规模的工程验证。NVIDIA Blackwell B200 GPU 由两颗 Die 通过 NV-HBI(NVLink High Bandwidth Interface)以 10 TB/s 带宽互联,封装在同一基板上,对软件呈现为一颗逻辑统一的 GPU。这一设计是对光罩极限(858 mm²)的直接工程突破:
| 参数 | B200 双 Die 封装 | 参考对比(H100 单 Die) |
|---|---|---|
| Die 数量 | 2 颗(NV-HBI 互联) | 1 颗 |
| 总晶体管数 | 2080 亿 | 800 亿 |
| D2D 互联带宽 | 10 TB/s | 不适用 |
| D2D 互联延迟 | < 5 ns | 不适用 |
| 对软件呈现 | 单一 GPU(统一地址空间) | 单一 GPU |
| FP4 Tensor Core 算力 | 40 PFLOPS(含稀疏) | 不适用(无 FP4) |
| HBM 容量 | 192 GB HBM3e | 80 GB HBM3 |
NV-HBI 的工程意义不仅在于 " 做到了双 Die",更在于验证了三个对 Chiplet 路线至关重要的假设:
- 软件透明性可达:10 TB/s 的 D2D 带宽使两颗 Die 之间的通信开销低于 HBM 访问延迟,因此 CUDA 编程模型无需任何修改即可跨 Die 运行。这证明当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时,多 Die 封装可以做到对应用层完全透明。
- 封装级互联可规模化:NV-HBI 并非实验室验证,而是在 NVL72(72 卡机柜)中大规模量产部署。每个 NVL72 系统包含 36 颗 B200 GPU(即 72 颗 Die
) ,D2D 互联与 NVLink 5.0 芯片间互联无缝衔接,验证了封装内互联与封装间互联的协同设计可行性。 - 训练与推理的非对称增益:Blackwell 相比 Hopper 实现了训练 4× 和推理 30× 的代际增长。推理端 30 倍的超额增长主要来自 FP4 Tensor Core 与第二代 Transformer Engine 的联合作用——这说明多 Die 封装释放的面积空间可以用于放置更多专用计算单元(如 FP4 Tensor Core、解压引擎
) ,从而在特定场景下获得远超 " 面积线性增长 " 的性能收益。
NV-HBI 的成功为 UCIe 等开放标准的 D2D 互联方案提供了明确的工程目标:10 TB/s 带宽和 < 5 ns 延迟是 " 逻辑单芯片化 " 的工程门槛。达到或接近这一水平,是开放 Chiplet 生态实现与封闭方案同等竞争力的必要条件。
多 Die 堆叠的主要价值 ¶
提升算力密度上限 ¶
当单机柜目标继续上探时,单芯片路线越来越难独立承担算力密度需求。多 Die 堆叠允许把更多算力聚合到同一封装或模块内,而不必把所有压力都继续推给板级和机柜级互联。
缓解带宽墙 ¶
对很多训练和推理场景而言,瓶颈更早落在带宽而不是峰值算力。多 Die 堆叠并不能“彻底消除”带宽墙,但它可以把一部分原本必须跨板、跨节点解决的带宽压力重新压回封装内处理。
功能解耦与异构融合 ¶
多 Die 堆叠将互联功能解耦为独立芯粒(IOD
工艺分治,降低成本与良率风险 ¶
不同功能采用最佳工艺——计算 Die 用 3nm/5nm,IOD/ 互联 Die 用 12nm/14nm,管理 Die 用 28nm。小尺寸芯粒良率远高于单片大 SoC,降低量产成本与风险。
封装级互联能效提升 ¶
板级信号传输能耗在 pJ/bit 级,封装级 D2D 互联可进一步下降。对高密度超节点而言,多 Die 堆叠很可能成为达成系统能效目标的关键路径之一,但是否“唯一”,仍取决于互联、液冷和软件协同能力是否同步提升。
标准化线性扩展 ¶
超节点需要从百卡 → 千卡 → 万卡平滑扩展。多 Die 堆叠 + UCIe 的标准化接口使“即插即用”扩展成为可能:通过增加芯粒模块实现算力线性提升,无需重新设计整个系统。更重要的是,它让系统扩展不再完全依赖外部互联一味放大,而是先提高单节点内部可承载的能力密度,再决定哪些压力必须外推。
Chiplet 在超节点中的场景与用途 ¶
Chiplet(芯粒)在超节点中的核心用途,是通过功能解耦、工艺分治和异构集成,缓解单芯片路线在性能、成本和良率上的压力。对很多高密度算力路线而言,Chiplet 已不再只是可选形态,而是在工程上越来越现实的组织方式。
核心应用场景 ¶
Chiplet 在超节点中的应用场景高度聚焦于高端算力需求,核心覆盖两大类场景:
万亿参数级 AI 大模型训练场景
超节点最核心的应用场景,核心需求是超高算力密度(单机柜 ≥1 EFLOPS
E 级科学计算场景
E 级超算适配流体力学、量子计算、气象预测、航空航天仿真等复杂场景,核心需求是高精度计算(FP64
系统意义 ¶
Chiplet 在超节点中的意义,可以从三个层面理解:
-
技术层面:Chiplet 是突破单芯片性能极限的重要路径之一。模块化聚合与异构融合能力,会直接影响超节点对不同负载的适配方式。
-
工程层面:Chiplet 能否真正产生优势,取决于良率、热设计、测试与封装协同是否成熟,而不只是理论带宽是否足够高。
-
产业层面:在自主可控场景中,Chiplet 确实可能成为高端算力追赶的重要抓手,但它能发挥多大作用,仍取决于先进封装、接口生态与系统集成能力能否同步跟上。
Chiplet 与 UCIe 核心技术解析 ¶
Chiplet 与 UCIe 的技术融合,是超节点统一互连体系构建的核心。
Chiplet 核心技术 ¶
Chiplet 的核心技术围绕 " 模块化设计、先进封装、芯粒互联 " 三大环节展开。
技术框架 ¶
Chiplet 的技术框架分为三层:
-
芯粒设计层:功能解耦与标准化设计,将超节点的算力、存储、互联、管理功能拆解为独立芯粒。每个芯粒聚焦单一功能,采用模块化设计,芯粒接口采用标准化设计(如 UCIe
) ,确保不同厂商、不同工艺的芯粒能够无缝对接。 -
封装集成层:先进封装技术负责将多颗芯粒集成为一个完整的封装模块。超节点中主要采用 2.5D/3D 先进封装技术,核心技术包括硅中介层(Interposer
) 、凸点(Bump)制造、芯粒对齐、热管理等。 -
互联适配层:芯粒间的高速互联技术,超节点中主要采用 UCIe 标准互联,核心技术包括链路训练、信号完整性优化、流量控制等。
超节点常用 Chiplet 类型 ¶
| Chiplet 类型 | 核心功能 | 工艺选择 | 超节点应用场景 | 核心指标参考 |
|---|---|---|---|---|
| 计算芯粒(Compute Die) | 核心算力输出,承担 AI 训练、科学计算等核心任务 | 3nm/5nm/7nm 先进工艺 | AI 大模型训练、E 级科学计算 | 算力:128–256 TFLOPS(FP16 |
| 互联芯粒(IOD) | 芯粒间、封装间、节点间高速互联,负责数据交换 | 12nm/14nm 成熟工艺 | 所有超节点场景,核心互联载体 | 双向带宽:4–6 TB/s,延迟:<5 ns |
| 存储芯粒(Memory Die) | 内存扩展与共享,提供高带宽存储访问 | 8nm/10nm 工艺 | AI 大模型训练、科学计算 | 容量:16–32 GB,带宽:2.0–3.2 TB/s |
| 管理芯粒(Management Die) | 电源管理、故障监控、时序控制、安全管控 | 28nm 成熟工艺 | 所有超节点场景,保障系统稳定 | 可靠性:99.999%,响应时间:<10 ms |
| 加速芯粒(Accelerator Die) | 专用计算加速(如 FPGA/TPU |
7nm/12nm 工艺 | 科学计算、特定 AI 任务加速 | 算力:128 TFLOPS,延迟:<4 ns |
UCIe 核心定位 ¶
UCIe(Universal Chiplet Interconnect Express)是面向 Chiplet 裸片间互联的开放工业标准,核心价值是实现跨厂商、跨工艺、跨架构的 D2D 互通。协议分三层:物理层(PHY)定义电气特性与链路训练,适配层(Adapter)负责流控、纠错与多协议复用(通过 FDI 承载 PCIe/CXL,通过 RDI 承载流式协议
| UCIe 版本 | 发布时间 | 单通道速率 | x64 链路双向带宽 | 核心特性 |
|---|---|---|---|---|
| 1.0 | 2022 | 32 GT/s | 1 TB/s | 基础 D2D 互联,PCIe 5.0 / CXL 2.0 |
| 2.0 | 2023 | 48 GT/s | 1.5 TB/s | CXL 3.0,能效优化 |
| 3.0 | 2024 | 64 GT/s | 2 TB/s | Raw Mode,CXL 4.0,低延迟 |
| 4.0(研发中) | 2026 | 128 GT/s | 4 TB/s | 3D IC 封装适配 |
对超节点而言,UCIe 的工程意义在于:当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时(NV-HBI 已验证此门槛
超节点四层统一互连架构 ¶
Chiplet 的模块化优势与 UCIe 的标准化优势相结合,构建了超节点从芯粒内到节点间的四层统一互连架构。
技术融合核心逻辑 ¶
Chiplet 与 UCIe 的技术融合,本质是 " 模块化异构集成 " 与 " 标准化互联 " 的协同:
-
功能解耦与接口标准化协同:Chiplet 将超节点功能拆解为计算、存储、互联、管理等独立芯粒,每个芯粒均采用 UCIe 标准接口,打破生态封闭。
-
性能匹配协同:UCIe 3.0 的低延迟(<5 ns
) 、高带宽(2 TB/s)特性,与 Chiplet 的模块化聚合需求精准匹配。 -
扩展能力协同:Chiplet 的模块化扩展与 UCIe 的标准化接口相结合,超节点可通过增加芯粒模块实现线性扩展。
四层架构详解 ¶

图 2:多 Die 堆叠在超节点中的四层统一部署架构——各层级的核心组件、互联方式及延迟特性

图 3:基于 Chiplet + UCIe 的超节点四层统一互连架构
Level 1:芯粒内 NoC 互连(核间通信层)¶
最底层,负责单颗 Chiplet 内部计算核、缓存、接口的互联。核心组件是计算芯粒内部的 NoC(Network on Chip)交换机,采用 Mesh 拓扑实现计算核间全互联。
- 延迟:1–2 ns
- 带宽取决于计算芯粒规格与核数,通常在数百 GB/s 量级
NoC 交换机通过内部接口与 Chiplet 的 UCIe 物理层对接,将计算核产生的数据传输至 UCIe 链路,实现芯粒内与芯粒间的通信衔接。
Level 2:封装内 UCIe D2D 互连(芯粒间通信层)¶
核心层级,负责同一封装内多颗 Chiplet(计算、存储、互联、管理)的高速互联,是超节点实现算力聚合的关键。核心组件是互联芯粒(IOD)与 UCIe 链路,采用星型 + Mesh 混合拓扑。
- 延迟:<5 ns
- 采用 2.5D CoWoS / 3D Foveros 封装,凸点间距 ≤5 μm
- 互联芯粒集成多组 UCIe PHY 与交换单元,实现无阻塞交换
- 通过 UCIe 边带通道实现各芯粒的管理与监控
Level 3:板内 UCIe Bridge 互连(封装间通信层)¶
负责超节点主板上多个 Chiplet 封装间的互联,形成板级全域交换 fabric,是超节点规模化扩展的基础。核心组件是 UCIe 桥接芯片,采用 Mesh 拓扑。
- 延迟:5–10 ns
- UCIe 桥接芯片集成多组 PHY 与交换矩阵,负责封装间全域交换
- 主板采用高密度布线,链路阻抗需严格控制
Level 4:节点间光互联层(超节点间通信层)¶
负责多个超节点间的高速互联,实现万卡级集群扩展。核心组件是 UCIe 光模块与光交换机,将 UCIe 协议直接映射到光信号。
- 延迟:数十 ns 量级(取决于距离与交换层级)
- 采用 CPO(共封装光学)技术,将光引擎与互联芯粒共封装
- 结合 UCIe Raw Mode 进一步降低传输延迟
- 具体可承载的节点规模取决于光交换端口密度与拓扑设计
多 Die 堆叠与 Chiplet、UCIe、CPO 的协同关系 ¶

图 4:多 Die 堆叠与 Chiplet、UCIe、CPO 的协同架构——四者组合构成完整超节点技术路线
多 Die 堆叠、Chiplet、UCIe 与 CPO 四者在超节点架构中各司其职、协同互补:
| 技术角色 | 定位 | 核心贡献 |
|---|---|---|
| 多 Die 堆叠 | 物理载体 | 提供密度——将多颗 Die 在物理空间上高密度集成 |
| Chiplet | 功能单元 | 提供模块化——功能解耦、工艺分治、异构组合 |
| UCIe | 互联语言 | 提供互通——标准化 D2D 接口,跨厂商 / 跨代际兼容 |
| CPO | 对外出口 | 提供扩展——光电融合封装,实现节点间高带宽低延迟通信 |
四者组合就是完整的超节点技术路线:堆叠提供密度、Chiplet 提供模块化、UCIe 提供互通、CPO 提供扩展。这一统一技术路线使超节点从 " 集群即单板、单板即芯片 " 的愿景走向工程现实。
工程化挑战与解决方案 ¶
尽管 Chiplet + 多 Die 堆叠在超节点中已实现多场景落地,但规模化部署中仍面临严峻的工程化挑战。
热阻塞与热点集中 ¶
最致命的工程约束
堆叠后热量无法有效散出,局部温度可超 120℃。计算芯粒功耗密度达 100 W/cm²,高密度部署进一步加剧散热压力。
解决方案:
- 热仿真驱动的 Die 布局优化
- 内插式均热板与热缓冲层
- 微流道液冷 / 直面液冷(散热效率提升 3 倍)
- 功耗动态均衡算法与热感知任务调度
- 冷热通道分离,管理芯粒动态调节功耗
- DVFS 技术降低空闲功耗
TSV/ 微凸点可靠性 ¶
垂直互联的机械应力
垂直互联点多、机械应力大,不同芯粒 CTE(热膨胀系数)差异导致封装应力,易引发芯粒开裂或接触失效。
解决方案:
- 低应力 TSV 结构设计
- CTE 匹配材料与柔性基板
- 冗余互联设计(10%–15% 冗余 Lane + 芯粒冗余)
- 老化筛选与在线监测
- Cu pillar 凸点设计,对齐误差控制在 ±0.3 μm
供电电压降(IR Drop)¶
多 Die 共用电网的电流极限
多 Die 共用供电网络,电流极大,压降导致供电不稳,影响信号完整性与计算精度。
解决方案:
- 嵌入式去耦电容
- 中介层内嵌供电层
- 分区独立供电
- 动态电压调节
测试与良率 ¶
多 Die 串联的良率挑战
多 Die 串联封装,一颗坏则全模块废。先进封装成本高、产能有限。
解决方案:
- 预测试 Known-Good-Die(KGD)流程
- 冗余 Die / 冗余 Lane 设计
- 分级修复策略
- 内建自测试(BIST)
- 混合封装策略——核心芯粒用 3D Foveros,辅助芯粒用 2.5D CoWoS,平衡性能与成本
信号完整性 ¶
高密度链路的串扰风险
高密度 UCIe 链路(数百条 / 封装)串扰严重(噪声 ≥20%
解决方案:
- 差分布线(间距 ≥2 倍线宽)+ 链路间接地屏蔽,串扰噪声降至 5% 以下
- 自适应均衡(FFE/DFE)+ CDR 时钟恢复,误码率控制在 \( 10^{-15} \) 以内
- 每 10 ms 动态重校准,补偿 PVT 漂移
跨厂商生态协同与标准落地 ¶
生态碎片化
不同厂商 UCIe 协议实现差异大,跨厂商芯粒互通性不足;UCIe 版本不兼容;Chiplet 测试标准不统一;软件生态不完善。
解决方案:
- 联合厂商制定 UCIe 协议实现规范,建立兼容性测试平台
- 芯粒接口支持版本自适应,固件在线升级
- 制定 Chiplet 测试标准与认证制度,建立统一测试平台
- 联合软件厂商开发 Chiplet 调度、监控软件,适配现有应用生态
国产化现状与差距 ¶
国产多 Die 堆叠已具备一定基础:2.5D CoWoS 类封装可量产,TSV / 微凸点 / RDL 技术已突破,国产中介层与基板逐步替代,KGD 测试平台基本建成。
主要差距集中在:3D 混合键合工艺(Cu-Cu 键合间距与良率
从时间轴看:2.5D 规模化部署已在进行中;3D Foveros / Hybrid Bonding 预计 2026–2027 进入工程验证与小批量应用;3D + CPO + UCIe 一体化集成预计 2028 年后逐步推进。
对参考设计的影响 ¶
从第四章的参考设计视角看,Chiplet 与多 Die 堆叠的意义在于重写“一个节点 / 一个封装到底能装下多少算力与带宽”这个前提:
- 对标准构型的影响:更成熟的 2.5D/3D 集成会先提升标准以太和标准总线方案的单节点能力,使它们在不改变大框架的情况下获得更高密度与更强显存带宽。
- 对探索构型的影响:当封装内与板内互联能力显著增强时,Dragonfly + OCS、Torus + OCS 这类方案可以把更多系统压力留在节点内或机柜内,从而改变组间拓扑的最优边界。
- 对方案排序的影响:如果 Chiplet + UCIe + 光互联协同成熟,第四章中的一些探索构型会从“依赖外部交换重构”更多转向“封装内高密 + 节点间轻量重构”的新平衡。
Chiplet 与多 Die 堆叠总体仍属于工程推断:方向已非常明确,量产节奏也已开启,但真正决定其成为主导变量的,是良率、测试闭环、热管理与跨厂商接口治理能否同步成熟。后续需要补强的关键产业证据,包括 2.5D/3D 封装的实测良率与成本曲线、UCIe 生态的兼容性进展,以及系统集成商对封装内高密互联的部署反馈。
也就是说,Chiplet 与多 Die 堆叠对第五章的价值,不在于把更多技术名词塞进封装章节,而在于重写一个更根本的问题:一个节点内部到底能装下多少算力、带宽和内存语义能力。 一旦这个前提被改写,第四章中很多原本必须通过机柜级互联解决的问题,就会重新回到封装内或节点内。未来 2–3 年里,Chiplet 真正会影响的,不只是单位节点的峰值能力,而是参考设计之间“节点内解决多少、节点间解决多少”的边界划分,以及由此带来的互联、散热与运维压力分配。