多 Die 堆叠技术（Chiplet 与 UCIe）¶

多 Die 堆叠在超节点中的定位 ¶

本节承接第五章里“哪些变量会先改写单节点能力边界”这一问题。对超节点而言，Chiplet 与多 Die 堆叠并不是单纯的封装工艺升级，而是在重新定义一个节点内部到底能装下多少算力、带宽和近存储能力。单芯片工艺逼近物理极限、良率成本恶化、功耗密度持续上升的背景下，多 Die 堆叠（Multi-Die Stacking）已经从“先进封装选项”逐步走向“高密度算力系统的主路径之一”。它改变的也不只是单颗芯片的实现方式，而是把原本分散在板级、节点级甚至机柜级的一部分约束，重新拉回封装边界内协同解决。

多 Die 堆叠，是指将多颗功能独立、工艺解耦的裸芯片（Die/Chiplet）通过 2.5D 中介层、3D 垂直键合、TSV、微凸点等先进封装手段，在物理空间上高密度集成，形成一个逻辑统一、带宽共享、延迟极低的“超级芯片”或“超级算力模块”。它不是 Chiplet 的子集，而是 Chiplet 得以规模化、高性能化、工程化落地的物理载体与实现基础。第五章之所以把它单独拿出来讨论，正是因为它会直接改变第四章参考设计里“多少压力留在节点内、多少压力被推到节点间”的边界划分。

多 Die 堆叠的核心是把关键互联距离从 " 板级 / 连接器级 " 压缩到 " 封装 / 微互联级 "，从而为更高带宽、更低单位比特能耗、以及更强的系统语义（寻址 / 原子 / 一致性能力）创造条件。这意味着系统优化的重心不再只是“机柜内怎么连得更快”，还包括“哪些通信可以不再离开封装边界”。在工程落地上，需要关注三个核心约束面：

互联与协议：Die-to-Die（D2D）互联决定了堆叠能否规模化复制；UCIe 等标准化分层接口有助于降低跨厂商 / 跨代际集成成本。
供电与散热：堆叠会把热点推入封装内部，PDN 与热路径往往比信号更先成为瓶颈，需要与液冷 / 冷板 / 热扩散结构协同设计。
测试与可靠性：堆叠越深越需要 " 分层测试 + 可追溯遥测 " 闭环（Known-Good-Die、封装前后测试、运行时错误隔离），否则系统级良率与运维成本会反向吞噬带宽收益。

多 Die 堆叠并不是超节点的普通附加优化。对于追求更高算力密度、更高近存储带宽和更低单位比特能耗的路线而言，它已经越来越接近前提条件；只是这种前提能否被真正兑现，仍取决于良率、热管理、测试闭环和接口生态是否同步成熟。

多 Die 堆叠技术基础体系 ¶

多 Die 堆叠可以被理解为后摩尔时代最重要的芯片系统集成范式之一，其本质是把更多原本属于 " 板级系统 " 的约束，前移到 " 封装级系统 " 中解决。

基本概念与分类 ¶

多 Die 堆叠按集成方式可分为两大类：

2.5D 堆叠（中介层架构）

多颗 Die 并排放置在硅中介层（Silicon Interposer）上
通过中介层内的走线实现 Die-to-Die 互联
典型代表：CoWoS、CoS、InFO_LSI

3D 堆叠（垂直键合架构）

Die 之间垂直叠放
依靠 TSV（硅通孔）+ 微凸点 / Cu-Cu 键合直接相连
典型代表：Foveros、3D IC、Hybrid Bonding

技术路线	通俗理解	超节点定位	典型带宽密度	典型延迟
传统单芯片	一颗大 SoC	很难继续承担更高密度超节点主路径	—	—
2.5D 堆叠	芯片 " 并排坐 " 在硅底板上	超节点主力方案	1–5 TB/s/mm²	2–5 ns
3D 堆叠	芯片 " 上下叠 "	下一代超节点核心	10–100 TB/s/mm²	0.5–2 ns
板级 PCIe/CXL	芯片插在主板上	只能做外部扩展	0.01–0.1 TB/s/mm²	50–200 ns

多 Die 堆叠的带宽与时延特性显著优于主板级互联，这也是它会持续抬高节点内解决能力的重要原因。

关键支撑技术 ¶

微凸点（Micro-bump）：间距通常 ≤ 20μm，实现高密度互联。
混合键合（Hybrid Bonding）：Cu-Cu 直接键合，间距 ≤ 10μm，3D 堆叠的核心工艺。
硅通孔 TSV：穿透硅衬底的垂直导电通道，实现 3D 堆叠的上下供电、信号、接地。
硅中介层 Interposer：多颗 Die 的 " 高速布线底板 "，可集成 RDL、去耦电容、供电网络。
重布线层 RDL：实现 Pin 脚重新映射，适配不同 Die 的 I/O 分布。
内插式散热与均热板：解决堆叠带来的热阻塞问题，超节点工程化的关键。

主流多 Die 堆叠封装架构 ¶

图 1：多 Die 堆叠主流技术路线对比——2.5D 与 3D 堆叠的结构差异、核心参数及演进关系

2.5D CoWoS（Chip-on-Wafer-on-Substrate）¶

当前超节点最主流方案。多颗 Chiplet（Compute、HBM、IOD）贴在硅中介层上，中介层再贴在有机基板上，供电从基板穿过中介层给 Die 供电，HBM 可与计算 Die 紧邻放置，获得 TB 级内存带宽。

硅中介层采用高密度布线，凸点间距控制在 5 μm 以下，实现芯粒间的高速互联；单封装内可集成 8–16 颗芯粒，互联带宽达到 10–16 TB/s，延迟 <5 ns。该技术兼容性强，可集成不同尺寸、不同工艺的芯粒，成本相对 3D 封装较低，适配超节点的规模化部署需求。

超节点价值：

单封装可集成 8~16 颗芯粒
支持 HBM2e/HBM3/HBM3e
良率高、可靠性高、可量产
是今天 AI 超节点的标准底座

2.5D CoS（Chip-on-Substrate）¶

简化版 2.5D，省去硅中介层，直接在有机基板上集成，成本更低，适合规模化自主可控超节点。

3D Foveros / 3D IC¶

下一代超节点核心架构。计算 Die、内存 Die、IOD Die 垂直堆叠，互联距离从毫米 → 微米 → 纳米，带宽密度提升一个数量级，延迟可降至 1 ns 以内。

该技术采用 Cu-Cu 键合工艺，凸点间距控制在 2 μm 以下，单封装内可集成 16–32 颗芯粒，互联带宽达到 20 TB/s 以上，延迟 <3 ns。优势是互联密度高、延迟低、功耗低，适配超高算力超节点需求；缺点是成本高、工艺复杂，良率相对较低，主要用于高端 AI 训练超节点。

超节点价值：

真正实现 " 算力叠算力、内存叠内存 "
单机柜算力密度进一步提升

混合堆叠：2.5D + 3D 融合架构 ¶

未来 3 年超节点主流形态，底层用 3D 堆叠提升密度，顶层用 2.5D 扩展 HBM 与 IOD，兼顾密度、带宽、良率、成本。

工程实证：NVIDIA NV-HBI 与 Blackwell 双 Die 封装 ¶

上述技术路线在 2024 年已获得最高规模的工程验证。NVIDIA Blackwell B200 GPU 由两颗 Die 通过 NV-HBI（NVLink High Bandwidth Interface）以 10 TB/s 带宽互联，封装在同一基板上，对软件呈现为一颗逻辑统一的 GPU。这一设计是对光罩极限（858 mm²）的直接工程突破：

参数	B200 双 Die 封装	参考对比（H100 单 Die）
Die 数量	2 颗（NV-HBI 互联）	1 颗
总晶体管数	2080 亿	800 亿
D2D 互联带宽	10 TB/s	不适用
D2D 互联延迟	< 5 ns	不适用
对软件呈现	单一 GPU（统一地址空间）	单一 GPU
FP4 Tensor Core 算力	40 PFLOPS（含稀疏）	不适用（无 FP4）
HBM 容量	192 GB HBM3e	80 GB HBM3

NV-HBI 的工程意义不仅在于 " 做到了双 Die"，更在于验证了三个对 Chiplet 路线至关重要的假设：

软件透明性可达：10 TB/s 的 D2D 带宽使两颗 Die 之间的通信开销低于 HBM 访问延迟，因此 CUDA 编程模型无需任何修改即可跨 Die 运行。这证明当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时，多 Die 封装可以做到对应用层完全透明。
封装级互联可规模化：NV-HBI 并非实验室验证，而是在 NVL72（72 卡机柜）中大规模量产部署。每个 NVL72 系统包含 36 颗 B200 GPU（即 72 颗 Die），D2D 互联与 NVLink 5.0 芯片间互联无缝衔接，验证了封装内互联与封装间互联的协同设计可行性。
训练与推理的非对称增益：Blackwell 相比 Hopper 实现了训练 4× 和推理 30× 的代际增长。推理端 30 倍的超额增长主要来自 FP4 Tensor Core 与第二代 Transformer Engine 的联合作用——这说明多 Die 封装释放的面积空间可以用于放置更多专用计算单元（如 FP4 Tensor Core、解压引擎），从而在特定场景下获得远超 " 面积线性增长 " 的性能收益。

NV-HBI 的成功为 UCIe 等开放标准的 D2D 互联方案提供了明确的工程目标：10 TB/s 带宽和 < 5 ns 延迟是 " 逻辑单芯片化 " 的工程门槛。达到或接近这一水平，是开放 Chiplet 生态实现与封闭方案同等竞争力的必要条件。

多 Die 堆叠的主要价值 ¶

提升算力密度上限 ¶

当单机柜目标继续上探时，单芯片路线越来越难独立承担算力密度需求。多 Die 堆叠允许把更多算力聚合到同一封装或模块内，而不必把所有压力都继续推给板级和机柜级互联。

缓解带宽墙 ¶

对很多训练和推理场景而言，瓶颈更早落在带宽而不是峰值算力。多 Die 堆叠并不能“彻底消除”带宽墙，但它可以把一部分原本必须跨板、跨节点解决的带宽压力重新压回封装内处理。

功能解耦与异构融合 ¶

多 Die 堆叠将互联功能解耦为独立芯粒（IOD），使计算芯粒聚焦算力输出，互联效率随之提升。同时允许按需组合不同类型芯粒（NPU/GPU、CPU/FPGA），形成定制化异构算力模块，适配训练、推理、科学计算等不同场景。

工艺分治，降低成本与良率风险 ¶

不同功能采用最佳工艺——计算 Die 用 3nm/5nm，IOD/ 互联 Die 用 12nm/14nm，管理 Die 用 28nm。小尺寸芯粒良率远高于单片大 SoC，降低量产成本与风险。

封装级互联能效提升 ¶

板级信号传输能耗在 pJ/bit 级，封装级 D2D 互联可进一步下降。对高密度超节点而言，多 Die 堆叠很可能成为达成系统能效目标的关键路径之一，但是否“唯一”，仍取决于互联、液冷和软件协同能力是否同步提升。

标准化线性扩展 ¶

超节点需要从百卡 → 千卡 → 万卡平滑扩展。多 Die 堆叠 + UCIe 的标准化接口使“即插即用”扩展成为可能：通过增加芯粒模块实现算力线性提升，无需重新设计整个系统。更重要的是，它让系统扩展不再完全依赖外部互联一味放大，而是先提高单节点内部可承载的能力密度，再决定哪些压力必须外推。

Chiplet 在超节点中的场景与用途 ¶

Chiplet（芯粒）在超节点中的核心用途，是通过功能解耦、工艺分治和异构集成，缓解单芯片路线在性能、成本和良率上的压力。对很多高密度算力路线而言，Chiplet 已不再只是可选形态，而是在工程上越来越现实的组织方式。

核心应用场景 ¶

Chiplet 在超节点中的应用场景高度聚焦于高端算力需求，核心覆盖两大类场景：

万亿参数级 AI 大模型训练场景

超节点最核心的应用场景，核心需求是超高算力密度（单机柜 ≥1 EFLOPS）、超大带宽（单机柜 ≥50 TB/s）、超低延迟（端到端 <10 μs），以及全局内存共享能力。Chiplet 通过模块化聚合计算芯粒、存储芯粒，实现算力与带宽的精准匹配。多 Die 堆叠使计算 Die 与 HBM3e 紧耦合，单封装内存带宽 ≥3–8 TB/s，多 Die 之间通过 Raw Mode 低延迟通信，All-to-All 集体通信效率显著提升。

E 级科学计算场景

E 级超算适配流体力学、量子计算、气象预测、航空航天仿真等复杂场景，核心需求是高精度计算（FP64）、高可靠性（99.999% 以上）、低延迟互联。Chiplet 通过 CPU 与 FPGA 异构堆叠集成，TSV + Hybrid Bonding 保证信号完整性，双冗余 Die 热备，全链路 ECC 与错误隔离，优化互联效率与可靠性。

系统意义 ¶

Chiplet 在超节点中的意义，可以从三个层面理解：

技术层面：Chiplet 是突破单芯片性能极限的重要路径之一。模块化聚合与异构融合能力，会直接影响超节点对不同负载的适配方式。
工程层面：Chiplet 能否真正产生优势，取决于良率、热设计、测试与封装协同是否成熟，而不只是理论带宽是否足够高。
产业层面：在自主可控场景中，Chiplet 确实可能成为高端算力追赶的重要抓手，但它能发挥多大作用，仍取决于先进封装、接口生态与系统集成能力能否同步跟上。

Chiplet 与 UCIe 核心技术解析 ¶

Chiplet 与 UCIe 的技术融合，是超节点统一互连体系构建的核心。

Chiplet 核心技术 ¶

Chiplet 的核心技术围绕 " 模块化设计、先进封装、芯粒互联 " 三大环节展开。

技术框架 ¶

Chiplet 的技术框架分为三层：

芯粒设计层：功能解耦与标准化设计，将超节点的算力、存储、互联、管理功能拆解为独立芯粒。每个芯粒聚焦单一功能，采用模块化设计，芯粒接口采用标准化设计（如 UCIe），确保不同厂商、不同工艺的芯粒能够无缝对接。
封装集成层：先进封装技术负责将多颗芯粒集成为一个完整的封装模块。超节点中主要采用 2.5D/3D 先进封装技术，核心技术包括硅中介层（Interposer）、凸点（Bump）制造、芯粒对齐、热管理等。
互联适配层：芯粒间的高速互联技术，超节点中主要采用 UCIe 标准互联，核心技术包括链路训练、信号完整性优化、流量控制等。

超节点常用 Chiplet 类型 ¶

Chiplet 类型	核心功能	工艺选择	超节点应用场景	核心指标参考
计算芯粒（Compute Die）	核心算力输出，承担 AI 训练、科学计算等核心任务	3nm/5nm/7nm 先进工艺	AI 大模型训练、E 级科学计算	算力：128–256 TFLOPS（FP16），UCIe 带宽：2 TB/s
互联芯粒（IOD）	芯粒间、封装间、节点间高速互联，负责数据交换	12nm/14nm 成熟工艺	所有超节点场景，核心互联载体	双向带宽：4–6 TB/s，延迟：<5 ns
存储芯粒（Memory Die）	内存扩展与共享，提供高带宽存储访问	8nm/10nm 工艺	AI 大模型训练、科学计算	容量：16–32 GB，带宽：2.0–3.2 TB/s
管理芯粒（Management Die）	电源管理、故障监控、时序控制、安全管控	28nm 成熟工艺	所有超节点场景，保障系统稳定	可靠性：99.999%，响应时间：<10 ms
加速芯粒（Accelerator Die）	专用计算加速（如 FPGA/TPU），提升特定任务效率	7nm/12nm 工艺	科学计算、特定 AI 任务加速	算力：128 TFLOPS，延迟：<4 ns

UCIe 核心定位 ¶

UCIe（Universal Chiplet Interconnect Express）是面向 Chiplet 裸片间互联的开放工业标准，核心价值是实现跨厂商、跨工艺、跨架构的 D2D 互通。协议分三层：物理层（PHY）定义电气特性与链路训练，适配层（Adapter）负责流控、纠错与多协议复用（通过 FDI 承载 PCIe/CXL，通过 RDI 承载流式协议），协议层承载 PCIe、CXL 或 Raw Mode（跳过 Flit 封装直传数据流）等上层业务。

UCIe 版本	发布时间	单通道速率	x64 链路双向带宽	核心特性
1.0	2022	32 GT/s	1 TB/s	基础 D2D 互联，PCIe 5.0 / CXL 2.0
2.0	2023	48 GT/s	1.5 TB/s	CXL 3.0，能效优化
3.0	2024	64 GT/s	2 TB/s	Raw Mode，CXL 4.0，低延迟
4.0（研发中）	2026	128 GT/s	4 TB/s	3D IC 封装适配

对超节点而言，UCIe 的工程意义在于：当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时（NV-HBI 已验证此门槛），封装内多 Die 可以对软件呈现为统一设备。UCIe 的开放标准化使这条路径不必绑定单一供应商，但当前跨厂商互通性、版本兼容性和测试认证仍是生态成熟的主要瓶颈。

超节点四层统一互连架构 ¶

Chiplet 的模块化优势与 UCIe 的标准化优势相结合，构建了超节点从芯粒内到节点间的四层统一互连架构。

技术融合核心逻辑 ¶

Chiplet 与 UCIe 的技术融合，本质是 " 模块化异构集成 " 与 " 标准化互联 " 的协同：

功能解耦与接口标准化协同：Chiplet 将超节点功能拆解为计算、存储、互联、管理等独立芯粒，每个芯粒均采用 UCIe 标准接口，打破生态封闭。
性能匹配协同：UCIe 3.0 的低延迟（<5 ns）、高带宽（2 TB/s）特性，与 Chiplet 的模块化聚合需求精准匹配。
扩展能力协同：Chiplet 的模块化扩展与 UCIe 的标准化接口相结合，超节点可通过增加芯粒模块实现线性扩展。

四层架构详解 ¶

图 2：多 Die 堆叠在超节点中的四层统一部署架构——各层级的核心组件、互联方式及延迟特性

超节点四层统一互连架构示意图 — 图 3：基于 Chiplet + UCIe 的超节点四层统一互连架构

Level 1：芯粒内 NoC 互连（核间通信层）¶

最底层，负责单颗 Chiplet 内部计算核、缓存、接口的互联。核心组件是计算芯粒内部的 NoC（Network on Chip）交换机，采用 Mesh 拓扑实现计算核间全互联。

延迟：1–2 ns
带宽取决于计算芯粒规格与核数，通常在数百 GB/s 量级

NoC 交换机通过内部接口与 Chiplet 的 UCIe 物理层对接，将计算核产生的数据传输至 UCIe 链路，实现芯粒内与芯粒间的通信衔接。

Level 2：封装内 UCIe D2D 互连（芯粒间通信层）¶

核心层级，负责同一封装内多颗 Chiplet（计算、存储、互联、管理）的高速互联，是超节点实现算力聚合的关键。核心组件是互联芯粒（IOD）与 UCIe 链路，采用星型 + Mesh 混合拓扑。

延迟：<5 ns
采用 2.5D CoWoS / 3D Foveros 封装，凸点间距 ≤5 μm
互联芯粒集成多组 UCIe PHY 与交换单元，实现无阻塞交换
通过 UCIe 边带通道实现各芯粒的管理与监控

Level 3：板内 UCIe Bridge 互连（封装间通信层）¶

负责超节点主板上多个 Chiplet 封装间的互联，形成板级全域交换 fabric，是超节点规模化扩展的基础。核心组件是 UCIe 桥接芯片，采用 Mesh 拓扑。

延迟：5–10 ns
UCIe 桥接芯片集成多组 PHY 与交换矩阵，负责封装间全域交换
主板采用高密度布线，链路阻抗需严格控制

Level 4：节点间光互联层（超节点间通信层）¶

负责多个超节点间的高速互联，实现万卡级集群扩展。核心组件是 UCIe 光模块与光交换机，将 UCIe 协议直接映射到光信号。

延迟：数十 ns 量级（取决于距离与交换层级）
采用 CPO（共封装光学）技术，将光引擎与互联芯粒共封装
结合 UCIe Raw Mode 进一步降低传输延迟
具体可承载的节点规模取决于光交换端口密度与拓扑设计

多 Die 堆叠与 Chiplet、UCIe、CPO 的协同关系 ¶

图 4：多 Die 堆叠与 Chiplet、UCIe、CPO 的协同架构——四者组合构成完整超节点技术路线

多 Die 堆叠、Chiplet、UCIe 与 CPO 四者在超节点架构中各司其职、协同互补：

技术角色	定位	核心贡献
多 Die 堆叠	物理载体	提供密度——将多颗 Die 在物理空间上高密度集成
Chiplet	功能单元	提供模块化——功能解耦、工艺分治、异构组合
UCIe	互联语言	提供互通——标准化 D2D 接口，跨厂商 / 跨代际兼容
CPO	对外出口	提供扩展——光电融合封装，实现节点间高带宽低延迟通信

四者组合就是完整的超节点技术路线：堆叠提供密度、Chiplet 提供模块化、UCIe 提供互通、CPO 提供扩展。这一统一技术路线使超节点从 " 集群即单板、单板即芯片 " 的愿景走向工程现实。

工程化挑战与解决方案 ¶

尽管 Chiplet + 多 Die 堆叠在超节点中已实现多场景落地，但规模化部署中仍面临严峻的工程化挑战。

热阻塞与热点集中 ¶

最致命的工程约束

堆叠后热量无法有效散出，局部温度可超 120℃。计算芯粒功耗密度达 100 W/cm²，高密度部署进一步加剧散热压力。

解决方案：

热仿真驱动的 Die 布局优化
内插式均热板与热缓冲层
微流道液冷 / 直面液冷（散热效率提升 3 倍）
功耗动态均衡算法与热感知任务调度
冷热通道分离，管理芯粒动态调节功耗
DVFS 技术降低空闲功耗

TSV/ 微凸点可靠性 ¶

垂直互联的机械应力

垂直互联点多、机械应力大，不同芯粒 CTE（热膨胀系数）差异导致封装应力，易引发芯粒开裂或接触失效。

解决方案：

低应力 TSV 结构设计
CTE 匹配材料与柔性基板
冗余互联设计（10%–15% 冗余 Lane + 芯粒冗余）
老化筛选与在线监测
Cu pillar 凸点设计，对齐误差控制在 ±0.3 μm

供电电压降（IR Drop）¶

多 Die 共用电网的电流极限

多 Die 共用供电网络，电流极大，压降导致供电不稳，影响信号完整性与计算精度。

解决方案：

嵌入式去耦电容
中介层内嵌供电层
分区独立供电
动态电压调节

测试与良率 ¶

多 Die 串联的良率挑战

多 Die 串联封装，一颗坏则全模块废。先进封装成本高、产能有限。

解决方案：

预测试 Known-Good-Die（KGD）流程
冗余 Die / 冗余 Lane 设计
分级修复策略
内建自测试（BIST）
混合封装策略——核心芯粒用 3D Foveros，辅助芯粒用 2.5D CoWoS，平衡性能与成本

信号完整性 ¶

高密度链路的串扰风险

高密度 UCIe 链路（数百条 / 封装）串扰严重（噪声 ≥20%），高速传输信号衰减明显，PVT 变化导致信号漂移。

解决方案：

差分布线（间距 ≥2 倍线宽）+ 链路间接地屏蔽，串扰噪声降至 5% 以下
自适应均衡（FFE/DFE）+ CDR 时钟恢复，误码率控制在 \( 10^{-15} \) 以内
每 10 ms 动态重校准，补偿 PVT 漂移

跨厂商生态协同与标准落地 ¶

生态碎片化

不同厂商 UCIe 协议实现差异大，跨厂商芯粒互通性不足；UCIe 版本不兼容；Chiplet 测试标准不统一；软件生态不完善。

解决方案：

联合厂商制定 UCIe 协议实现规范，建立兼容性测试平台
芯粒接口支持版本自适应，固件在线升级
制定 Chiplet 测试标准与认证制度，建立统一测试平台
联合软件厂商开发 Chiplet 调度、监控软件，适配现有应用生态

国产化现状与差距 ¶

国产多 Die 堆叠已具备一定基础：2.5D CoWoS 类封装可量产，TSV / 微凸点 / RDL 技术已突破，国产中介层与基板逐步替代，KGD 测试平台基本建成。

主要差距集中在：3D 混合键合工艺（Cu-Cu 键合间距与良率）、超高密度凸点制造、高端封装材料、以及全流程良率的稳定提升。

从时间轴看：2.5D 规模化部署已在进行中；3D Foveros / Hybrid Bonding 预计 2026–2027 进入工程验证与小批量应用；3D + CPO + UCIe 一体化集成预计 2028 年后逐步推进。

对参考设计的影响 ¶

从第四章的参考设计视角看，Chiplet 与多 Die 堆叠的意义在于重写“一个节点 / 一个封装到底能装下多少算力与带宽”这个前提：

对标准构型的影响：更成熟的 2.5D/3D 集成会先提升标准以太和标准总线方案的单节点能力，使它们在不改变大框架的情况下获得更高密度与更强显存带宽。
对探索构型的影响：当封装内与板内互联能力显著增强时，Dragonfly + OCS、Torus + OCS 这类方案可以把更多系统压力留在节点内或机柜内，从而改变组间拓扑的最优边界。
对方案排序的影响：如果 Chiplet + UCIe + 光互联协同成熟，第四章中的一些探索构型会从“依赖外部交换重构”更多转向“封装内高密 + 节点间轻量重构”的新平衡。

Chiplet 与多 Die 堆叠总体仍属于工程推断：方向已非常明确，量产节奏也已开启，但真正决定其成为主导变量的，是良率、测试闭环、热管理与跨厂商接口治理能否同步成熟。后续需要补强的关键产业证据，包括 2.5D/3D 封装的实测良率与成本曲线、UCIe 生态的兼容性进展，以及系统集成商对封装内高密互联的部署反馈。

也就是说，Chiplet 与多 Die 堆叠对第五章的价值，不在于把更多技术名词塞进封装章节，而在于重写一个更根本的问题：一个节点内部到底能装下多少算力、带宽和内存语义能力。 一旦这个前提被改写，第四章中很多原本必须通过机柜级互联解决的问题，就会重新回到封装内或节点内。未来 2–3 年里，Chiplet 真正会影响的，不只是单位节点的峰值能力，而是参考设计之间“节点内解决多少、节点间解决多少”的边界划分，以及由此带来的互联、散热与运维压力分配。