跳转至

Die 堆叠技术(Chiplet UCIe

Die 堆叠在超节点中的定位

本节承接第五章里“哪些变量会先改写单节点能力边界”这一问题。对超节点而言,Chiplet 与多 Die 堆叠并不是单纯的封装工艺升级,而是在重新定义一个节点内部到底能装下多少算力、带宽和近存储能力。单芯片工艺逼近物理极限、良率成本恶化、功耗密度持续上升的背景下,多 Die 堆叠(Multi-Die Stacking)已经从“先进封装选项”逐步走向“高密度算力系统的主路径之一”。它改变的也不只是单颗芯片的实现方式,而是把原本分散在板级、节点级甚至机柜级的一部分约束,重新拉回封装边界内协同解决。

Die 堆叠,是指将多颗功能独立、工艺解耦的裸芯片(Die/Chiplet)通过 2.5D 中介层、3D 垂直键合、TSV、微凸点等先进封装手段,在物理空间上高密度集成,形成一个逻辑统一、带宽共享、延迟极低的“超级芯片”或“超级算力模块”。它不是 Chiplet 的子集,而是 Chiplet 得以规模化、高性能化、工程化落地的物理载体与实现基础。第五章之所以把它单独拿出来讨论,正是因为它会直接改变第四章参考设计里“多少压力留在节点内、多少压力被推到节点间”的边界划分。

Die 堆叠的核心是把关键互联距离从 " 板级 / 连接器级 " 压缩到 " 封装 / 微互联级 ",从而为更高带宽、更低单位比特能耗、以及更强的系统语义(寻址 / 原子 / 一致性能力)创造条件。这意味着系统优化的重心不再只是“机柜内怎么连得更快”,还包括“哪些通信可以不再离开封装边界”。在工程落地上,需要关注三个核心约束面:

  • 互联与协议:Die-to-Die(D2D)互联决定了堆叠能否规模化复制;UCIe 等标准化分层接口有助于降低跨厂商 / 跨代际集成成本。
  • 供电与散热:堆叠会把热点推入封装内部,PDN 与热路径往往比信号更先成为瓶颈,需要与液冷 / 冷板 / 热扩散结构协同设计。
  • 测试与可靠性:堆叠越深越需要 " 分层测试 + 可追溯遥测 " 闭环(Known-Good-Die、封装前后测试、运行时错误隔离,否则系统级良率与运维成本会反向吞噬带宽收益。

Die 堆叠并不是超节点的普通附加优化。对于追求更高算力密度、更高近存储带宽和更低单位比特能耗的路线而言,它已经越来越接近前提条件;只是这种前提能否被真正兑现,仍取决于良率、热管理、测试闭环和接口生态是否同步成熟。

Die 堆叠技术基础体系

Die 堆叠可以被理解为后摩尔时代最重要的芯片系统集成范式之一,其本质是把更多原本属于 " 板级系统 " 的约束,前移到 " 封装级系统 " 中解决。

基本概念与分类

Die 堆叠按集成方式可分为两大类:

2.5D 堆叠(中介层架构)

  • 多颗 Die 并排放置在硅中介层(Silicon Interposer)上
  • 通过中介层内的走线实现 Die-to-Die 互联
  • 典型代表:CoWoS、CoS、InFO_LSI

3D 堆叠(垂直键合架构)

  • Die 之间垂直叠放
  • 依靠 TSV(硅通孔)+ 微凸点 / Cu-Cu 键合直接相连
  • 典型代表:Foveros、3D IC、Hybrid Bonding
技术路线 通俗理解 超节点定位 典型带宽密度 典型延迟
传统单芯片 一颗大 SoC 很难继续承担更高密度超节点主路径
2.5D 堆叠 芯片 " 并排坐 " 在硅底板上 超节点主力方案 1–5 TB/s/mm² 2–5 ns
3D 堆叠 芯片 " 上下叠 " 下一代超节点核心 10–100 TB/s/mm² 0.5–2 ns
板级 PCIe/CXL 芯片插在主板上 只能做外部扩展 0.01–0.1 TB/s/mm² 50–200 ns

Die 堆叠的带宽与时延特性显著优于主板级互联,这也是它会持续抬高节点内解决能力的重要原因。

关键支撑技术

  1. 微凸点(Micro-bump):间距通常 ≤ 20μm,实现高密度互联。
  2. 混合键合(Hybrid Bonding)Cu-Cu 直接键合,间距 ≤ 10μm,3D 堆叠的核心工艺。
  3. 硅通孔 TSV:穿透硅衬底的垂直导电通道,实现 3D 堆叠的上下供电、信号、接地。
  4. 硅中介层 Interposer:多颗 Die " 高速布线底板 ",可集成 RDL、去耦电容、供电网络。
  5. 重布线层 RDL:实现 Pin 脚重新映射,适配不同 Die I/O 分布。
  6. 内插式散热与均热板:解决堆叠带来的热阻塞问题,超节点工程化的关键。

主流多 Die 堆叠封装架构

多 Die 堆叠主流技术路线对比

1:多 Die 堆叠主流技术路线对比——2.5D 3D 堆叠的结构差异、核心参数及演进关系

2.5D CoWoS(Chip-on-Wafer-on-Substrate)

当前超节点最主流方案。多颗 Chiplet(Compute、HBM、IOD)贴在硅中介层上,中介层再贴在有机基板上,供电从基板穿过中介层给 Die 供电,HBM 可与计算 Die 紧邻放置,获得 TB 级内存带宽。

硅中介层采用高密度布线,凸点间距控制在 5 μm 以下,实现芯粒间的高速互联;单封装内可集成 816 颗芯粒,互联带宽达到 10–16 TB/s,延迟 <5 ns。该技术兼容性强,可集成不同尺寸、不同工艺的芯粒,成本相对 3D 封装较低,适配超节点的规模化部署需求。

超节点价值:

  • 单封装可集成 8~16 颗芯粒
  • 支持 HBM2e/HBM3/HBM3e
  • 良率高、可靠性高、可量产
  • 是今天 AI 超节点的标准底座

2.5D CoS(Chip-on-Substrate)

简化版 2.5D,省去硅中介层,直接在有机基板上集成,成本更低,适合规模化自主可控超节点。

3D Foveros / 3D IC

下一代超节点核心架构。计算 Die、内存 DieIOD Die 垂直堆叠,互联距离从毫米 → 微米 → 纳米,带宽密度提升一个数量级,延迟可降至 1 ns 以内。

该技术采用 Cu-Cu 键合工艺,凸点间距控制在 2 μm 以下,单封装内可集成 1632 颗芯粒,互联带宽达到 20 TB/s 以上,延迟 <3 ns。优势是互联密度高、延迟低、功耗低,适配超高算力超节点需求;缺点是成本高、工艺复杂,良率相对较低,主要用于高端 AI 训练超节点。

超节点价值:

  • 真正实现 " 算力叠算力、内存叠内存 "
  • 单机柜算力密度进一步提升

混合堆叠:2.5D + 3D 融合架构

未来 3 年超节点主流形态,底层用 3D 堆叠提升密度,顶层用 2.5D 扩展 HBM IOD,兼顾密度、带宽、良率、成本。

工程实证:NVIDIA NV-HBI Blackwell Die 封装

上述技术路线在 2024 年已获得最高规模的工程验证。NVIDIA Blackwell B200 GPU 由两颗 Die 通过 NV-HBI(NVLink High Bandwidth Interface)以 10 TB/s 带宽互联,封装在同一基板上,对软件呈现为一颗逻辑统一的 GPU。这一设计是对光罩极限(858 mm²)的直接工程突破:

参数 B200 Die 封装 参考对比(H100 Die
Die 数量 2 颗(NV-HBI 互联) 1
总晶体管数 2080 亿 800 亿
D2D 互联带宽 10 TB/s 不适用
D2D 互联延迟 < 5 ns 不适用
对软件呈现 单一 GPU(统一地址空间) 单一 GPU
FP4 Tensor Core 算力 40 PFLOPS(含稀疏) 不适用(无 FP4
HBM 容量 192 GB HBM3e 80 GB HBM3

NV-HBI 的工程意义不仅在于 " 做到了双 Die",更在于验证了三个对 Chiplet 路线至关重要的假设:

  1. 软件透明性可达10 TB/s D2D 带宽使两颗 Die 之间的通信开销低于 HBM 访问延迟,因此 CUDA 编程模型无需任何修改即可跨 Die 运行。这证明当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时,多 Die 封装可以做到对应用层完全透明。
  2. 封装级互联可规模化NV-HBI 并非实验室验证,而是在 NVL7272 卡机柜)中大规模量产部署。每个 NVL72 系统包含 36 B200 GPU(即 72 DieD2D 互联与 NVLink 5.0 芯片间互联无缝衔接,验证了封装内互联与封装间互联的协同设计可行性。
  3. 训练与推理的非对称增益Blackwell 相比 Hopper 实现了训练 和推理 30× 的代际增长。推理端 30 倍的超额增长主要来自 FP4 Tensor Core 与第二代 Transformer Engine 的联合作用——这说明多 Die 封装释放的面积空间可以用于放置更多专用计算单元(如 FP4 Tensor Core、解压引擎,从而在特定场景下获得远超 " 面积线性增长 " 的性能收益。

NV-HBI 的成功为 UCIe 等开放标准的 D2D 互联方案提供了明确的工程目标:10 TB/s 带宽和 < 5 ns 延迟是 " 逻辑单芯片化 " 的工程门槛。达到或接近这一水平,是开放 Chiplet 生态实现与封闭方案同等竞争力的必要条件。

Die 堆叠的主要价值

提升算力密度上限

当单机柜目标继续上探时,单芯片路线越来越难独立承担算力密度需求。多 Die 堆叠允许把更多算力聚合到同一封装或模块内,而不必把所有压力都继续推给板级和机柜级互联。

缓解带宽墙

对很多训练和推理场景而言,瓶颈更早落在带宽而不是峰值算力。多 Die 堆叠并不能“彻底消除”带宽墙,但它可以把一部分原本必须跨板、跨节点解决的带宽压力重新压回封装内处理。

功能解耦与异构融合

Die 堆叠将互联功能解耦为独立芯粒(IOD,使计算芯粒聚焦算力输出,互联效率随之提升。同时允许按需组合不同类型芯粒(NPU/GPU、CPU/FPGA,形成定制化异构算力模块,适配训练、推理、科学计算等不同场景。

工艺分治,降低成本与良率风险

不同功能采用最佳工艺——计算 Die 3nm/5nmIOD/ 互联 Die 12nm/14nm,管理 Die 28nm。小尺寸芯粒良率远高于单片大 SoC,降低量产成本与风险。

封装级互联能效提升

板级信号传输能耗在 pJ/bit 级,封装级 D2D 互联可进一步下降。对高密度超节点而言,多 Die 堆叠很可能成为达成系统能效目标的关键路径之一,但是否“唯一”,仍取决于互联、液冷和软件协同能力是否同步提升。

标准化线性扩展

超节点需要从百卡 → 千卡 → 万卡平滑扩展。多 Die 堆叠 + UCIe 的标准化接口使“即插即用”扩展成为可能:通过增加芯粒模块实现算力线性提升,无需重新设计整个系统。更重要的是,它让系统扩展不再完全依赖外部互联一味放大,而是先提高单节点内部可承载的能力密度,再决定哪些压力必须外推。

Chiplet 在超节点中的场景与用途

Chiplet(芯粒)在超节点中的核心用途,是通过功能解耦、工艺分治和异构集成,缓解单芯片路线在性能、成本和良率上的压力。对很多高密度算力路线而言,Chiplet 已不再只是可选形态,而是在工程上越来越现实的组织方式。

核心应用场景

Chiplet 在超节点中的应用场景高度聚焦于高端算力需求,核心覆盖两大类场景:

万亿参数级 AI 大模型训练场景

超节点最核心的应用场景,核心需求是超高算力密度(单机柜 ≥1 EFLOPS、超大带宽(单机柜 ≥50 TB/s、超低延迟(端到端 <10 μs,以及全局内存共享能力。Chiplet 通过模块化聚合计算芯粒、存储芯粒,实现算力与带宽的精准匹配。多 Die 堆叠使计算 Die HBM3e 紧耦合,单封装内存带宽 ≥3–8 TB/s,多 Die 之间通过 Raw Mode 低延迟通信,All-to-All 集体通信效率显著提升。

E 级科学计算场景

E 级超算适配流体力学、量子计算、气象预测、航空航天仿真等复杂场景,核心需求是高精度计算(FP64、高可靠性(99.999% 以上、低延迟互联。Chiplet 通过 CPU FPGA 异构堆叠集成,TSV + Hybrid Bonding 保证信号完整性,双冗余 Die 热备,全链路 ECC 与错误隔离,优化互联效率与可靠性。

系统意义

Chiplet 在超节点中的意义,可以从三个层面理解:

  • 技术层面Chiplet 是突破单芯片性能极限的重要路径之一。模块化聚合与异构融合能力,会直接影响超节点对不同负载的适配方式。

  • 工程层面Chiplet 能否真正产生优势,取决于良率、热设计、测试与封装协同是否成熟,而不只是理论带宽是否足够高。

  • 产业层面:在自主可控场景中,Chiplet 确实可能成为高端算力追赶的重要抓手,但它能发挥多大作用,仍取决于先进封装、接口生态与系统集成能力能否同步跟上。

Chiplet UCIe 核心技术解析

Chiplet UCIe 的技术融合,是超节点统一互连体系构建的核心。

Chiplet 核心技术

Chiplet 的核心技术围绕 " 模块化设计、先进封装、芯粒互联 " 三大环节展开。

技术框架

Chiplet 的技术框架分为三层:

  1. 芯粒设计层:功能解耦与标准化设计,将超节点的算力、存储、互联、管理功能拆解为独立芯粒。每个芯粒聚焦单一功能,采用模块化设计,芯粒接口采用标准化设计(如 UCIe,确保不同厂商、不同工艺的芯粒能够无缝对接。

  2. 封装集成层:先进封装技术负责将多颗芯粒集成为一个完整的封装模块。超节点中主要采用 2.5D/3D 先进封装技术,核心技术包括硅中介层(Interposer、凸点(Bump)制造、芯粒对齐、热管理等。

  3. 互联适配层:芯粒间的高速互联技术,超节点中主要采用 UCIe 标准互联,核心技术包括链路训练、信号完整性优化、流量控制等。

超节点常用 Chiplet 类型

Chiplet 类型 核心功能 工艺选择 超节点应用场景 核心指标参考
计算芯粒(Compute Die) 核心算力输出,承担 AI 训练、科学计算等核心任务 3nm/5nm/7nm 先进工艺 AI 大模型训练、E 级科学计算 算力:128–256 TFLOPS(FP16UCIe 带宽:2 TB/s
互联芯粒(IOD) 芯粒间、封装间、节点间高速互联,负责数据交换 12nm/14nm 成熟工艺 所有超节点场景,核心互联载体 双向带宽:4–6 TB/s,延迟:<5 ns
存储芯粒(Memory Die) 内存扩展与共享,提供高带宽存储访问 8nm/10nm 工艺 AI 大模型训练、科学计算 容量:16–32 GB,带宽:2.0–3.2 TB/s
管理芯粒(Management Die) 电源管理、故障监控、时序控制、安全管控 28nm 成熟工艺 所有超节点场景,保障系统稳定 可靠性:99.999%,响应时间:<10 ms
加速芯粒(Accelerator Die) 专用计算加速(如 FPGA/TPU,提升特定任务效率 7nm/12nm 工艺 科学计算、特定 AI 任务加速 算力:128 TFLOPS,延迟:<4 ns

UCIe 核心定位

UCIe(Universal Chiplet Interconnect Express)是面向 Chiplet 裸片间互联的开放工业标准,核心价值是实现跨厂商、跨工艺、跨架构的 D2D 互通。协议分三层:物理层(PHY)定义电气特性与链路训练,适配层(Adapter)负责流控、纠错与多协议复用(通过 FDI 承载 PCIe/CXL,通过 RDI 承载流式协议,协议层承载 PCIeCXL Raw Mode(跳过 Flit 封装直传数据流)等上层业务。

UCIe 版本 发布时间 单通道速率 x64 链路双向带宽 核心特性
1.0 2022 32 GT/s 1 TB/s 基础 D2D 互联,PCIe 5.0 / CXL 2.0
2.0 2023 48 GT/s 1.5 TB/s CXL 3.0,能效优化
3.0 2024 64 GT/s 2 TB/s Raw Mode,CXL 4.0,低延迟
4.0(研发中) 2026 128 GT/s 4 TB/s 3D IC 封装适配

对超节点而言,UCIe 的工程意义在于:当 D2D 带宽达到 TB/s 量级、延迟 < 5 ns 时(NV-HBI 已验证此门槛,封装内多 Die 可以对软件呈现为统一设备。UCIe 的开放标准化使这条路径不必绑定单一供应商,但当前跨厂商互通性、版本兼容性和测试认证仍是生态成熟的主要瓶颈。

超节点四层统一互连架构

Chiplet 的模块化优势与 UCIe 的标准化优势相结合,构建了超节点从芯粒内到节点间的四层统一互连架构。

技术融合核心逻辑

Chiplet UCIe 的技术融合,本质是 " 模块化异构集成 " " 标准化互联 " 的协同:

  1. 功能解耦与接口标准化协同Chiplet 将超节点功能拆解为计算、存储、互联、管理等独立芯粒,每个芯粒均采用 UCIe 标准接口,打破生态封闭。

  2. 性能匹配协同UCIe 3.0 的低延迟(<5 ns、高带宽(2 TB/s)特性,与 Chiplet 的模块化聚合需求精准匹配。

  3. 扩展能力协同Chiplet 的模块化扩展与 UCIe 的标准化接口相结合,超节点可通过增加芯粒模块实现线性扩展。

四层架构详解

多 Die 堆叠在超节点中的四层统一部署架构

2:多 Die 堆叠在超节点中的四层统一部署架构——各层级的核心组件、互联方式及延迟特性

超节点四层统一互连架构示意图

3:基于 Chiplet + UCIe 的超节点四层统一互连架构

Level 1:芯粒内 NoC 互连(核间通信层)

最底层,负责单颗 Chiplet 内部计算核、缓存、接口的互联。核心组件是计算芯粒内部的 NoC(Network on Chip)交换机,采用 Mesh 拓扑实现计算核间全互联。

  • 延迟:1–2 ns
  • 带宽取决于计算芯粒规格与核数,通常在数百 GB/s 量级

NoC 交换机通过内部接口与 Chiplet UCIe 物理层对接,将计算核产生的数据传输至 UCIe 链路,实现芯粒内与芯粒间的通信衔接。

Level 2:封装内 UCIe D2D 互连(芯粒间通信层)

核心层级,负责同一封装内多颗 Chiplet(计算、存储、互联、管理)的高速互联,是超节点实现算力聚合的关键。核心组件是互联芯粒(IOD)与 UCIe 链路,采用星型 + Mesh 混合拓扑。

  • 延迟:<5 ns
  • 采用 2.5D CoWoS / 3D Foveros 封装,凸点间距 ≤5 μm
  • 互联芯粒集成多组 UCIe PHY 与交换单元,实现无阻塞交换
  • 通过 UCIe 边带通道实现各芯粒的管理与监控

Level 3:板内 UCIe Bridge 互连(封装间通信层)

负责超节点主板上多个 Chiplet 封装间的互联,形成板级全域交换 fabric,是超节点规模化扩展的基础。核心组件是 UCIe 桥接芯片,采用 Mesh 拓扑。

  • 延迟:5–10 ns
  • UCIe 桥接芯片集成多组 PHY 与交换矩阵,负责封装间全域交换
  • 主板采用高密度布线,链路阻抗需严格控制

Level 4:节点间光互联层(超节点间通信层)

负责多个超节点间的高速互联,实现万卡级集群扩展。核心组件是 UCIe 光模块与光交换机,将 UCIe 协议直接映射到光信号。

  • 延迟:数十 ns 量级(取决于距离与交换层级)
  • 采用 CPO(共封装光学)技术,将光引擎与互联芯粒共封装
  • 结合 UCIe Raw Mode 进一步降低传输延迟
  • 具体可承载的节点规模取决于光交换端口密度与拓扑设计

Die 堆叠与 Chiplet、UCIe、CPO 的协同关系

多 Die 堆叠与 Chiplet、UCIe、CPO 的协同架构

4:多 Die 堆叠与 Chiplet、UCIe、CPO 的协同架构——四者组合构成完整超节点技术路线

Die 堆叠、Chiplet、UCIe CPO 四者在超节点架构中各司其职、协同互补:

技术角色 定位 核心贡献
Die 堆叠 物理载体 提供密度——将多颗 Die 在物理空间上高密度集成
Chiplet 功能单元 提供模块化——功能解耦、工艺分治、异构组合
UCIe 互联语言 提供互通——标准化 D2D 接口,跨厂商 / 跨代际兼容
CPO 对外出口 提供扩展——光电融合封装,实现节点间高带宽低延迟通信

四者组合就是完整的超节点技术路线:堆叠提供密度、Chiplet 提供模块化、UCIe 提供互通、CPO 提供扩展。这一统一技术路线使超节点从 " 集群即单板、单板即芯片 " 的愿景走向工程现实。

工程化挑战与解决方案

尽管 Chiplet + Die 堆叠在超节点中已实现多场景落地,但规模化部署中仍面临严峻的工程化挑战。

热阻塞与热点集中

最致命的工程约束

堆叠后热量无法有效散出,局部温度可超 120℃。计算芯粒功耗密度达 100 W/cm²,高密度部署进一步加剧散热压力。

解决方案:

  • 热仿真驱动的 Die 布局优化
  • 内插式均热板与热缓冲层
  • 微流道液冷 / 直面液冷(散热效率提升 3 倍)
  • 功耗动态均衡算法与热感知任务调度
  • 冷热通道分离,管理芯粒动态调节功耗
  • DVFS 技术降低空闲功耗

TSV/ 微凸点可靠性

垂直互联的机械应力

垂直互联点多、机械应力大,不同芯粒 CTE(热膨胀系数)差异导致封装应力,易引发芯粒开裂或接触失效。

解决方案:

  • 低应力 TSV 结构设计
  • CTE 匹配材料与柔性基板
  • 冗余互联设计(10%–15% 冗余 Lane + 芯粒冗余)
  • 老化筛选与在线监测
  • Cu pillar 凸点设计,对齐误差控制在 ±0.3 μm

供电电压降(IR Drop)

Die 共用电网的电流极限

Die 共用供电网络,电流极大,压降导致供电不稳,影响信号完整性与计算精度。

解决方案:

  • 嵌入式去耦电容
  • 中介层内嵌供电层
  • 分区独立供电
  • 动态电压调节

测试与良率

Die 串联的良率挑战

Die 串联封装,一颗坏则全模块废。先进封装成本高、产能有限。

解决方案:

  • 预测试 Known-Good-Die(KGD)流程
  • 冗余 Die / 冗余 Lane 设计
  • 分级修复策略
  • 内建自测试(BIST)
  • 混合封装策略——核心芯粒用 3D Foveros,辅助芯粒用 2.5D CoWoS,平衡性能与成本

信号完整性

高密度链路的串扰风险

高密度 UCIe 链路(数百条 / 封装)串扰严重(噪声 ≥20%,高速传输信号衰减明显,PVT 变化导致信号漂移。

解决方案:

  • 差分布线(间距 ≥2 倍线宽)+ 链路间接地屏蔽,串扰噪声降至 5% 以下
  • 自适应均衡(FFE/DFE)+ CDR 时钟恢复,误码率控制在 \( 10^{-15} \) 以内
  • 10 ms 动态重校准,补偿 PVT 漂移

跨厂商生态协同与标准落地

生态碎片化

不同厂商 UCIe 协议实现差异大,跨厂商芯粒互通性不足;UCIe 版本不兼容;Chiplet 测试标准不统一;软件生态不完善。

解决方案:

  1. 联合厂商制定 UCIe 协议实现规范,建立兼容性测试平台
  2. 芯粒接口支持版本自适应,固件在线升级
  3. 制定 Chiplet 测试标准与认证制度,建立统一测试平台
  4. 联合软件厂商开发 Chiplet 调度、监控软件,适配现有应用生态

国产化现状与差距

国产多 Die 堆叠已具备一定基础:2.5D CoWoS 类封装可量产,TSV / 微凸点 / RDL 技术已突破,国产中介层与基板逐步替代,KGD 测试平台基本建成。

主要差距集中在:3D 混合键合工艺(Cu-Cu 键合间距与良率、超高密度凸点制造、高端封装材料、以及全流程良率的稳定提升。

从时间轴看:2.5D 规模化部署已在进行中;3D Foveros / Hybrid Bonding 预计 20262027 进入工程验证与小批量应用;3D + CPO + UCIe 一体化集成预计 2028 年后逐步推进。

对参考设计的影响

从第四章的参考设计视角看,Chiplet 与多 Die 堆叠的意义在于重写“一个节点 / 一个封装到底能装下多少算力与带宽”这个前提:

  • 对标准构型的影响:更成熟的 2.5D/3D 集成会先提升标准以太和标准总线方案的单节点能力,使它们在不改变大框架的情况下获得更高密度与更强显存带宽。
  • 对探索构型的影响:当封装内与板内互联能力显著增强时,Dragonfly + OCS、Torus + OCS 这类方案可以把更多系统压力留在节点内或机柜内,从而改变组间拓扑的最优边界。
  • 对方案排序的影响:如果 Chiplet + UCIe + 光互联协同成熟,第四章中的一些探索构型会从“依赖外部交换重构”更多转向“封装内高密 + 节点间轻量重构”的新平衡。

Chiplet 与多 Die 堆叠总体仍属于工程推断:方向已非常明确,量产节奏也已开启,但真正决定其成为主导变量的,是良率、测试闭环、热管理与跨厂商接口治理能否同步成熟。后续需要补强的关键产业证据,包括 2.5D/3D 封装的实测良率与成本曲线、UCIe 生态的兼容性进展,以及系统集成商对封装内高密互联的部署反馈。

也就是说,Chiplet 与多 Die 堆叠对第五章的价值,不在于把更多技术名词塞进封装章节,而在于重写一个更根本的问题:一个节点内部到底能装下多少算力、带宽和内存语义能力。 一旦这个前提被改写,第四章中很多原本必须通过机柜级互联解决的问题,就会重新回到封装内或节点内。未来 23 年里,Chiplet 真正会影响的,不只是单位节点的峰值能力,而是参考设计之间“节点内解决多少、节点间解决多少”的边界划分,以及由此带来的互联、散热与运维压力分配。