堆叠内存技术（HBM/3D DRAM）¶

本节承接第五章里“哪些变量会先把压力重新拉回节点内部”这一问题。后摩尔时代，二维 DRAM 的平面微缩正逼近物理极限，“内存墙”重新成为 AI 大模型与 HPC 系统的核心约束。从 NVIDIA GPU 的代际演进看，A100 到 B200，算力增长约 7 倍，而显存容量仅增长约 2.4 倍、显存带宽增长不到 4 倍。这意味着在现有架构下，制约芯片有效算力的瓶颈正在越来越直接地落到显存容量与带宽上。

三维堆叠 DRAM 正是在这一背景下成为关键路径。它通过 TSV、微凸点、晶圆键合与混合键合等先进封装与集成技术，将多层存储单元沿垂直方向高密度集成，从架构层面突破传统 DRAM 在带宽、容量、功耗与尺寸上的限制。对超节点而言，问题已经不只是“容量够不够”，而是“容量、带宽、时延、功耗与封装可交付性是否同时成立”，以及它们会如何改变第四章参考设计的压力分布。

从 HBM 到 3D DRAM ¶

当前产业主力仍是 HBM（High Bandwidth Memory）。它本质上是基于 2.5D 先进封装的高带宽 DRAM 方案：多颗 2D DRAM 裸片通过 TSV、微凸点或混合键合进行垂直堆叠，再借助硅中介层与 GPU/XPU 紧耦合，以超宽位宽和短互连实现 TB/s 级带宽。

3D DRAM 则进一步把 " 存储靠近计算 " 从 2.5D 推向真正的 3D 异构集成。它的基本设想是将多颗 2D DRAM 裸片与处理器裸片通过 TSV 与混合键合进行垂直堆叠，以超宽位宽和更短互连实现更高带宽，目标可指向 10 TB/s 级别。可以把两者理解为同一条演进主线上的两个阶段：

HBM：当前商用主力，强调在既有工艺成熟度下最大化带宽与容量。
3D DRAM：未来主方向，强调通过更高密度垂直互连进一步突破带宽、时延与能效极限。

二者并不是相互割裂的两类技术，而是超高带宽存储路线上的连续演进：HBM 是今天最成熟的商用解，3D DRAM 则是面向后续代际的主要方向。与 3D 封装技术结合后，这条路线本质上是在同时推进 " 算力墙 " 和 " 存储墙 " 的突破。

关键使能技术 ¶

3D 堆叠内存的性能突破主要依赖三类基础技术：

TSV（硅通孔）：在硅片内部形成垂直导电通道，是多层裸片电气互连的基础。相比传统引线键合，TSV 可将互连长度缩短 90% 以上，显著降低寄生电阻和寄生电容，使层间数据传输延迟降至纳秒级，是 TB/s 级层间带宽成立的前提。
Microbump（微凸点）：负责芯片与芯片、芯片与基板之间的高密度连接，是 HBM、2.5D/3D 封装与 AI 芯片先进封装的通用基础设施。
Hybrid Bonding（混合键合）：下一代高密度互连核心技术。它用铜 - 铜直接键合替代传统焊料连接，把互连间距进一步压缩到 2 μm 以下，而传统微凸点通常难以突破 10 μm；同时可使 I/O 密度提升 10 倍以上，并因省去焊料与底部填充材料而改善散热与堆叠高度约束。

从产业路线看，TSV 是基础，微凸点是当前大规模量产的桥梁，而混合键合则是从 HBM 继续走向 3D DRAM 的关键升级点。

HBM 的架构价值与现实瓶颈 ¶

HBM 之所以成为 AI 芯片的标准配置，是因为它在当前工艺成熟度下提供了最现实的 " 高带宽 + 近存储 " 方案。以台积电 CoWoS（Chip-on-Wafer-on-Substrate）为代表的 2.5D 封装技术，使逻辑芯片能够与多颗 HBM 堆栈在同一封装内协同工作，显著优于传统板级 DDR/GDDR 方案。

但 HBM 的总带宽并不是可以无限线性扩展，它同时受三类因素约束：

可封装的 HBM 颗粒数量：受限于中介层面积、封装外形尺寸以及计算芯片外围可用空间。
I/O 位宽：受单颗 HBM 外部接口宽度、控制器面积以及封装走线复杂度限制。
数据传输速率：受信号完整性、功耗密度、时钟频率墙与良率约束。

这些约束在先进 AI 芯片上会进一步放大，而且它们具有明确的物理来源。

首先是颗粒集成的平面约束。单颗 HBM 堆栈的面积通常在约 100 mm² 量级，边长约 10 mm，需要沿 AI 芯片外围环形布置，因此可部署的颗粒数量天然受到计算芯片尺寸和封装外形限制。与此同时，逻辑核心面积本身也受先进光刻技术限制，当前常见认知下最大裸片尺寸约为 858 mm²；即便 CoWoS-L 等技术的中介层面积已突破约 2500 mm²，HBM 颗粒集成数量仍受可用封装空间约束，在现有框架下 12 颗 HBM 已接近工艺上限。

其次是 I/O 扩展的多重代价。HBM 内部层间互连依赖 TSV 与 micro-bump，其密度提升本身就受到 micro-bump 物理尺寸约束，典型直径常在 30-50 μm 范围。向封装外部继续扩展 I/O，又会导致 HBM 颗粒边长和面积增加，并同步放大功耗与散热压力。更重要的是，颗粒数量和 I/O 位宽增加还会显著拉高存储控制器与 PHY 的硅面积和封装面积占比，挤占本可用于计算单元或高速互连 I/O 的资源。

再次是速率提升的系统性瓶颈。随着频率继续上升，串扰（Crosstalk）与反射（Reflection）会加剧，单位面积功耗逼近散热极限；而为了支撑更高速率，往往还需要在良率、冗余与制造成本之间做更激进的权衡。

因此，HBM 仍会在未来若干代产品中持续演进，但其本质仍是 " 在 2.5D 框架内逼近极限 "，而不是从根本上消除内存墙。换句话说，当前 2.5D 架构中计算核心与 HBM 颗粒仍以平面化方式集成，其在单位面积带宽密度、能效比与延迟特性上的边际改善正在变得越来越困难。

为什么 3D DRAM 值得关注 ¶

正是在上述背景下，基于晶圆级三维集成的 3D DRAM 与逻辑芯片异构集成，成为突破存储瓶颈的关键路径。通过采用混合键合等先进互连技术实现三维堆叠，其垂直方向上的互连密度可以进一步提升，借助 Cu-Cu 直接互连，信号延迟和数据搬运能耗都有机会显著优化。

相较于 2.5D HBM，3D DRAM 试图在以下几个维度形成更明确的系统级优势：

算力密度：通过多裸片异构集成，把 Memory Controller、PHY 等 I/O 相关逻辑从主计算裸片中剥离，释放更多硅面积给计算单元。
存储容量与带宽：多层存储裸片可通过晶圆对晶圆（WoW）键合继续沿垂直方向扩展，容量随存储裸片层数线性增加；同时不再像 2.5D 架构那样强烈受 HBM 颗粒数量、平面封装尺寸和外围布置的限制。
访问时延：逻辑与存储单元的物理距离进一步缩短，可显著降低中介层与封装级走线带来的访问延迟。
单位面积带宽密度：采用 Cu-Cu 直接键合后，互连 bump 间距可进一步压缩到更小尺度，单位面积带宽密度有望较传统方案提升约 3-5 倍。
能效：关键数据路径缩短后，数据搬运能耗有望显著下降，这对训练与推理都十分关键。
制造经济性：从长期看，若工艺、良率与测试体系成熟，3D 异构集成有机会消除中介层带来的部分复杂工艺和良率损耗，并降低超大单片设计压力。

当然，3D DRAM 并不是 " 天然更好 "。它把原本在封装外部暴露的问题重新压进了封装内部：热耦合更强、测试更困难、制造窗口更窄，任何一个环节不成熟，都可能抵消理论收益。

面向超节点的工程含义 ¶

对超节点而言，HBM/3D DRAM 的讨论不能停留在芯片规格层面，更重要的是它如何改变系统设计边界。

训练场景下，堆叠内存的核心问题是参数、激活、优化器状态与并行策略之间的耦合。推理场景下，问题则会转向 KV Cache 常驻、分页、碎片化与长尾时延。也就是说，内存技术演进最终会向上游传导为系统软件与集群架构约束。

面向工程落地，建议重点关注三类问题：

带宽 / 容量配比如何映射到负载：需要针对训练与推理分别建立瓶颈判据和降级路径，例如带宽受限时优先采用何种通信重叠或分层访存策略，容量受限时 KV/ 权重缓存如何分层放置。
封装协同与热耦合：当堆叠 DRAM 与高功耗逻辑芯片共封装甚至垂直堆叠时，热设计不再是附属问题，而是决定内存频率、可靠性与寿命的首要约束，需要封装、冷板、流体、遥测与调频策略联动设计。
向系统软件暴露的控制面：容量不足、迁移抖动或访问冲突会直接反映为 Goodput 长尾，因此调度器、运行时、通信库与内存语义需要更强的协同能力，而不能把堆叠内存仅仅视作更快的 " 本地显存 "。

展望 ¶

未来 2-5 年，HBM 仍将是高端 AI 芯片的主流近存储方案，并继续沿着更高堆叠层数、更高单 pin 速率和更大封装能力演进。但从更长的时间尺度看，3D DRAM 与逻辑芯片的异构垂直集成，更可能成为突破 " 存储墙 + 功耗墙 " 的下一阶段主线。

若以更明确的产业窗口来看，2026-2030 年很可能是从 HBM 持续增强走向 3D DRAM 范式验证的重要阶段。真正决定其产业节奏的，不只是带宽数字是否足够激进，而是几个工程问题能否同步成熟：混合键合良率是否足够稳定，热管理是否可控，测试与修复链路是否完善，是否能与 Chiplet、近存计算和先进互连共同形成可量产的平台化方案。只有当这些条件逐步成立，3D DRAM 才会从 " 概念上正确 " 走向 " 系统上可用 "，并逐步成为后摩尔时代 AI 芯片的重要底座。

对参考设计的影响 ¶

堆叠内存技术对第四章参考设计的影响，主要不是改变拓扑名称，而是改变“每个节点内部到底能承载多少模型状态、多少带宽压力、多少长上下文负载”：

对标准构型的影响：更高带宽、更大容量的 HBM 会先提升标准以太和标准总线方案的单节点效率，使部分原本必须跨节点解决的问题重新回到节点内。
对探索构型的影响：当 3D DRAM 与更高密度近存储逐步成熟时，Torus + OCS、Dragonfly + OCS 等方案在组间通信上的压力分布也会发生变化，部分瓶颈会从“互联不够”转向“如何调度和放置数据”。
对方案选择的影响：长上下文、MoE 与多模态负载会越来越要求参考设计同时考虑互联拓扑和内存层次，而不能把内存仅视作节点内部问题。

HBM4 属于已验证趋势的延伸，3D DRAM 更接近工程推断。真正需要产业界补强的，并不是“带宽会继续增加”这种常识，而是容量 / 成本曲线、混合键合良率、热管理边界，以及长上下文和 MoE 负载下的真实内存放置与迁移数据。这些证据将直接决定本节对参考设计优先级的判断强度。

因此，堆叠内存技术对超节点路线判断的真正意义，是重写“一个节点内部到底能承载多少模型状态和多少带宽压力”。HBM 的持续增强会先延长当前构型的生命期；3D DRAM 若工程化成功，则会把部分今天看来必须依赖更激进互联的压力重新拉回节点内。也正因为如此，内存技术演进不会独立决定哪种拓扑胜出，但它会持续改变第四章各类方案的压力分布和成立边界。