堆叠内存技术(HBM/3D DRAM)¶
本节承接第五章里“哪些变量会先把压力重新拉回节点内部”这一问题。后摩尔时代,二维 DRAM 的平面微缩正逼近物理极限
三维堆叠 DRAM 正是在这一背景下成为关键路径。它通过 TSV、微凸点、晶圆键合与混合键合等先进封装与集成技术,将多层存储单元沿垂直方向高密度集成,从架构层面突破传统 DRAM 在带宽、容量、功耗与尺寸上的限制。对超节点而言,问题已经不只是“容量够不够”,而是“容量、带宽、时延、功耗与封装可交付性是否同时成立”,以及它们会如何改变第四章参考设计的压力分布。
从 HBM 到 3D DRAM ¶
当前产业主力仍是 HBM(High Bandwidth Memory
3D DRAM 则进一步把 " 存储靠近计算 " 从 2.5D 推向真正的 3D 异构集成。它的基本设想是将多颗 2D DRAM 裸片与处理器裸片通过 TSV 与混合键合进行垂直堆叠,以超宽位宽和更短互连实现更高带宽,目标可指向 10 TB/s 级别。可以把两者理解为同一条演进主线上的两个阶段:
- HBM:当前商用主力,强调在既有工艺成熟度下最大化带宽与容量。
- 3D DRAM:未来主方向,强调通过更高密度垂直互连进一步突破带宽、时延与能效极限。
二者并不是相互割裂的两类技术,而是超高带宽存储路线上的连续演进:HBM 是今天最成熟的商用解,3D DRAM 则是面向后续代际的主要方向。与 3D 封装技术结合后,这条路线本质上是在同时推进 " 算力墙 " 和 " 存储墙 " 的突破。
关键使能技术 ¶
3D 堆叠内存的性能突破主要依赖三类基础技术:
- TSV(硅通孔):在硅片内部形成垂直导电通道,是多层裸片电气互连的基础。相比传统引线键合,TSV 可将互连长度缩短 90% 以上,显著降低寄生电阻和寄生电容,使层间数据传输延迟降至纳秒级,是 TB/s 级层间带宽成立的前提。
- Microbump(微凸点):负责芯片与芯片、芯片与基板之间的高密度连接,是 HBM、2.5D/3D 封装与 AI 芯片先进封装的通用基础设施。
- Hybrid Bonding(混合键合):下一代高密度互连核心技术。它用铜 - 铜直接键合替代传统焊料连接,把互连间距进一步压缩到 2 μm 以下,而传统微凸点通常难以突破 10 μm;同时可使 I/O 密度提升 10 倍以上,并因省去焊料与底部填充材料而改善散热与堆叠高度约束。
从产业路线看,TSV 是基础,微凸点是当前大规模量产的桥梁,而混合键合则是从 HBM 继续走向 3D DRAM 的关键升级点。
HBM 的架构价值与现实瓶颈 ¶
HBM 之所以成为 AI 芯片的标准配置,是因为它在当前工艺成熟度下提供了最现实的 " 高带宽 + 近存储 " 方案。以台积电 CoWoS(Chip-on-Wafer-on-Substrate)为代表的 2.5D 封装技术,使逻辑芯片能够与多颗 HBM 堆栈在同一封装内协同工作,显著优于传统板级 DDR/GDDR 方案。
但 HBM 的总带宽并不是可以无限线性扩展,它同时受三类因素约束:
- 可封装的 HBM 颗粒数量:受限于中介层面积、封装外形尺寸以及计算芯片外围可用空间。
- I/O 位宽:受单颗 HBM 外部接口宽度、控制器面积以及封装走线复杂度限制。
- 数据传输速率:受信号完整性、功耗密度、时钟频率墙与良率约束。
这些约束在先进 AI 芯片上会进一步放大,而且它们具有明确的物理来源。
首先是颗粒集成的平面约束。单颗 HBM 堆栈的面积通常在约 100 mm² 量级,边长约 10 mm,需要沿 AI 芯片外围环形布置,因此可部署的颗粒数量天然受到计算芯片尺寸和封装外形限制。与此同时,逻辑核心面积本身也受先进光刻技术限制,当前常见认知下最大裸片尺寸约为 858 mm²;即便 CoWoS-L 等技术的中介层面积已突破约 2500 mm²,HBM 颗粒集成数量仍受可用封装空间约束,在现有框架下 12 颗 HBM 已接近工艺上限。
其次是 I/O 扩展的多重代价。HBM 内部层间互连依赖 TSV 与 micro-bump,其密度提升本身就受到 micro-bump 物理尺寸约束,典型直径常在 30-50 μm 范围。向封装外部继续扩展 I/O,又会导致 HBM 颗粒边长和面积增加,并同步放大功耗与散热压力。更重要的是,颗粒数量和 I/O 位宽增加还会显著拉高存储控制器与 PHY 的硅面积和封装面积占比,挤占本可用于计算单元或高速互连 I/O 的资源。
再次是速率提升的系统性瓶颈。随着频率继续上升,串扰(Crosstalk)与反射(Reflection)会加剧,单位面积功耗逼近散热极限;而为了支撑更高速率,往往还需要在良率、冗余与制造成本之间做更激进的权衡。
因此,HBM 仍会在未来若干代产品中持续演进,但其本质仍是 " 在 2.5D 框架内逼近极限 ",而不是从根本上消除内存墙。换句话说,当前 2.5D 架构中计算核心与 HBM 颗粒仍以平面化方式集成,其在单位面积带宽密度、能效比与延迟特性上的边际改善正在变得越来越困难。
为什么 3D DRAM 值得关注 ¶
正是在上述背景下,基于晶圆级三维集成的 3D DRAM 与逻辑芯片异构集成,成为突破存储瓶颈的关键路径。通过采用混合键合等先进互连技术实现三维堆叠,其垂直方向上的互连密度可以进一步提升,借助 Cu-Cu 直接互连,信号延迟和数据搬运能耗都有机会显著优化。
相较于 2.5D HBM,3D DRAM 试图在以下几个维度形成更明确的系统级优势:
- 算力密度:通过多裸片异构集成,把 Memory Controller、PHY 等 I/O 相关逻辑从主计算裸片中剥离,释放更多硅面积给计算单元。
- 存储容量与带宽:多层存储裸片可通过晶圆对晶圆(WoW)键合继续沿垂直方向扩展,容量随存储裸片层数线性增加;同时不再像 2.5D 架构那样强烈受 HBM 颗粒数量、平面封装尺寸和外围布置的限制。
- 访问时延:逻辑与存储单元的物理距离进一步缩短,可显著降低中介层与封装级走线带来的访问延迟。
- 单位面积带宽密度:采用 Cu-Cu 直接键合后,互连 bump 间距可进一步压缩到更小尺度,单位面积带宽密度有望较传统方案提升约 3-5 倍。
- 能效:关键数据路径缩短后,数据搬运能耗有望显著下降,这对训练与推理都十分关键。
- 制造经济性:从长期看,若工艺、良率与测试体系成熟,3D 异构集成有机会消除中介层带来的部分复杂工艺和良率损耗,并降低超大单片设计压力。
当然,3D DRAM 并不是 " 天然更好 "。它把原本在封装外部暴露的问题重新压进了封装内部:热耦合更强、测试更困难、制造窗口更窄,任何一个环节不成熟,都可能抵消理论收益。
面向超节点的工程含义 ¶
对超节点而言,HBM/3D DRAM 的讨论不能停留在芯片规格层面,更重要的是它如何改变系统设计边界。
训练场景下,堆叠内存的核心问题是参数、激活、优化器状态与并行策略之间的耦合。推理场景下,问题则会转向 KV Cache 常驻、分页、碎片化与长尾时延。也就是说,内存技术演进最终会向上游传导为系统软件与集群架构约束。
面向工程落地,建议重点关注三类问题:
- 带宽 / 容量配比如何映射到负载:需要针对训练与推理分别建立瓶颈判据和降级路径,例如带宽受限时优先采用何种通信重叠或分层访存策略,容量受限时 KV/ 权重缓存如何分层放置。
- 封装协同与热耦合:当堆叠 DRAM 与高功耗逻辑芯片共封装甚至垂直堆叠时,热设计不再是附属问题,而是决定内存频率、可靠性与寿命的首要约束,需要封装、冷板、流体、遥测与调频策略联动设计。
- 向系统软件暴露的控制面:容量不足、迁移抖动或访问冲突会直接反映为 Goodput 长尾,因此调度器、运行时、通信库与内存语义需要更强的协同能力,而不能把堆叠内存仅仅视作更快的 " 本地显存 "。
展望 ¶
未来 2-5 年,HBM 仍将是高端 AI 芯片的主流近存储方案,并继续沿着更高堆叠层数、更高单 pin 速率和更大封装能力演进。但从更长的时间尺度看,3D DRAM 与逻辑芯片的异构垂直集成,更可能成为突破 " 存储墙 + 功耗墙 " 的下一阶段主线。
若以更明确的产业窗口来看,2026-2030 年很可能是从 HBM 持续增强走向 3D DRAM 范式验证的重要阶段。真正决定其产业节奏的,不只是带宽数字是否足够激进,而是几个工程问题能否同步成熟:混合键合良率是否足够稳定,热管理是否可控,测试与修复链路是否完善,是否能与 Chiplet、近存计算和先进互连共同形成可量产的平台化方案。只有当这些条件逐步成立,3D DRAM 才会从 " 概念上正确 " 走向 " 系统上可用 ",并逐步成为后摩尔时代 AI 芯片的重要底座。
对参考设计的影响 ¶
堆叠内存技术对第四章参考设计的影响,主要不是改变拓扑名称,而是改变“每个节点内部到底能承载多少模型状态、多少带宽压力、多少长上下文负载”:
- 对标准构型的影响:更高带宽、更大容量的 HBM 会先提升标准以太和标准总线方案的单节点效率,使部分原本必须跨节点解决的问题重新回到节点内。
- 对探索构型的影响:当 3D DRAM 与更高密度近存储逐步成熟时,Torus + OCS、Dragonfly + OCS 等方案在组间通信上的压力分布也会发生变化,部分瓶颈会从“互联不够”转向“如何调度和放置数据”。
- 对方案选择的影响:长上下文、MoE 与多模态负载会越来越要求参考设计同时考虑互联拓扑和内存层次,而不能把内存仅视作节点内部问题。
HBM4 属于已验证趋势的延伸,3D DRAM 更接近工程推断。真正需要产业界补强的,并不是“带宽会继续增加”这种常识,而是容量 / 成本曲线、混合键合良率、热管理边界,以及长上下文和 MoE 负载下的真实内存放置与迁移数据。这些证据将直接决定本节对参考设计优先级的判断强度。
因此,堆叠内存技术对超节点路线判断的真正意义,是重写“一个节点内部到底能承载多少模型状态和多少带宽压力”。HBM 的持续增强会先延长当前构型的生命期;3D DRAM 若工程化成功,则会把部分今天看来必须依赖更激进互联的压力重新拉回节点内。也正因为如此,内存技术演进不会独立决定哪种拓扑胜出,但它会持续改变第四章各类方案的压力分布和成立边界。