前言

过去几年,大模型的持续演进以及 AI for Science 的兴起,正在把算力基础设施推入一轮新的系统性压力之中。模型规模、上下文长度、并行复杂度和科研求解规模不断上升,使传统以服务器为基本单位、以局部器件升级为主要路径的扩展方式,越来越难以同时满足带宽、时延、内存容量、可靠性和运维效率等多重约束。对公司和产业界而言,这意味着下一代算力建设已不再只是“采购更强芯片”或“部署更多节点”的问题,而越来越成为如何在成本、效率、可靠性、交付节奏和后续演进之间重新取得系统平衡的问题。这种变化不仅在重塑技术路线,也在重塑下一代产品形态、方案交付方式和市场竞争方式。在这样的背景下,超节点之所以成为产业关注的焦点,首先并不是因为它能够容纳更多处理器,而是因为它代表了一种新的系统组织方式。

真正值得重视的张力在于:单芯片制程红利通常只能支撑约每两年 2.5 倍的增长,而国际领先平台在系统层面却实现了约每两年 5-6 倍的算力跃升。系统增速显然已不能仅用摩尔定律的延续来解释,更合理的答案只能到系统层去寻找:每一代都在封装、互联、内存、精度、软件和整机工程等维度引入新的设计变量,使原本不可同时达到的一组性能、成本与复杂度组合变得可达,并推动系统能力边界持续外移。超节点正是使这种多维联合优化在机柜尺度上成为可能的工程形态。这种外移所决定的,也不只是技术指标上的领先与否,而是未来几代产品定义、方案交付、基础设施规划、产业位置乃至市场主动权的分配方式。

也因此,超节点不宜被简单理解为一个更大的产品规格,或“把更多卡装进一个机柜”的直接扩容;它更接近一种把计算、互联、内存、软件和整机组织到同一工程边界内的系统形态。决定结果的,也从来不只是硬件参数本身。统一内存、通信运行时与 RAS 的意义,不在于孤立地增加若干新能力,而在于决定这些被打开的系统能力,究竟有多少能够被稳定兑现为 Goodput。与此同时,光互联、先进封装、Chiplet、HBM/3D DRAM 以及模型形态变化,又在持续改写今天的主导约束。这意味着,超节点竞争并不是一组静态参数的比较,而是一场围绕系统能力如何被打开、被兑现并被继续改写的持续演进。谁能够更快地把这些变量组织成可交付、可运维、可持续演进的系统能力,谁就更有可能在下一轮竞争中占据主动,并把这种主动进一步转化为产品定义权、客户信任和市场位置。

本白皮书也正是沿着这些问题展开。它更关心的,并不只是某一项技术路线本身,而是公司与产业界应如何用系统视角重新理解下一代算力建设:哪些约束真正决定结果,哪些能力需要被优先建设,哪些路线值得投入,哪些接口需要协同。沿着这一判断,白皮书试图回答四类问题:第一,系统能力边界为何形成、为何外移;第二,这些被打开的能力如何通过软件栈和运行时稳定兑现为 Goodput;第三,在不同约束条件下,当前有哪些现实工程路径可供选择;第四,未来哪些关键变量正在改写边界本身。全文据此展开为架构分析、软件系统、建模仿真、参考设计、未来演进以及 SPI 筹备和产业生态接口等部分,目标不是形成某一路线的产品宣传或协议倡议,而是提供一套更接近系统结果的共同语言,为企业路线判断、产业协同和后续比较提供分析框架;证据等级与判断口径 SPI 则作为补充说明与后续接口,对判断强度和协作边界进一步加以说明。