前言 ¶

过去几年，大模型的持续演进以及 AI for Science 的兴起，正在把算力基础设施推入一轮新的系统性压力之中。模型规模、上下文长度、并行复杂度和科研求解规模不断上升，使传统以服务器为基本单位、以局部器件升级为主要路径的扩展方式，越来越难以同时满足带宽、时延、内存容量、可靠性和运维效率等多重约束。对公司和产业界而言，这意味着下一代算力建设已不再只是“采购更强芯片”或“部署更多节点”的问题，而越来越成为如何在成本、效率、可靠性、交付节奏和后续演进之间重新取得系统平衡的问题。这种变化不仅在重塑技术路线，也在重塑下一代产品形态、方案交付方式和市场竞争方式。在这样的背景下，超节点之所以成为产业关注的焦点，首先并不是因为它能够容纳更多处理器，而是因为它代表了一种新的系统组织方式。

真正值得重视的张力在于：单芯片制程红利通常只能支撑约每两年 2.5 倍的增长，而国际领先平台在系统层面却实现了约每两年 5-6 倍的算力跃升。系统增速显然已不能仅用摩尔定律的延续来解释，更合理的答案只能到系统层去寻找：每一代都在封装、互联、内存、精度、软件和整机工程等维度引入新的设计变量，使原本不可同时达到的一组性能、成本与复杂度组合变得可达，并推动系统能力边界持续外移。超节点正是使这种多维联合优化在机柜尺度上成为可能的工程形态。这种外移所决定的，也不只是技术指标上的领先与否，而是未来几代产品定义、方案交付、基础设施规划、产业位置乃至市场主动权的分配方式。

也因此，超节点不宜被简单理解为一个更大的产品规格，或“把更多卡装进一个机柜”的直接扩容；它更接近一种把计算、互联、内存、软件和整机组织到同一工程边界内的系统形态。决定结果的，也从来不只是硬件参数本身。统一内存、通信运行时与 RAS 的意义，不在于孤立地增加若干新能力，而在于决定这些被打开的系统能力，究竟有多少能够被稳定兑现为 Goodput。与此同时，光互联、先进封装、Chiplet、HBM/3D DRAM 以及模型形态变化，又在持续改写今天的主导约束。这意味着，超节点竞争并不是一组静态参数的比较，而是一场围绕系统能力如何被打开、被兑现并被继续改写的持续演进。谁能够更快地把这些变量组织成可交付、可运维、可持续演进的系统能力，谁就更有可能在下一轮竞争中占据主动，并把这种主动进一步转化为产品定义权、客户信任和市场位置。

本白皮书也正是沿着这些问题展开。它更关心的，并不只是某一项技术路线本身，而是公司与产业界应如何用系统视角重新理解下一代算力建设：哪些约束真正决定结果，哪些能力需要被优先建设，哪些路线值得投入，哪些接口需要协同。沿着这一判断，白皮书试图回答四类问题：第一，系统能力边界为何形成、为何外移；第二，这些被打开的能力如何通过软件栈和运行时稳定兑现为 Goodput；第三，在不同约束条件下，当前有哪些现实工程路径可供选择；第四，未来哪些关键变量正在改写边界本身。全文据此展开为架构分析、软件系统、建模仿真、参考设计、未来演进以及 SPI 筹备和产业生态接口等部分，目标不是形成某一路线的产品宣传或协议倡议，而是提供一套更接近系统结果的共同语言，为企业路线判断、产业协同和后续比较提供分析框架；证据等级与判断口径和 SPI 则作为补充说明与后续接口，对判断强度和协作边界进一步加以说明。