低精度数值格式 ¶

低精度数值格式（FP8/FP6/FP4 等）承接的是第五章里“模型先改写什么约束”这条主线。它正在从“推理加速的可选手段”演变为“训练与推理全链路的硬约束”。随着模型规模持续增长，单位参数的算力与带宽开销迫使硬件与框架同步向更窄的数值位宽演进，这不仅是省算力，更是在重新定义超节点的计算密度、通信量与内存占用之间的配比关系。

也正因为如此，面向超节点架构，低精度数值格式的意义不能只看单点性能，而要看它会先把第四章参考设计中的哪类压力放大、又会把哪类压力后移。具体影响可以从以下几个维度考察：

硬件支持与代际演进：从 NVIDIA Hopper 的 FP8 Tensor Core 到 Blackwell/Rubin 对 FP6/FP4 的原生支持，低精度计算单元的面积占比与调度粒度直接影响芯片的峰值算力与能效比。国产加速器在低精度格式支持上的代际差距，是超节点实际 Goodput 与理论峰值之间的主要 gap 之一。
量化 / 校准与数值稳定性：训练侧的混合精度（AMP/FP8 训练）对损失缩放、梯度溢出检测与动态范围管理提出更高要求；推理侧的 PTQ/QAT 需要与模型结构（MoE 的稀疏激活、长序列 Attention 的数值范围）耦合设计，否则精度损失会在业务指标上被放大。
对通信与内存子系统的连锁影响：更窄的数值格式直接缩减 AllReduce/AllGather 的通信量和 KV Cache 的内存占用，但同时要求通信库支持混合精度 reduce 与格式转换，内存管理器支持非对齐访问与紧凑布局——这些能力目前在多数国产软件栈中仍不完善。

接下来最需要补上的，是代表性模型在不同精度下的性能 / 精度权衡曲线、国产加速器的低精度格式支持现状与路线图，以及与通信库、内存语义层之间的接口约定。

对参考设计的影响 ¶

低精度不会直接改变第四章参考设计的拓扑名称，但会改变它们各自擅长处理的压力类型：

标准构型 会先受益于低精度带来的通信量和显存占用下降，因此在当前代际能够以更低成本承接更大模型规模。
探索构型 的价值则更多体现在，当计算密度被低精度继续拉高后，互联尾延迟、可重构性和调度能力会更快暴露为下一阶段瓶颈。
总线语义更强的方案 会更容易承接混合精度通信、格式转换和紧凑布局管理，因此在软件兑现度上可能占优。

低精度属于已验证趋势。FP8 已进入主流训练与推理硬件，FP6/FP4 也开始进入新一代平台的原生支持路径。当前真正需要补强的，不是“低精度是否重要”，而是三类产业证据：主流模型在不同精度下的业务指标损失、硬件厂商对低精度原生支持的代际路线、通信库与运行时对混合精度的真实承接能力。

低精度数值格式的战略意义，不只是让单次计算更快，而是重新定义算力、带宽和内存占用之间的配比关系。它会让一部分今天看似主要受限于计算的系统，更快转向受限于内存层次、通信尾延迟与软件控制面。因此，对第四章参考设计的判断不能停留在峰值算力，而必须同步评估低精度条件下的 Goodput 兑现能力。