跳转至

系统模型:把需求、供给与策略压成边界上的点

如果说负载模型定义了需求空间,资源模型定义了供给边界,那么系统模型的职责,就是把两者真正连接起来,形成可比较的系统行为(System Behavior)。它回答的不是“这台系统理论上有多强”,而是更直接也更关键的问题:给定一组工作负载、资源画像与策略选择,系统会在多目标空间中落到哪里,这个点为什么落在那里,又有哪些区域值得进一步用高保真方法校准。

从这个意义上说,系统模型更像一个边界生成引擎。它并不追求给出一个永远唯一正确的答案,而是要把需求、供给与策略压缩成一批带解释力的候选点,并说明这些点为什么会连成某种边界形状。也正因为如此,系统模型天然要支持“快速描边 + 关键点校准”的工作方式,而不是把所有问题都压到同一保真度上去处理。

系统模型做的事情,归根到底只有两步。第一步,把逻辑负载映射到具体物理资源;第二步,把这些资源在时间轴上的竞争、重叠、排队、同步和恢复过程推演出来。前者决定候选点大致落在多目标空间的哪里,后者决定这些点会不会因为抖动、拥塞、状态膨胀或恢复路径而发生显著偏移。很多看似更优的路线,最后并不是输在峰值能力不足,而是输在映射关系、通信展开方式、资源仲裁机制以及控制面组织把收益在系统层面耗散掉了。

供给侧:资源对象与保真度分层

系统模型的 " 第一步 "——逻辑负载映射到物理资源——首先取决于供给侧长什么样。对超节点分析而言,供给侧不是一组孤立硬件参数,而是一整套 " 系统在长期运行中能够稳定供给什么 " 的能力结构。资源对象不应按 " 硬件类别 " 挑选,而应按 " 是否会改变边界形状 " 挑选 5

资源对象 理论上界参数 代价曲面(性能开始退化的机制) 对前沿的塑形作用
计算资源 峰值 FLOPS(FP16/FP8/INT8SM/CU 数量、功耗墙 精度降级损失、功耗限流、热降频、多租户争用 决定算子执行效率与单位能耗边界
存储资源 HBM 容量与带宽、DDR 容量、NVMe 交换带宽 分页碎片化、缺页代价、HBM-DDR 交换长尾、驱逐抖动 决定显存可行域和 KV Cache 管理效率
互联资源 链路带宽(NVLink/PCIe/Ethernet、端口数、拓扑 拥塞窗口收缩、多路径不均衡、重传代价、跨平面干扰 决定通信吞吐和同步放大程度
Runtime 资源 启动延迟、调度周期、内存分配开销 kernel launch 累积、调度排队、allocator 碎片化 侵入关键路径时直接降低 MFU 和增大气泡率
RAS 资源 故障率(FIT、检测延迟、隔离粒度、MTTR 恢复路径引入的停机时间、checkpoint 写入开销、回稳抖动 决定长期 Goodput 与理论峰值之间的折扣系数

Runtime RAS 视作资源而非附注,是超节点建模与传统设备评测的重要分界之一。此外,规格表不会主动交代的系统级变量同样必须显式纳入:

系统级变量 影响路径 如果不纳入会怎样
多平面网络组织(参数面 / 数据面 / 业务面) 决定哪些流量会侵入主路径 低估通信长尾和跨平面干扰
统一调度(粒度、周期、重平衡延迟) 决定理论资源何时变为可执行资源 高估资源利用率,低估调度开销
长期运行状态(故障率、碎片率、恢复时间) 决定长期 Goodput 距离理论值多远 把稳态快照误判为长期表现
设施侧约束(机柜功率、液冷能力、PUE、建设周期) 决定设计点是否可部署 把纸面最优当成工程可达

这些资源事实的获取成本差异巨大,因此资源描述必须在保真度上分层 6

保真度层级 数据来源 单点成本 适用阶段
L1 解析层 公开规格、协议上界、Roofline 公式、TCO 参数 极低(毫秒级) 全空间快速扫描,排除被支配区域
L2 画像层 微基准、子系统压测、collective benchmark、trace 拟合 中等(分钟级) 甜点区识别、主要方案对比
L3 行为层 细粒度事件仿真、故障注入、控制面日志、拥塞演练 高(小时级) 候选前沿点、跳变点、异常点校准

原则是 " 先足够便宜地覆盖大范围,再足够有针对性地收紧关键区域 "。只有当这些资源事实被沉淀为可调用、版本化、带适用边界的对象时,系统模型才能在可承受的成本下先描边、再校准。

系统模型的状态维护

这也是为什么系统模型不能只是一个“性能估算器”。如果它只返回最终吞吐和延迟,而不显式维护队列状态、链路占用、显存状态、调度状态和恢复状态,那么 Goodput、长尾、恢复损失和工程可达前沿这些关键问题就都失去了因果落点。真正重要的,不只是最后的一个分数,而是这些状态如何沿时间演化,并最终塑造了边界的位置 1

系统模型需要显式维护的状态变量,至少包含以下几类:

状态类别 代表性变量 为什么必须显式维护
执行状态 算子占用时序、pipeline 阶段进度、micro-batch 调度槽位 不维护则无法解释气泡率和重叠效率
通信状态 链路占用率、Outstanding 消息数、拥塞窗口、多路径负载分布 不维护则无法解释同步放大和通信长尾
显存状态 HBM 占用曲线、KV Cache 页表、激活值生命周期、swap 队列深度 不维护则显存可行域边界无从标定
调度状态 batch 组成、请求排队深度、admission 阀值、优先级队列 不维护则推理侧吞吐 - 时延权衡无法建模
恢复状态 故障检测延迟、隔离粒度、checkpoint 回滚代价、回稳时间 不维护则 Goodput 只是理想稳态的乐观估计

训练前沿为什么会被塑形

训练系统并不围绕单次延迟最优展开,而是围绕稳态吞吐、同步放大和资源连续利用展开。对超节点产业真正重要的,不是复现全部训练细节,而是抓住那些真正决定前沿形状的变量。

第一个变量是同步边界。训练具有清晰的迭代结构和一致性约束,局部拖尾会沿同步路径被不断放大,最终决定整轮 step time。因此,训练模型至少要显式刻画迭代边界、全局同步点以及局部抖动如何被放大成全局吞吐损失。很多时候,看似只是局部链路或局部节点的轻微退化,最后却会表现为整条系统前沿的明显内收。

第二个变量是气泡、重叠与平面干扰。训练前沿常常不是被峰值带宽或峰值算力直接决定,而是被结构性依赖、阶段失衡、理论重叠与实际重叠之间的差距,以及参数面、数据面与业务面互扰共同塑形 2。换句话说,真正需要建模的不是某个局部现象本身,而是这些现象如何共同决定“同样的硬件资源能否真正逼近前沿”。

以典型的 3D 并行训练为例,塑形训练前沿的关键变量及其边界效应可整理如下:

塑形变量 具体机制 对前沿的效应 建模最低要求
同步边界放大 局部拖尾沿 DP/PP 同步路径传播 step time 被最慢 rank 决定,前沿向内收缩 迭代边界、全局同步点、拖尾放大因子
气泡与阶段失衡 PP 阶段间计算量不均、warmup/cooldown 阶段闲置 气泡率 1030% 常见,直接拉低 MFU pipeline 调度时序、阶段计算量比
理论重叠 vs 实际重叠 计算 - 通信 overlap 受限于内核粒度和流控 理论 overlap 100% vs 实际 60–80%,拉大理论 - 可达差距 算子粒度、通信启动延迟、流依赖
多平面干扰 参数面(gradient sync、数据面(activation、控制面互扰 链路竞争导致通信长尾和抖动放大 流量矩阵、链路共享拓扑、优先级策略
显存可行域截断 激活、梯度、优化器状态峰值重叠 部分理论最优配置被显存不足直接排除 生命周期曲线、重计算 / 卸载交换代价
恢复路径 故障检测→隔离→checkpoint 回滚→回稳 长期 Goodput = 稳态吞吐 × 有效时间占比 检测延迟、回滚代价、MTTR、故障率

第三个变量是显存可行域。训练显存不是静态预算,而是由生命周期、同步边界和策略取舍共同塑造的动态曲线。峰值显存出现在哪里,激活值与梯度、优化器状态如何重叠,重计算与卸载又如何在算力压力和带宽压力之间交换,这些都会决定很多训练路线是不是在被算力卡死之前,就已经先被显存边界截断。

第四个变量是恢复路径。在大规模训练里,故障并不是偶发离群值,而是长期运行的背景噪声。若系统模型不显式定义“故障发生后如何回到稳态”,所有吞吐结果都会默认建立在过强的健康稳态假设上 3。因此,训练模型至少要覆盖检测延迟、隔离粒度、恢复方式和回稳时间,因为这些量本身就是长期 Goodput 的组成部分,而不是系统边缘条件。

推理前沿为什么会被塑形

推理系统与训练系统的差别在于,它并不围绕强同步迭代边界,而是围绕持续到达的请求流、阶段异质性和 SLA 约束展开。对超节点产业而言,推理建模的核心不是估算单个 token 有多快,而是解释请求流、调度器与状态变量如何共同决定 TTFTTPOT 与系统级 Goodput

第一个变量是到达过程与调度入口。请求流的形状本身就是推理前沿的一部分:Poisson 流、突发流和 trace 回放会把系统推到完全不同的排队状态;静态批、连续批、优先级批和 admission control 又会改变请求进入执行面的方式。高并发、短时长、强实时场景下,很多退化并不是来自算子慢,而是来自调度器响应速度跟不上请求结构的变化 4

第二个变量是 Prefill/Decode 阶段差异。推理负载并不是均匀的:Prefill 更接近计算上界,Decode 更接近访存和状态管理上界。若系统模型不把这两个阶段拆开,就无法解释为什么某些架构在平均吞吐上看似合理,却在用户体验上彻底失败。阶段计算和访存差异、阶段切换成本,以及聚合、PD 分离、异构 PD 等映射策略,都应纳入建模。

第三个变量是 KV Cache 与显存状态。推理侧很多架构收益与失效都发生在 KV Cache 管理上:分页与碎片化、交换与驱逐,以及多模型多租户或长短请求混部下的状态干扰,往往决定“理论前沿”与“工程可达前沿”之间的距离。若系统模型只看平均带宽和平均显存占用,它几乎一定会把推理侧最重要的一批拐点画错。

第四个变量是控制变量的开放程度。如果推理建模退化成“换一组 batch 再跑一次”,它就无法真正承担描边工作。系统模型必须把以下控制变量作为可扫描维度开放出来:

控制变量 可扫描范围 对前沿的影响机制
请求到达模型 Poisson λ, 突发倍率 , trace 回放速率 改变排队深度和调度器压力,直接影响 P95/P99
合批策略 静态 batch, 连续 batch, 最大 batch 上限 吞吐与时延的直接权衡杠杆
阶段映射策略 聚合 , PD 分离 , 异构 PD, chunk prefill 决定 TTFT/TPOT 能否独立优化
KV 管理策略 分页粒度 , swap 阈值 , 驱逐策略 决定长请求和混部场景下的显存效率
并行度 TP, PP , 副本数 改变单请求路径效率 vs 系统级并行利用
限流与重平衡 admission rate, 过载保护 , 跨实例路由 决定高负载下 SLA 达标率和 Goodput

只有让边界能够在这些维度上被系统性观察,分析才不会停留在几个手工挑选的点上。

三层结果:坐标、状态与归因

当训练侧和推理侧这两条逻辑都成立时,系统模型给出的就不该只是几组分数,而应同时包含三层结果:

层次 内容 意义
L1 坐标层 吞吐、时延、利用率、Goodput、能效、成本 直接放入多目标空间,支撑非支配集合计算和前沿描绘
L2 状态层 执行轨迹、队列状态、链路占用率、显存曲线、调度时序 校准验证时用来解释偏差来源,锁定模型需要修正的环节
L3 归因层 同步放大因子、重叠衰减率、瓶颈归因(计算 / 通信 / 显存 / 调度、敏感性系数 解释边界为什么在某个位置、为什么会移动,支撑参考设计比较的因果叙事

没有 L1,边界无法比较;没有 L2,点位无法被校准;没有 L3,边界为何移动就无从解释。三层之间并不是简单的精度递进,而是服务于不同阶段、不同角色的分析需求:L1 面向决策者,L2 面向校准工程师,L3 面向架构分析师。

也因此,评测不应成为系统模型的主体。系统模型负责生成边界候选点并解释其形成机制,评测只负责在关键区域校准这些点。只有把这条分工讲清楚,系统模型才不会退化为“测评罗列”的别名,而能真正承担边界比较的职责。


  1. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 18-21 页、第 27-28 页。涉及多平面流量、统一调度、资源碎片、故障恢复与长期稳定运行。 

  2. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 16-19 页。涉及参数面 / 数据面 / 业务面分层以及多平面网络组织。 

  3. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 27-28 页。涉及故障频发、智能容错、快速恢复与长期运行稳定性。 

  4. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 27 页、第 30-31 页。涉及推理 / 智能体业务的高并发、短时长、强实时特点,以及统一调度和资源配置压力。 

  5. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 18-21 页、第 25-28 页。涉及参数面 / 数据面 / 业务面分层、统一调度、长期运营与设施侧约束。 

  6. 《超大规模智算集群关键技术及工程落地研究报告》, 2025 12 , 19-21 页、第 27-28 页。涉及调度开销、资源碎片、故障恢复和长期稳定运行要求。