H100 并不只是“更快的 GPU”,它更像一台围绕大模型推理重新平衡过的系统。张量计算吞吐、显存带宽、缓存行为与互连路径,都会直接决定推理时的真实表现。
真正重要的是完整推理路径
大模型推理常常受限于权重、激活值和 KV cache 在系统中的移动方式,因此不能只盯着理论算力。精度格式、带宽供给和执行调度,才是吞吐能否成立的关键。
- tensor core 决定了 Transformer 中大量矩阵运算的执行效率
- HBM 带宽决定模型状态能否被持续稳定地拉取
- 当 batch 与上下文增长时,缓存与互连会成为新的瓶颈
- LPX 在这里可视作支撑高吞吐推理所需的低精度执行路径
因此,推理效率本质上是系统问题。只有当硬件结构、模型精度策略和服务方式彼此匹配时,H100 这类架构的优势才会真正兑现。