⚡ 单卡 Decode 之冠
Gemma 4 26B on 4× H100 SXM with FP8
1,700 tok/s/card
从 138 个数据实体中自动计算的洞察。每次构建时刷新, 反映最新案例和实测校准。
全部 8 个洞察都基于实时数据 — 添加新案例后, 这些数字会自动更新。
h100-sxm5 ×4 · 假设 $2.5/h/卡 + $0.10/kWh + PUE 1.3
基于 1 个案例的 measured/theoretical 比值。理论值的 150% 已达到。
理论值的 0% — 软件栈优化空间巨大。 国产硬件常见现象, 随 CANN/MUSA/MindIE 等迭代会逐年提升。
覆盖最广的硬件 — 数据飞轮在转。
当前 0.00 vs 海外平均 1.38。 软件栈每提升 0.05, 等效硬件性能提升 ~10%。
366 → 2250 TFLOPS BF16 · 2023 → 2024
已在 3 种不同加速卡上有实测案例 — 部署友好度最高的 frontier 模型。
ICI · 4800 GB/s. 单 scale-up 域内能放下整个超大 MoE.
每次构建网站时, 这个页面遍历所有 cases / hardware / models 实体, 即时计算上述指标。 所以新增一个 case 后, "最低 $/M tokens" 等数字会自动更新。
公式见 /learn 学习中心。 数据可信度详见 /quality 数据质量。