1. Roofline 模型 — Tier 1 是怎么算的
每个推理算子的吞吐被两个上界约束:
- 计算上界: 硬件峰值 FLOPS / 算子的 FLOPs/token
- 内存带宽上界: 硬件带宽 / 算子的 bytes/token
实际吞吐 = min(compute, memory_bw) × efficiency。
两条上界的交点叫 ridge point:
- 算术强度 (FLOPs/byte) 大于 ridge → compute-bound, 加更多算力有用
- 算术强度 小于 ridge → memory-bound, 量化或更高带宽更有效
2. 三档 Evidence Tier
本站每个数字都带 evidence。我们不混淆"厂商声称"和"实测验证":
来自 vendor 白皮书、product page、datasheet。占目前数据的多数, 因为国产厂商的实测数据缺乏。
默认假设: 真实场景达 60-80% of claim
第三方或社区贡献的实测数据, 必须有 contributor attestation 和原始 log 链接。
这是项目的长期目标, 占比应逐年提升
基于公开信息的合理估算 (如反推自 MLPerf 提交、芯片照片测算)。
用于填补关键空白, 不绝对相信
目标: 让 ✅ 实测验证占比逐年提升。实时分布见 /quality →
3. 国产硬件生态 — 从软件兼容看可行性
国产 AI 加速卡的"能不能跑"取决于:
- 编程模型: CANN (昇腾) / BANG (寒武纪) / DTK+HIP (海光) / MUSA (摩尔线程) / 等等
- 算子库: 多数模型的 transformer ops 都已覆盖, 但 FP8/FP4/MoE 等新特性还在追赶
- 推理引擎: 官方版 (MindIE 等) vs 社区移植 (vllm-ascend / vllm-musa / lmdeploy-mlu)
- 量化精度: BF16/FP16 普遍支持, INT8 大多支持, FP8/FP4 大多不支持
出口管制后, 性能正在快速演进 — 看 /china 的代际谱系 跟踪。
4. Disaggregated 推理是什么
传统部署: 同一组 GPU 既跑 prefill (compute-heavy) 又跑 decode (memory-bw-heavy), 浪费一半资源。
Disaggregated 部署:
- Prefill 池: 高算力卡 (如 H100) 处理 prompt
- Decode 池: 大显存高带宽卡 (如 H200) 跑生成
- KV cache 通过 scale-out 网络从 prefill 池传到 decode 池
代价: 调度复杂度 + 额外的 KV transfer 延迟 (额外 TTFT)。收益: 单 token 成本可降 30-50%。
已知方案: Mooncake (Moonshot), DistServe (UCSD), SGLang disagg。
5. 算子拆解 — Tier 1 Roofline 的输入
每个模型在 operator_decomposition 字段下列出关键算子的 per-token 成本:
operator_decomposition:
- operator: matmul
flops_per_token: 4.8e9
bytes_per_token: 1.8e7
- operator: attention
flops_per_token: 1.2e9
bytes_per_token: 4.5e6
- operator: moe-gate
flops_per_token: 1.0e7
bytes_per_token: 1.0e6
- operator: rmsnorm
flops_per_token: 5.0e6
bytes_per_token: 1.0e6 这些数字基于模型架构 (layers, hidden, heads, ffn 等) 推导。本站的 scripts/decompose-operators.ts 自动生成。
6. TCO ($/M tokens) 的直观公式
$/M tokens = (硬件 $/h × 卡数 + 功耗 kW × $/kWh × PUE × 卡数) × 1M
─────────────────────────────────────────────
decode_throughput tok/s × 3600 / 1M 变量都在计算器中可调。PUE 是数据中心额外冷却开销, 1.3 是行业典型值。
7. 怎么用这个站做选型
- 知道目标模型 → 看 模型详情, 看支持哪些硬件
- 选几张候选卡 → 用 对比页 看雷达图 + Roofline 叠加
- 跑一遍 计算器 → 看 Tier 0 (有 case 直接看实测) + Tier 1 (理论上界)
- 看 /quality 数据质量 → 评估 evidence 可靠度
- 需要替代卡? 每张硬件详情页底部都有"替代卡推荐" (含跨国别替代标记)