LEARN

如何看懂这个站

部署计算的方法论 · evidence 引证体系 · 国产硬件背景

1. Roofline 模型 — Tier 1 是怎么算的

每个推理算子的吞吐被两个上界约束:

  • 计算上界: 硬件峰值 FLOPS / 算子的 FLOPs/token
  • 内存带宽上界: 硬件带宽 / 算子的 bytes/token

实际吞吐 = min(compute, memory_bw) × efficiency

两条上界的交点叫 ridge point:

  • 算术强度 (FLOPs/byte) 大于 ridge → compute-bound, 加更多算力有用
  • 算术强度 小于 ridge → memory-bound, 量化或更高带宽更有效

在计算器里看实际 Roofline 图 →

2. 三档 Evidence Tier

本站每个数字都带 evidence。我们不混淆"厂商声称"和"实测验证":

📄 官方声称

来自 vendor 白皮书、product page、datasheet。占目前数据的多数, 因为国产厂商的实测数据缺乏。

默认假设: 真实场景达 60-80% of claim

✅ 实测验证

第三方或社区贡献的实测数据, 必须有 contributor attestation 和原始 log 链接。

这是项目的长期目标, 占比应逐年提升

⚠️ 社区估算

基于公开信息的合理估算 (如反推自 MLPerf 提交、芯片照片测算)。

用于填补关键空白, 不绝对相信

目标: 让 ✅ 实测验证占比逐年提升。实时分布见 /quality →

3. 国产硬件生态 — 从软件兼容看可行性

国产 AI 加速卡的"能不能跑"取决于:

  1. 编程模型: CANN (昇腾) / BANG (寒武纪) / DTK+HIP (海光) / MUSA (摩尔线程) / 等等
  2. 算子库: 多数模型的 transformer ops 都已覆盖, 但 FP8/FP4/MoE 等新特性还在追赶
  3. 推理引擎: 官方版 (MindIE 等) vs 社区移植 (vllm-ascend / vllm-musa / lmdeploy-mlu)
  4. 量化精度: BF16/FP16 普遍支持, INT8 大多支持, FP8/FP4 大多不支持

出口管制后, 性能正在快速演进 — 看 /china 的代际谱系 跟踪。

4. Disaggregated 推理是什么

传统部署: 同一组 GPU 既跑 prefill (compute-heavy) 又跑 decode (memory-bw-heavy), 浪费一半资源。

Disaggregated 部署:

  • Prefill 池: 高算力卡 (如 H100) 处理 prompt
  • Decode 池: 大显存高带宽卡 (如 H200) 跑生成
  • KV cache 通过 scale-out 网络从 prefill 池传到 decode 池

代价: 调度复杂度 + 额外的 KV transfer 延迟 (额外 TTFT)。收益: 单 token 成本可降 30-50%。

已知方案: Mooncake (Moonshot), DistServe (UCSD), SGLang disagg

看一个真实 disagg 案例 →

5. 算子拆解 — Tier 1 Roofline 的输入

每个模型在 operator_decomposition 字段下列出关键算子的 per-token 成本:

operator_decomposition:
  - operator: matmul
    flops_per_token: 4.8e9
    bytes_per_token: 1.8e7
  - operator: attention
    flops_per_token: 1.2e9
    bytes_per_token: 4.5e6
  - operator: moe-gate
    flops_per_token: 1.0e7
    bytes_per_token: 1.0e6
  - operator: rmsnorm
    flops_per_token: 5.0e6
    bytes_per_token: 1.0e6

这些数字基于模型架构 (layers, hidden, heads, ffn 等) 推导。本站的 scripts/decompose-operators.ts 自动生成。

6. TCO ($/M tokens) 的直观公式

$/M tokens = (硬件 $/h × 卡数 + 功耗 kW × $/kWh × PUE × 卡数) × 1M
              ─────────────────────────────────────────────
                          decode_throughput tok/s × 3600 / 1M

变量都在计算器中可调。PUE 是数据中心额外冷却开销, 1.3 是行业典型值。

7. 怎么用这个站做选型

  1. 知道目标模型 → 看 模型详情, 看支持哪些硬件
  2. 选几张候选卡 → 用 对比页 看雷达图 + Roofline 叠加
  3. 跑一遍 计算器 → 看 Tier 0 (有 case 直接看实测) + Tier 1 (理论上界)
  4. /quality 数据质量 → 评估 evidence 可靠度
  5. 需要替代卡? 每张硬件详情页底部都有"替代卡推荐" (含跨国别替代标记)

参考资料