精选发现 · EvoKernel Spec

SHOWCASE

精选发现 · 数据告诉我们什么

从 138 个数据实体中自动计算的洞察。每次构建时刷新, 反映最新案例和实测校准。

全部 8 个洞察都基于实时数据 — 添加新案例后, 这些数字会自动更新。

⚡ 单卡 Decode 之冠

1,700 tok/s/card

h100-sxm5 ×4 · gemma-4 · tensorrt-llm · fp8-e4m3

💰 最低 $/M tokens

$0.42 /M tokens

h100-sxm5 ×4 · 假设 $2.5/h/卡 + $0.10/kWh + PUE 1.3

🎯 实测校准最高 (软件栈最成熟)

1.50 / 1.00

基于 1 个案例的 measured/theoretical 比值。理论值的 150% 已达到。

⚠️ 实测校准最低 (软件栈待优化)

0.00 / 1.00

理论值的 0% — 软件栈优化空间巨大。国产硬件常见现象, 随 CANN/MUSA/MindIE 等迭代会逐年提升。

📊 测试最广 (社区贡献最多)

3 个 case

覆盖最广的硬件 — 数据飞轮在转。

🚀 国产软件栈追赶机会

+138 百分点仍可优化

当前 0.00 vs 海外平均 1.38。软件栈每提升 0.05, 等效硬件性能提升 ~10%。

📈 最大代际跃迁

+515 % BF16

366 → 2250 TFLOPS BF16 · 2023 → 2024

🌍 跨硬件可移植性之冠

3 种硬件

已在 3 种不同加速卡上有实测案例 — 部署友好度最高的 frontier 模型。

🏗 Scale-up 域王者

8960 cards / domain

ICI · 4800 GB/s. 单 scale-up 域内能放下整个超大 MoE.

每次构建网站时, 这个页面遍历所有 cases / hardware / models 实体, 即时计算上述指标。所以新增一个 case 后, "最低 $/M tokens" 等数字会自动更新。