Matrix Multiplication
matmul
General matrix multiply (GEMM); base operator for FFN and attention projections
公式
FLOPs
2 * M * N * KBytes
2 * (M*K + K*N + M*N)硬件适配性 / Hardware fitness for this operator
基于代表模型 Llama 4 Scout 的此算子参数 (FLOPs/token = 2.42e+10, Bytes/token = 2.42e+10, 算术强度 = 1.0 FLOP/byte)。 每行展示该硬件在 BF16 精度下的 ridge point、瓶颈类型、以及该算子可达吞吐 (TFLOP/s)。
| 硬件 | Ridge point | 瓶颈 | 可达 TFLOP/s | 峰值利用率 |
|---|---|---|---|---|
| Cerebras WSE-3 peak BF16 62500 TF · BW 21000 TB/s | 3.0 | 内存带宽 mem-bw | 21000 | 34% |
| Groq LPU (TSP v1) peak BF16 188 TF · BW 80 TB/s | 2.4 | 内存带宽 mem-bw | 80 | 43% |
| NVIDIA R200 SXM (Vera Rubin) peak BF16 7500 TF · BW 13 TB/s | 576.9 | 内存带宽 mem-bw | 13 | 0% |
| AMD Instinct MI355X peak BF16 2300 TF · BW 8 TB/s | 287.5 | 内存带宽 mem-bw | 8 | 0% |
| NVIDIA B200 SXM 180GB peak BF16 2250 TF · BW 8 TB/s | 281.3 | 内存带宽 mem-bw | 8 | 0% |
| NVIDIA B300 SXM 288GB peak BF16 3750 TF · BW 8 TB/s | 468.8 | 内存带宽 mem-bw | 8 | 0% |
| NVIDIA GB200 NVL72 peak BF16 2250 TF · BW 8 TB/s | 281.3 | 内存带宽 mem-bw | 8 | 0% |
| NVIDIA GB300 NVL72 peak BF16 3750 TF · BW 8 TB/s | 468.8 | 内存带宽 mem-bw | 8 | 0% |
| 昇腾 950 🇨🇳 peak BF16 1500 TF · BW 6.4 TB/s | 234.4 | 内存带宽 mem-bw | 6 | 0% |
| SambaNova SN40L peak BF16 638 TF · BW 6.4 TB/s | 99.7 | 内存带宽 mem-bw | 6 | 1% |
| AMD Instinct MI325X peak BF16 1307 TF · BW 6 TB/s | 217.8 | 内存带宽 mem-bw | 6 | 0% |
| Etched Sohu peak BF16 1125 TF · BW 5.76 TB/s | 195.3 | 内存带宽 mem-bw | 6 | 1% |
显示前 12 张 (按可达 TFLOP/s 降序) · 共 38 张可比较
使用此算子的模型 (19)
- DeepSeek V4 FlashFLOPs/token: 1.13e+10 · Bytes/token: 1.13e+10
- DeepSeek V4 ProFLOPs/token: 4.80e+9 · Bytes/token: 1.80e+7
- Kimi K2.6FLOPs/token: 4.76e+10 · Bytes/token: 4.76e+10
- MiniMax M2.7FLOPs/token: 4.83e+10 · Bytes/token: 4.83e+10
- GLM-5.1FLOPs/token: 3.87e+10 · Bytes/token: 3.87e+10
- Qwen3.6 PlusFLOPs/token: 3.87e+10 · Bytes/token: 3.87e+10
- Mistral Small 4FLOPs/token: 1.76e+10 · Bytes/token: 1.76e+10
- GLM-5 ReasoningFLOPs/token: 3.30e+10 · Bytes/token: 3.30e+10
- Qwen3.5 397B ReasoningFLOPs/token: 2.82e+10 · Bytes/token: 2.82e+10
- Gemma 4 26BFLOPs/token: 8.86e+9 · Bytes/token: 8.86e+9
- Mistral Large 3FLOPs/token: 2.32e+11 · Bytes/token: 2.32e+11
- GPT-OSSFLOPs/token: 7.17e+9 · Bytes/token: 7.17e+9
- Llama 4 MaverickFLOPs/token: 2.42e+10 · Bytes/token: 2.42e+10
- Llama 4 ScoutFLOPs/token: 2.42e+10 · Bytes/token: 2.42e+10
- DeepSeek R1FLOPs/token: 4.84e+10 · Bytes/token: 4.84e+10
- Llama 3.3 70B InstructFLOPs/token: 1.32e+11 · Bytes/token: 1.32e+11
- Qwen2.5-Coder 32B InstructFLOPs/token: 6.05e+10 · Bytes/token: 6.05e+10
- AlphaFold 3FLOPs/token: 1.20e+9 · Bytes/token: 4.00e+8
- GraphCastFLOPs/token: 1.80e+8 · Bytes/token: 6.00e+7