← 算子目录

Rotary Position Embedding

embedding

Rotary positional embedding applied to Q and K projections

公式

FLOPs
6 * batch * seq * hidden
Bytes
4 * batch * seq * hidden

硬件适配性 / Hardware fitness for this operator

基于代表模型 Mistral Large 3 的此算子参数 (FLOPs/token = 7.86e+5, Bytes/token = 9.83e+4, 算术强度 = 8.0 FLOP/byte)。 每行展示该硬件在 BF16 精度下的 ridge point、瓶颈类型、以及该算子可达吞吐 (TFLOP/s)。

硬件 Ridge point 瓶颈 可达 TFLOP/s 峰值利用率
Cerebras WSE-3
peak BF16 62500 TF · BW 21000 TB/s
3.0 计算 compute 62500 100%
Groq LPU (TSP v1)
peak BF16 188 TF · BW 80 TB/s
2.4 计算 compute 188 100%
NVIDIA R200 SXM (Vera Rubin)
peak BF16 7500 TF · BW 13 TB/s
576.9 内存带宽 mem-bw 104 1%
AMD Instinct MI355X
peak BF16 2300 TF · BW 8 TB/s
287.5 内存带宽 mem-bw 64 3%
NVIDIA B200 SXM 180GB
peak BF16 2250 TF · BW 8 TB/s
281.3 内存带宽 mem-bw 64 3%
NVIDIA B300 SXM 288GB
peak BF16 3750 TF · BW 8 TB/s
468.8 内存带宽 mem-bw 64 2%
NVIDIA GB200 NVL72
peak BF16 2250 TF · BW 8 TB/s
281.3 内存带宽 mem-bw 64 3%
NVIDIA GB300 NVL72
peak BF16 3750 TF · BW 8 TB/s
468.8 内存带宽 mem-bw 64 2%
昇腾 950 🇨🇳
peak BF16 1500 TF · BW 6.4 TB/s
234.4 内存带宽 mem-bw 51 3%
SambaNova SN40L
peak BF16 638 TF · BW 6.4 TB/s
99.7 内存带宽 mem-bw 51 8%
AMD Instinct MI325X
peak BF16 1307 TF · BW 6 TB/s
217.8 内存带宽 mem-bw 48 4%
Etched Sohu
peak BF16 1125 TF · BW 5.76 TB/s
195.3 内存带宽 mem-bw 46 4%

显示前 12 张 (按可达 TFLOP/s 降序) · 共 38 张可比较

使用此算子的模型 (3)