QUANTIZATION

量化方案

9 种量化方案 · 硬件支持 · 案例引用

FP4

fp4
权重位数
4
激活位数
8
支持硬件
8 / 39
已用案例
1

Microscaling FP4; introduced on Blackwell B200/B300 and AMD MI355X for inference

INT4 AWQ

awq
权重位数
4
激活位数
16
支持硬件
9 / 39
已用案例
0

Activation-aware Weight Quantization; weight-only int4

INT4 GPTQ

gptq
权重位数
4
激活位数
16
支持硬件
4 / 39
已用案例
0

Generative Pre-trained Transformer Quantization; second-order weight-only int4

W4A16

mixed
权重位数
4
激活位数
16
支持硬件
2 / 39
已用案例
0

Weight 4-bit / activation 16-bit; generic name for AWQ and GPTQ family

FP8 E4M3

fp8
权重位数
8
激活位数
8
支持硬件
22 / 39
已用案例
6

4-bit exponent, 3-bit mantissa; preferred for activations due to dynamic range

FP8 E5M2

fp8
权重位数
8
激活位数
8
支持硬件
6 / 39
已用案例
0

5-bit exponent, 2-bit mantissa; preferred for gradients/weights with wider range

INT8

int
权重位数
8
激活位数
8
支持硬件
38 / 39
已用案例
4

Symmetric or asymmetric int8 quantization; widely supported

BF16

fp
权重位数
16
激活位数
16
支持硬件
31 / 39
已用案例
10

Brain float 16; 8-bit exponent, 7-bit mantissa; default training precision since 2020

FP16

fp
权重位数
16
激活位数
16
支持硬件
34 / 39
已用案例
1

IEEE 754 half precision; 5-bit exponent, 10-bit mantissa