量化方案

QUANTIZATION

9 种量化方案 · 硬件支持 · 案例引用

fp4

Microscaling FP4; introduced on Blackwell B200/B300 and AMD MI355X for inference

awq

Activation-aware Weight Quantization; weight-only int4

gptq

Generative Pre-trained Transformer Quantization; second-order weight-only int4

mixed

Weight 4-bit / activation 16-bit; generic name for AWQ and GPTQ family

fp8

4-bit exponent, 3-bit mantissa; preferred for activations due to dynamic range

fp8

5-bit exponent, 2-bit mantissa; preferred for gradients/weights with wider range

int

Symmetric or asymmetric int8 quantization; widely supported

Brain float 16; 8-bit exponent, 7-bit mantissa; default training precision since 2020

IEEE 754 half precision; 5-bit exponent, 10-bit mantissa