← 引擎目录

SGLang

0.4.0 维护: community

High-performance serving with RadixAttention and disaggregated prefill/decode

资源

源码

https://github.com/sgl-project/sglang

支持厂商

nvidia, amd

兼容硬件 (9)

AMD Instinct MI300X 官方 AMD Instinct MI325X 官方 AMD Instinct MI355X 官方 NVIDIA A100 SXM4 80GB 官方 NVIDIA B200 SXM 180GB 官方 NVIDIA GB200 NVL72 官方 NVIDIA H100 SXM5 80GB 官方 NVIDIA H200 SXM 141GB 官方 NVIDIA L40S 官方

使用本引擎的案例 (2)

DeepSeek V4 Flash with disaggregated prefill (H100) + decode (H200) via Mooncake

h200-sxm ×16 · deepseek-v4-flash · 9600 tok/s · 2026-04-27
Qwen3.6 Plus on 8× MI325X with SGLang FP8

mi325x ×8 · qwen3.6-plus · 3100 tok/s · 2026-04-26