vLLM
0.6.0 维护: community
Most widely used; ascend / rocm / musa forks for non-NVIDIA hardware
资源
支持厂商
nvidia, amd, intel, aws, google, huawei, cambricon, hygon, moore-threads
兼容硬件 (32)
AMD Instinct MI300A 官方 AMD Instinct MI300X 官方 AMD Instinct MI325X 官方 AMD Instinct MI355X 官方 Apple M4 Max Neural Engine 社区 AWS Inferentia 2 社区 AWS Trainium 2 社区 Cerebras WSE-3 社区 燧原 云燧 T21 社区 Etched Sohu 社区 Google TPU v5p 社区 Google TPU Trillium (v6e) 社区 Groq LPU (TSP v1) 社区 昇腾 910B 社区 昇腾 910C 社区 昇腾 950 社区 海光 DCU K100 社区 海光 DCU Z100 社区 Intel Gaudi 2 社区 Intel Gaudi 3 社区 摩尔线程 MTT S4000 社区 NVIDIA A100 SXM4 80GB 官方 NVIDIA B200 SXM 180GB 官方 NVIDIA B300 SXM 288GB 官方 NVIDIA GB200 NVL72 官方 NVIDIA GB300 NVL72 官方 NVIDIA H100 SXM5 80GB 官方 NVIDIA H200 SXM 141GB 官方 NVIDIA L40S 官方 NVIDIA R200 SXM (Vera Rubin) 官方 SambaNova SN40L 社区 Tenstorrent Wormhole n300 社区
使用本引擎的案例 (15)
- DeepSeek V4 Flash on 8×H100 SXM with vLLM FP8h100-sxm5 ×8 · deepseek-v4-flash · 4200 tok/s · 2026-04-28
- Llama 3.3 70B on 8× A100 SXM4 80GB with vLLMa100-sxm4 ×8 · llama-3.3-70b · 1480 tok/s · 2026-04-28
- Llama 4 Scout on 8×H100 SXM with vLLM (public benchmark)h100-sxm5 ×8 · llama-4-scout · 1850 tok/s · 2026-04-28
- Qwen2.5-Coder 32B on 4× L40S with vLLM (FP8)l40s ×4 · qwen2.5-coder-32b · 580 tok/s · 2026-04-28
- GLM-5.1 on 8× H200 SXM with vLLM BF16h200-sxm ×8 · glm-5.1 · 2400 tok/s · 2026-04-26
- Llama 4 Maverick on TPU Trillium (v6e) 256-chip podtrillium ×256 · llama-4-maverick · 5800 tok/s · 2026-04-25
- Llama 4 Scout on 8× Hygon DCU K100 with vLLMdcu-k100 ×8 · llama-4-scout · 850 tok/s · 2026-04-25
- Qwen3.5 397B Reasoning on 8× MI355X with FP4mi355x ×8 · qwen3.5-397b · 4500 tok/s · 2026-04-24
- DeepSeek V4 Flash on 16× MTT S4000 (Moore Threads KUAE)mtt-s4000 ×16 · deepseek-v4-flash · 320 tok/s · 2026-04-23
- Kimi K2.6 on 16× Cambricon MLU590 (with vLLM port)mlu590 ×16 · kimi-k2.6 · 480 tok/s · 2026-04-22
- Llama 4 Scout on 8× MI300X with vLLM BF16mi300x ×8 · llama-4-scout · 2200 tok/s · 2026-04-22
- GLM-5.1 on 8× Biren BR104 (export-control variant)br104 ×8 · glm-5.1 · 240 tok/s · 2026-04-20
- GPT-OSS on 8× Intel Gaudi 3 with vLLMgaudi-3 ×8 · gpt-oss · 2900 tok/s · 2026-04-20
- DeepSeek V3 on AWS Trainium 2 (64-chip Trn2 instance)trainium-2 ×64 · deepseek-r1 · 3600 tok/s · 2026-04-19
- Gemma 4 on 4× MetaX 曦云 C500 with INT8metax-c500 ×4 · gemma-4 · 580 tok/s · 2026-04-18