Qwen3.6 Plus

alibaba MOE text vision Apache-2.0 2026-03-25

架构

Total params

480 B

Active params

35 B

Layers

64

Context

1024 k

详细规格

Hidden size

6144

FFN size

16384

Attention heads

64

KV heads

8

Head dim

128

Vocab size

152064

Attention type

gqa

MoE experts

128

MoE top-k

8

Expert hidden

2048

算子拆解 (per token)

算子	FLOPs / token	Bytes / token
matmul	3.87e+10	3.87e+10
attention	1.29e+10	2.01e+10
moe-gate	5.03e+7	1.29e+10
rmsnorm	3.93e+6	1.57e+6

兼容硬件

— 未知 AMD Instinct MI300A — 未知 AMD Instinct MI300X 🟢 实测 AMD Instinct MI325X — 未知 AMD Instinct MI355X — 未知 Apple M4 Max Neural Engine — 未知 AWS Inferentia 2 — 未知 AWS Trainium 2 — 未知壁仞 BR100 — 未知壁仞 BR104 — 未知寒武纪 MLU370-X8 🟢 实测寒武纪思元 590 — 未知 Cerebras WSE-3 — 未知燧原云燧 T21 — 未知 Etched Sohu — 未知 Google TPU v5p — 未知 Google TPU Trillium (v6e) — 未知 Groq LPU (TSP v1) — 未知昇腾 910B — 未知昇腾 910C — 未知昇腾 950 — 未知海光 DCU K100 — 未知海光 DCU Z100 — 未知天数智芯天垓 100 — 未知 Intel Gaudi 2 — 未知 Intel Gaudi 3 — 未知沐曦曦云 C500 — 未知摩尔线程 MTT S4000 — 未知 NVIDIA A100 SXM4 80GB — 未知 NVIDIA B200 SXM 180GB — 未知 NVIDIA B300 SXM 288GB — 未知 NVIDIA GB200 NVL72 — 未知 NVIDIA GB300 NVL72 — 未知 NVIDIA H100 SXM5 80GB — 未知 NVIDIA H200 SXM 141GB — 未知 NVIDIA L40S — 未知 NVIDIA R200 SXM (Vera Rubin) — 未知平头哥含光 800 — 未知 SambaNova SN40L — 未知 Tenstorrent Wormhole n300

在计算器中评估 → 预设 8× H100 预设 8× 昇腾 910C 预设 8× MI355X (FP4)