问题
MoE 模型在国产硬件 (昇腾 / 寒武纪等) 上, expert parallelism 的 all-to-all 通信 开销显著, 因为 HCCS / MLU-Link 等私有协议的 all-to-all 实现尚不如 NVSwitch 成熟。
缓解
- 优先选 EP=1, 用 TP 替代 expert 分布
- 大 batch 才打开 EP, 小 batch 关闭
- 或拆 prefill / decode, prefill EP=1 减少 long-prompt 倾斜
实战观察 (2026-04)
- 昇腾 910B + DeepSeek-V3: EP=2 时长 prompt 出现负载倾斜, EP=1 更稳定