国产硬件 MoE expert 路由优化

类别: parallel

问题

MoE 模型在国产硬件 (昇腾 / 寒武纪等) 上, expert parallelism 的 all-to-all 通信开销显著, 因为 HCCS / MLU-Link 等私有协议的 all-to-all 实现尚不如 NVSwitch 成熟。

缓解

优先选 EP=1, 用 TP 替代 expert 分布
大 batch 才打开 EP, 小 batch 关闭
或拆 prefill / decode, prefill EP=1 减少 long-prompt 倾斜

实战观察 (2026-04)

昇腾 910B + DeepSeek-V3: EP=2 时长 prompt 出现负载倾斜, EP=1 更稳定

支撑案例 (5)