Prefill/Decode 解耦部署

类别: disaggregation

动机

Prefill 计算受限, decode 内存带宽受限, 用同一组卡服务两者会浪费一半资源。解耦部署: prefill 池 (高算力卡, 如 H100) + decode 池 (大内存高带宽卡, 如 H200)