← 首页

Prefill/Decode 解耦部署

类别: disaggregation

动机

Prefill 计算受限, decode 内存带宽受限, 用同一组卡服务两者会浪费一半资源。 解耦部署: prefill 池 (高算力卡, 如 H100) + decode 池 (大内存高带宽卡, 如 H200)

  • KV cache 通过高速互联从 prefill 传到 decode。

关键开销

  • KV cache 传输延迟 (额外的 TTFT)
  • 调度复杂度 (需要 router)

已知方案

  • Mooncake (Moonshot)
  • DistServe (UCSD)
  • SGLang disaggregated mode

支撑案例 (2)