G Google Last verified

Google TPU v5p

PROPRIETARY 在售 发布于 2023 tpu-v5
BF16
TFLOP/s
459 厂商声称
FP8
TFLOP/s
不支持
FP4
TFLOP/s
不支持
Memory
GB
95 厂商声称
Mem BW
GB/s
2765 厂商声称
TDP
W
700 厂商声称

完整规格

算力

FP4 TFLOPS
不支持
FP8 TFLOPS
不支持
BF16 TFLOPS
459
FP16 TFLOPS
459
INT8 TOPS
918

显存

容量
95 GB
带宽
2765 GB/s
类型
HBM2e

芯片架构 🟢 vendor floorplan

XPU count
4
HBM stacks
4
制程
5 nm

Scale-Up (节点内)

协议
ICI
单链带宽
4800 GB/s
World size
8960
拓扑
3d-torus
交换机

Scale-Out (节点间)

单卡出口
100 Gbps
协议
DCN
NIC

拓扑示意

拓扑结构 · Topology
8960 卡 scale-up domain
芯片内部 / Die-level architecture
HBM HBM HBM HBM Google TPU v5p L2 / shared cache · NoC L1$ / register file (per XPU) 4 XPUs · darker block = tensor / matrix engine 459 TFLOPS BF16 · 95 GB HBM2e @ 2.8 TB/s · 700 W TDP

🟢 vendor floorplan 4 XPUs · 4× HBM · 5 nm


集群拓扑 / Cluster topology · ICI @ 4800 GB/s
Spine (ICI fabric) Leaf switches N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 N13 N14 N15 N16 N17 N18 N19 N20 N21 N22 N23 N24 N25 N26 N27 N28 N29 N30 N31 N32 Super-pod (rack-scale) · 8960 cards in single scale-up domain · 4800 GB/s/link · 2-tier Clos fabric
Scale-Up · 域内
ICI
4800 GB/s · 拓扑: 3d-torus
world_size = 8960
Scale-Out · 跨域
DCN
100 Gbps/卡 NIC

能跑哪些模型?

Quick estimates · decode tok/s/card 上界

TP=8 · BF16 · batch=16 · prefill=1024 · decode=256 · 已应用 efficiency 校准

在计算器中调整 →
模型 参数 (active) Decode tok/s/card 瓶颈
DeepSeek V4 Pro
deepseek
49B 显存不足
DeepSeek V4 Flash
deepseek
13B 79 内存带宽
Mistral Small 4
mistral
22B 36 内存带宽
GLM-5 Reasoning
zhipu
32B 30 内存带宽
GLM-5.1
zhipu
32B 显存不足
Qwen3.6 Plus
alibaba
35B 显存不足
Kimi K2.6
moonshot
32B 显存不足
MiniMax M2.7
minimax
46B 显存不足

算子级 fit · 任意模型瓶颈类型 + 上界

算子级 fit · operator-level fit (per-token roofline)

基于每个模型 operator_decomposition + 本卡 BF16 459 TFLOPS / 2,765 GB/s 计算 · ridge point ≈ 166 FLOPs/byte

上界 = min(计算屋顶, 内存带宽屋顶) · efficiency 未应用
模型 domain 主导算子 AI · F/B 瓶颈 tok/s 上界
DeepSeek V4 Pro llm matmul 245.5 🔥 计算 76k
GraphCast scientific graph-message-passing 0.9 💾 内存带宽 5101
AlphaFold 3 scientific pair-bias-attention 2.3 💾 内存带宽 1533
GPT-OSS llm matmul 0.7 💾 内存带宽 224
Gemma 4 26B llm matmul 0.7 💾 内存带宽 166
DeepSeek V4 Flash llm matmul 0.8 💾 内存带宽 157
Mistral Small 4 llm matmul 0.6 💾 内存带宽 72
Llama 4 Maverick llm matmul 0.8 💾 内存带宽 71
需要 efficiency 校准 + concurrency 扫描 + TCO 估算 → 在计算器中评估 →

算子支持 & 优化空间

算子支持 & 优化空间 / Operator support & headroom

Per-operator support derived from software_support.engines + scale-up topology. Optimization headroom from measured efficiency factor.

Optimization headroom
+50 pp
moderate

No cases yet — using default 0.5 efficiency. Real headroom unknown until first measurement lands.

Communication (collective)
All-to-All 🟢 mature
all-to-all via ICI world_size=8960
AllReduce 🟢 mature
ICI ring all-reduce
Attention
Multi-Head Attention 🟢 mature
paged-attention via vLLM/SGLang/MindIE
FlashAttention-3 🔴 gap
No FA-3 path; falls back to FA-2 / vanilla SDPA
Matrix multiply (GEMM)
Matrix Multiplication 🟢 mature
GEMM supported on all inference engines
MoE routing
MoE Routing 🟢 mature
MoE gating supported via vLLM ≥0.4 / SGLang
Normalization
RMSNorm 🟢 mature
fused into engine kernels
Embedding
fused into engine kernels
Activation
SiLU / Swish 🟢 mature
fused into engine kernels
Softmax 🟢 mature
fused into engine kernels

软件栈支持

引擎 状态 BF16FP16FP4FP8 E4M3FP8 E5M2INT4 AWQ
HanGuangAI 未确认
LMDeploy 未确认
MindIE 未确认
MoRI 未确认
SGLang 未确认
TensorRT-LLM (Dynamo) 未确认
vLLM 社区

已有部署案例 (0)

暂无该硬件的实测案例。 成为第一个贡献者?

引证

  1. [1] Google Cloud TPU v5p documentation — https://cloud.google.com/tpu/docs/v5p · 访问于 2026-04-28 厂商声称
  2. [2] TPU v5p: 4 systolic-array TensorCores per chip + scalar/vector units, 4× HBM2e ⇒ 95 GB; 3D-torus ICI fabric (up to 8960 chips/pod); TSMC 5nm-class — https://cloud.google.com/tpu/docs/system-architecture-tpu-vm · 访问于 2026-04-28 厂商声称
⚠ TPU v5p only available via Google Cloud.