什么是TPU

背景与定义

Tensor Processing Unit（TPU）是一种由谷歌专为神经网络机器学习设计的AI加速器应用专用集成电路（ASIC），与TensorFlow无缝集成，用于高效执行张量运算。TPU通过在硬件层面专门优化矩阵乘法操作，实现了在单个全局指令周期内完成256×256矩阵乘加的高吞吐量能力，内部集成65,536个乘法单元，极大提升了深度学习训练和推理的性能。

版本演进

截至2025年，TPU系列产品包括：

TPUv1（2015年）：28 nm工艺，8 GiB DDR3内存，带宽34 GB/s；
TPUv2（2017年）：16 nm工艺，16 GiB HBM内存，带宽600 GB/s；
TPUv3（2018年）：16 nm工艺，32 GiB HBM内存，带宽900 GB/s；
TPUv4（2021年）：7 nm工艺，32 GiB HBM内存，带宽1200 GB/s，单Pod可集成4096颗芯片；
TPUv5e/v5p（2023年）；
TPUv6e（Trillium）（2024年）；
TPUv7（Ironwood）（2025年）。

架构与工作原理

TPU采用基于systolic array的流水线阵列架构，将大量的乘法累加单元沿阵列排列，通过数据流动（data flow）方式高效完成矩阵运算，极大减少内存访问瓶颈。此外，TPU针对低精度（8–16位）计算进行了专门优化，相比传统高精度硬件能以更低功耗达到更高的算力密度，特别适合深度神经网络的前向和反向传播。

TPU与GPU的对比

相比GPU，TPU在设计时即针对张量乘法进行了硬件级定制，去除了GPU中的光栅化/纹理映射逻辑，以换取更多的算力资源和更高的功率效率。在AlphaGo与李世石对弈的案例中，TPU提供的吞吐量在严格7ms延迟限制下，比当时主流CPU和GPU高出15–30倍，显著提升了实时推理能力

应用场景

TPU广泛应用于大规模模型训练和推理，包括Google内部的Search、Photos、Translate、RankBrain，以及DeepMind的AlphaGo、AlphaZero等项目。在商业领域，Cloud TPU和Edge TPU分别支持云端大规模分布式训练和边缘设备上的低功耗推理，覆盖推荐系统、智能语音、计算机视觉、生成式AI等多种场景。

谷歌云TPU与Edge TPU

Cloud TPU：作为Google Cloud的一项托管服务，提供可按需扩展的TPU集群（Pod），支持TensorFlow、PyTorch、JAX等多种深度学习框架，便于开发者在云端进行大规模训练与部署。
Edge TPU：面向嵌入式和边缘设备的低功耗ASIC，仅支持TensorFlow Lite模型的前向推理，典型产品包括Coral开发板和USB加速器，适用于对时延和功耗敏感的场景。