跳转至

什么是TPU

背景与定义

Tensor Processing Unit(TPU)是一种由谷歌专为神经网络机器学习设计的AI加速器应用专用集成电路(ASIC),与TensorFlow无缝集成,用于高效执行张量运算。TPU通过在硬件层面专门优化矩阵乘法操作,实现了在单个全局指令周期内完成256×256矩阵乘加的高吞吐量能力,内部集成65,536个乘法单元,极大提升了深度学习训练和推理的性能。

版本演进

截至2025年,TPU系列产品包括:

  • TPUv1(2015年):28 nm工艺,8 GiB DDR3内存,带宽34 GB/s;
  • TPUv2(2017年):16 nm工艺,16 GiB HBM内存,带宽600 GB/s;
  • TPUv3(2018年):16 nm工艺,32 GiB HBM内存,带宽900 GB/s;
  • TPUv4(2021年):7 nm工艺,32 GiB HBM内存,带宽1200 GB/s,单Pod可集成4096颗芯片;
  • TPUv5e/v5p(2023年);
  • TPUv6e(Trillium)(2024年);
  • TPUv7(Ironwood)(2025年)。

架构与工作原理

TPU采用基于systolic array的流水线阵列架构,将大量的乘法累加单元沿阵列排列,通过数据流动(data flow)方式高效完成矩阵运算,极大减少内存访问瓶颈。此外,TPU针对低精度(8–16位)计算进行了专门优化,相比传统高精度硬件能以更低功耗达到更高的算力密度,特别适合深度神经网络的前向和反向传播。

TPU与GPU的对比

相比GPU,TPU在设计时即针对张量乘法进行了硬件级定制,去除了GPU中的光栅化/纹理映射逻辑,以换取更多的算力资源和更高的功率效率。在AlphaGo与李世石对弈的案例中,TPU提供的吞吐量在严格7ms延迟限制下,比当时主流CPU和GPU高出15–30倍,显著提升了实时推理能力

应用场景

TPU广泛应用于大规模模型训练和推理,包括Google内部的Search、Photos、Translate、RankBrain,以及DeepMind的AlphaGo、AlphaZero等项目。在商业领域,Cloud TPU和Edge TPU分别支持云端大规模分布式训练和边缘设备上的低功耗推理,覆盖推荐系统、智能语音、计算机视觉、生成式AI等多种场景。

谷歌云TPU与Edge TPU

  • Cloud TPU:作为Google Cloud的一项托管服务,提供可按需扩展的TPU集群(Pod),支持TensorFlow、PyTorch、JAX等多种深度学习框架,便于开发者在云端进行大规模训练与部署。
  • Edge TPU:面向嵌入式和边缘设备的低功耗ASIC,仅支持TensorFlow Lite模型的前向推理,典型产品包括Coral开发板和USB加速器,适用于对时延和功耗敏感的场景。