这周,Google公开了向ISCA投稿的关于TPU技术的论文。
  论文不仅详细介绍了 TPU 的技术细节,还对TPU与Intel Haswell CPU和NVIDIA Tesla K80 GPU做了详细的比较。
  论坛全文:
In_Datacenter_Performance_Analysis_of_a_Tensor_Processing_Unit.pdf (1.3 MB)
   图片.png882x361 25.3 KB


  TPU内部架构
  外挂的DDR3内存,左侧是主机接口。指令序列从主机发送到队列中(没有循环)。这些激活控制逻辑可以基于指令多次反复运行相同的指令。
  
  TPU芯片布局图
  蓝色的数据缓存占37%;黄色的计算占30%;绿色的I/O 占10%;红色的控制只有 2%。在传统的CPU 或 GPU 中的控制部分则要大很多且不易设计
  
  搭载TPU的电路板
  
  TPU中的收缩数据流引擎
  256×256阵列,经过矩阵乘法积累后实现非线性输出
  
  TPU与CPU和GPU的性能对比
  (GM 和 WM 为几何学图形和加权平均值)
  
  对比Haswell处理器,Nvidia  K80 GPU
   图片.png1222x380 60.7 KB