这周,Google公开了向ISCA投稿的关于TPU技术的论文。
论文不仅详细介绍了 TPU 的技术细节,还对TPU与Intel Haswell CPU和NVIDIA Tesla K80 GPU做了详细的比较。
论坛全文:
In_Datacenter_Performance_Analysis_of_a_Tensor_Processing_Unit.pdf (1.3 MB)
图片.png882x361 25.3 KB
TPU内部架构
外挂的DDR3内存,左侧是主机接口。指令序列从主机发送到队列中(没有循环)。这些激活控制逻辑可以基于指令多次反复运行相同的指令。
TPU芯片布局图
蓝色的数据缓存占37%;黄色的计算占30%;绿色的I/O 占10%;红色的控制只有 2%。在传统的CPU 或 GPU 中的控制部分则要大很多且不易设计
搭载TPU的电路板
TPU中的收缩数据流引擎
256×256阵列,经过矩阵乘法积累后实现非线性输出
TPU与CPU和GPU的性能对比
(GM 和 WM 为几何学图形和加权平均值)
对比Haswell处理器,Nvidia K80 GPU
图片.png1222x380 60.7 KB