本帖最后由 汪烜 于 2023-9-22 17:28 编辑

收到这本地平线硬件架构师写的小书,首先就有两个反应:第一是其篇幅有点出乎意料的短,第二是图非常多非常清晰。仔细一看,其实主要是讲CNN加速器设计的,比较讲究详略得当。对于架构研究人员而言,全书的精华,我认为主要在第2章和第4章,算是非常详细的CNN DSA架构综述,而第3章 存储和第5章 安全其实很短,主要是做一些科普。其实就科研而言,存储和安全都是比较热门的方向,有很多东西可以挖掘,比如ReRAM,PIM,近存计算和同态等等。但是,这些不稳定的科研创新成果需要一段时间去落地。而全书的重点第2章、第4章和第6章是针对14~19年那些CNN DSA架构和数据流百花齐放时期的总结,经过时间的洗礼,所被工业界采用的稳定成果。这是和这本书主要面向产业届的定位相匹配的。

手头正好有一本华为送的《机器学习系统:设计和实现》,对比一下,虽然系统这本书也提了一点DSA,但更多的篇幅在讲GPU,对于DSA就好像OS的书里所设想的CPU模型,虽然逻辑上没有问题,但其实很多底层细节上的创新和变动,通过IR层的隔离和解耦合,已经对上层屏蔽了,而做系统是不需要感知和考虑这些架构信息的。 这样看来,两本书是完全正交的,甚至中间还有不少gap需要填(所谓差了一个CUDA)。

最后讲一下chiplet,虽然这本书没有提这件事,只是停留在SoC的层次(虽然只有CNN负载的场景可能并不需要更高级的设计),但是我认为就国产AI DSA芯片而言,配合上一个成熟的D2D标准去做多chiplet的弹性方案,是非常合适的,只需要很小的修改,就能适配从云端数据中心到边端IoT一系列的工作场景,从成本而言,也能减缓对先进制程的依赖,是大模型所引导的GPGPU时代DSA突围的一个重点方向。

总体而言,这本书对CNN DSA的成熟成果做了比较系统的总结,弥补了CNN DSA中文资料匮乏的现状,促进了对工业届AI DSA架构设计的知识普及,非常适合架构工程师、低年级体系结构/微电子研究生或高年级本科生阅读,难能可贵,大有裨益。