图丨余承东展示麒麟970 (来源: DeepTech深科技)
微信公众号“矽说”的相关文章中谈到了两个参数问题:
1.每分钟2005张图的图像识别
2. 7.5TFLOPS/W,简直逆天了
每分钟2005张图的图像识别,CPU+GPU+NPU超过五倍的CPU+GPU,25倍的CPU。NPU真牛x。
奇怪的地方在于,它找了一个基于每分钟的性能参数,而放弃了业界常用的每秒钟的性能参数。那CPU+GPU+NPU每秒钟能做几次图像识别呢?
2005除以60,约33.4次。
这年头,作Image Recognition吞吐率到33.4帧每秒的处理器能中什么样的会议?2年前的用65nm的Eyeriss就已经已经超过了这个数,遑论STM发表在ISSCC 2017上58.5帧的设计,NV今年发布的Tesla P4 91帧每秒的速度(这也是移动端的设计)。
毫不夸张的讲,33.4fps的速率除了大厂自己发布会,应该那个会都不会录吧。哦对了,上述假设是基于经典AlexNet的运行,如果用的是Google家的Mobile Net,旷视的Shuffle Net,那就不用谈了。
第二次暴击来自它的FLOPS(每秒钟浮点运算数)16位浮点(半精度)每秒钟1.9T(10的12次方),相应的功耗为:业界的疑惑:发布会对于“寒武纪”的“只字不提”
平均0.4W,算一下能效,7.5TFLOPS/W,简直逆天了。比较下,隔壁NV的Tesla P100,虽然工艺差了一代,可是能效差了有1000倍呢 (21TFLOPS / 300 W = 70GTOPS/W)
当然,这也超过了笔者的常识。对于整数运算INT16,要在能效上达到7TOPS/W已数不易,勉强可以用10nm实现的话,FP16要上TFLOPS/W绝对是创纪录的电路设计造诣,不得不膜。
1.92TFLOPS究竟能干多少事呢?以最经典的alexnet为例,每张图的运算需要720MFLOPS(如果乘加算两次的话就是1.4GFLOPS,再加上那些非线性·、池化、归一化,存储器访问,打个整数是2GFLOPS)。 1.92TFLOPS意味着每秒可以做960张图的图像识别,而上面的实测数据是每秒33.4张。(编者按:有读者提出,1.92TFLOPS可能是未稀疏后的等效的数字,这里的2GFLOPS也是未稀疏的等效数字。)
1.92TFLOPS这个超高的性能指标和每秒33帧这个相对较低的实测数字之间的鸿沟很大。难道是,1.92TFLOPS里面只有10%是用于做图像处理,剩下90%做了语音,语义?或者说1.92TFLOPS这个数字是跑传统CV算法的数字,而不是深度学习(之前Movidius Myriad 2 跑传统CV算法的峰值性能可以到2 TOPS,而跑深度学习时候的性能为100 GOPS)?这恐怕就要等华为的进一步消息澄清大家的疑惑了。
华为发布会过后,业内一些人士有这样的疑惑,“为什么没有提寒武纪?”,“Cambricon的logo为什么没有出现在麒麟970的slides里?”(注:“寒武纪处理器配套指令集,叫Cambricon。)
是啊,华为麒麟要用寒武纪的IP的传言传了大半年,为何始终没有白纸黑字?
不过从中科院计算所的贺信来看,Kirin NPU就是寒武纪芯片。
华为技术有限公司、深圳市海思半导体有限公司:而对于这个事情,有人猜测这是IC巨头与初创公司之间某种私下的默契(苹果就从来不明说自己的A系列处理器的GPU用的是imagination的IP——Power VR)?也有观点认为华为将寒武纪1A打上Kirin NPU的标签误导大众和之前华为闪存事件、P9拍照媲美单反造假事件、华为石墨烯电池营销事件、荣耀7 NFC功能虚假宣传等事件类似。
欣闻贵公司于2017年9月2日在德国柏林正式发布了集成深度学习处理器的新一代手机芯片麒麟970。这一手机发展历程中里程碑式的事件,标志着手机开始进入智能时代。这是贵公司持续创新取得的丰硕成果,中国科学院计算技术研究所向贵公司全体同仁致以最热烈的祝贺!
自2011年以来,贵公司和我所开展了深入的合作,组建了“中科院计算所-华为联合实验室”。这种高水平研究所+领导性公司的合作模式,取得了丰硕的成果,在计算和通信技术领域做出了一系列有国际影响力的工作,开辟了一条极具特色的产学研用深度融合的道路。
我所是中国最早从事计算机科学技术研究的综合性学术机构,被誉为“中国计算机事业的摇篮”,在深度学习处理器领域的学术研究一直处于国际领先水平,得到国内外同行的广泛认可;我所企业寒武纪公司(Cambricon Technologies)研制并具有自主知识产权的“寒武纪1A深度学习处理器”(Cambricon-1A Processor)是国际上首个商用深度学习处理器产品,在人工智能应用上达到了四核CPU 25倍以上的性能和50倍以上的能效。此次,麒麟970芯片集成寒武纪1A处理器作为其核心人工智能处理单元(即余承东总在发布会中所述NPU),实现了手机上本地、实时、高效的智能处理。作为世界首款集成人工智能专用处理器的手机芯片,麒麟970将为全世界广大手机用户带来智能时代颠覆性的用户体验,引领全世界智能手机发展的新潮流。
贵公司秉承积极开创的企业精神,创造了一个又一个手机芯片研发和产品化的奇迹,为世界通信技术的发展做出了巨大贡献,是中国信息产业在全球的杰出代表,是值得国内同行尊重和推崇的榜样。作为华为的长期合作伙伴,我们为麒麟970的成就感到由衷的骄傲,也为寒武纪公司在智能处理器产品化方面做出的成绩深感欣慰。我们坚信,华为和寒武纪的强强联合,必将成为世界手机发展史和智能芯片发展史中的里程碑事件,成就中国信息产业的一段佳话。
再次祝贺贵公司的杰出成就。预祝贵公司在智能时代的计算和通信产业中,为全人类做出更大的贡献!
中国科学院计算技术研究所
2017年9月
大家咋看这个事儿?
来源:微信公众号“矽说”,观察者网,DeepTech深科技。