在人工智能领域,英伟达可以说是目前涉及面最广、市场份额最大的公司,旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机Xavier,用NVIDIA首席执行官黄仁勋的话来说就是“这是我所知道的 SoC 领域非常了不起的尝试,我们长期以来一直致力于开发芯片。”
Xavier是一款完整的片上系统 (SoC),集成了被称为 Volta 的全新 GPU 架构、定制 8 核 CPU 架构以及新的计算机视觉加速器。该处理器提供 20 TOPS(万亿次运算/秒)的高性能,而功耗仅为 20 瓦。单个 Xavier 人工智能处理器包含 70 亿个晶体管,采用最前沿的 16nm FinFET 加工技术进行制造,能够取代目前配置了两个移动 SoC 和两个独立 GPU 的 DRIVE PX 2,而功耗仅仅是它的一小部分。
而在2018年拉斯维加斯CES展会上,NVIDIA又推出了三款基于Xavier的人工智能处理器,包括一款专注于将增强现实(AR)技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的DRIVE IX和一款对其现有自主出租车大脑——Pegasus的修改,进一步扩大自己的优势。
产学研的集大成者——谷歌
如果你只是知道谷歌的AlphaGo、无人驾驶和TPU等这些人工智能相关的产品,那么你还应该知道这些产品背后的技术大牛们:谷歌传奇芯片工程师Jeff Dean、谷歌云计算团队首席科学家、斯坦福大学AI实验室主管李飞飞、Alphabet董事长John Hennessy和谷歌杰出工程师David Patterson。
时至今日,摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓,甚至在移动应用、大数据、人工智能等新的应用兴起后,对于计算能力、计算功耗和计算成本等提出了新的要求。与完全依赖于通用CPU及其编程模型的传统软件编写模式不同,异构计算的整个系统包含了多种基于特定领域架构(Domain-Specific Architecture, DSA)设计的处理单元,每一个DSA处理单元都有负责的独特领域并针对该领域做优化,当计算机系统遇到相关计算时便由相应的DSA处理器去负责。而谷歌就是异构计算的践行者,TPU就是异构计算在人工智能应用的一个很好例子。
2017年发布的第二代TPU芯片,不仅加深了人工智能在学习和推理方面的能力,而且谷歌是认真地要将它推向市场。根据谷歌的内部测试,第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片(GPU)节省一半时间;第二代TPU包括了四个芯片,每秒可处理180万亿次浮点运算;如果将64个TPU组合到一起,升级为所谓的TPU Pods,则可提供大约11500万亿次浮点运算能力。
计算机视觉领域的搅局者——英特尔
英特尔作为世界上最大的计算机芯片制造商,近年来一直在寻求计算机以外的市场,其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力,不仅以167亿美元收购FPGA生产商Altera公司,还以153亿美元收购自动驾驶技术公司Mobileye,以及机器视觉公司Movidius和为自动驾驶汽车芯片提供安全工具的公司Yogitech,背后凸显这家在PC时代处于核心位置的巨头面向未来的积极转型。
Myriad X就是英特尔子公司Movidius在2017年推出的视觉处理器(VPU,vision processing unit),这是一款低功耗的系统芯片(SoC),用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR / AR头盔。Myriad X是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。
国内 百家争鸣,各自为政
可以说,国内各个单位在人工智能处理器领域的发展和应用与国外相比依然存在很大的差距。由于我国特殊的环境和市场,国内人工智能处理器的发展呈现出百花齐放、百家争鸣的态势,这些单位的应用领域遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域,催生了大量的人工智能芯片创业公司,如地平线、深鉴科技、中科寒武纪等。尽管如此,国内起步较早的中科寒武纪却并未如国外大厂一样形成市场规模,与其他厂商一样,存在着各自为政的散裂发展现状。
除了新兴创业公司,国内研究机构如北京大学、清华大学、中国科学院等在人工智能处理器领域都有深入研究;而其他公司如百度和比特大陆等,2017年也有一些成果发布。
全球AI芯片界首个独角兽——寒武纪
2017年8月,国内AI芯片初创公司寒武纪宣布已经完成1亿美元A轮融资,战略投资方可谓阵容豪华,阿里巴巴、联想、科大讯飞等企业均参与投资。而其公司也成为全球AI芯片界首个独角兽,受到国内外市场广泛关注。
寒武纪科技主要负责研发生产AI芯片,公司最主要的产品为2016年发布的寒武纪1A处理器(Cambricon-1A),是一款可以深度学习的神经网络专用处理器,面向智能手机、无人机、安防监控、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。目前已经研发出1A、1H等多种型号。与此同时,寒武纪也推出了面向开发者的寒武纪人工智能软件平台 Cambricon NeuWare,包含开发、调试和调优三大部分。
软硬件协同发展的典范——深鉴科技
深鉴科技的联合创始人韩松在不同场合曾多次提及软硬件协同设计对人工智能处理器的重要性,而其在FPGA领域顶级会议FPGA2017最佳论文ESE硬件架构就是最好的证明。该项工作聚焦于使用 LSTM 进行语音识别的场景,结合深度压缩(Deep Compression)、专用编译器以及 ESE 专用处理器架构,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,并将功耗降低 3.5 倍。
在2017年10月的时候,深鉴科技推出了六款AI产品,分别是人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、ARISTOTLE架构平台,深度学习SDK DNNDK、双目深度视觉套件。而在人工智能芯片方面,公布了最新的芯片计划,由深鉴科技自主研发的芯片“听涛”、“观海”将于2018年第三季度面市,该芯片采用台积电28nm工艺,亚里士多德架构,峰值性能 3.7 TOPS/W。
对标谷歌TPU——比特大陆算丰
作为比特币独角兽的比特大陆,在2015年开始涉足人工智能领域,其在2017年发布的面向AI应用的张量处理器算丰Sophon BM1680,是继谷歌TPU之后,全球又一款专门用于张量计算加速的专用芯片(ASIC),适用于CNN / RNN / DNN的训练和推理。
BM1680单芯片能够提供2TFlops单精度加速计算能力,芯片由64 NPU构成,特殊设计的NPU调度引擎(Scheduling Engine)可以提供强大的数据吞吐能力,将数据输入到神经元核心(Neuron Processor Cores)。BM1680采用改进型脉动阵列结构。2018年比特大陆将发布第2代算丰AI芯片BM1682,计算力将有大幅提升。
百家争鸣——百度、地平线及其他
在2017年的HotChips大会上,百度发布了XPU,这是一款256核、基于FPGA的云计算加速芯片,用于百度的人工智能、数据分析、云计算以及无人驾驶业务。在会上,百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于计算密集型、基于规则的任务,同时确保效率、性能和灵活性的最大化。
欧阳剑表示:“FPGA是高效的,可以专注于特定计算任务,但缺乏可编程能力。传统CPU擅长通用计算任务,尤其是基于规则的计算任务,同时非常灵活。GPU瞄准了并行计算,因此有很强大的性能。XPU则关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。
对国产人工智能芯片的一点愚见
正如前文所述,在人工智能芯片领域,国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有绝对的领先优势。而国内人工智能初创公司则又呈现百家争鸣、各自为政的纷乱局面;特别是每个初创企业的人工智能芯片都具有自己独特的体系结构和软件开发套件,既无法融入英伟达和谷歌建立的生态圈,又不具备与之抗衡的实力。
国产人工智能芯片的发展,一如早年间国产通用处理器和操作系统的发展,过份地追求完全独立、自主可控的怪圈,势必会如众多国产芯片一样逐渐退出历史舞台。借助于X86的完整生态,短短一年之内,兆芯推出的国产自主可控x86处理器,以及联想基于兆芯CPU设计生产的国产计算机、服务器就获得全国各地党政办公人员的高度认可,并在党政军办公、信息化等国家重点系统和工程中已获批量应用。
当然,投身于X86的生态圈对于通用桌面处理器和高端服务器芯片来说无可厚非,毕竟创造一个如Wintel一样的生态链已绝非易事,我们也不可能遇见第二个乔布斯和苹果公司。而在全新的人工智能芯片领域,对众多国产芯片厂商来说,还有很大的发展空间,针对神经网络加速器最重要的就是找到一个具有广阔前景的应用领域,如华为海思麒麟处理器之于中科寒武纪的NPU;否则还是需要融入一个合适的生态圈。另外,目前大多数国产人工智能处理器都针对于神经网络计算进行加速,而能够提供单芯片解决方案的很少;微控制器领域的发展,ARM的Cortex-A系列和Cortex-M系列占据主角,但是新兴的开源指令集架构RISC-V也不容小觑,完全值得众多国产芯片厂商关注。
“AI芯片面临两个现实问题,第一我们没有一个覆盖所有算法的架构,需要在芯片当中实现一个具备深度学习的引擎,适应算法的引进,第二就是架构的可变性,要有高效的架构变换能力,目前的CPU加软件、CPU加FPGA,需要我们探索架构上的创新。” 清华大学微纳电子系主任、微电子所所长魏少军在智东西主办的GTIC 2018 全球 AI 芯片创新峰会上公开演讲时表示。
比特大陆2017年11月份推出的首款AI芯片,现在已经全线量产,兼顾训练和推理的功能,但以推理为主。他认为,训练和推理应该是两个不同的平台,未来比特大陆还是会侧重于推理。 “高性能计算它涉及到很多领域,所以我们在2015年底决定进入到AI这个领域,尤其深度学习这个领域,我们在已有的一些高性能计算这些芯片、硬件,还有一些软件算法的基础上,我们还大量引进了很多AI方面专业的人才。”汤炜伟说。
但比特大陆还没有考虑做终端芯片,提供的芯片将用于服务器。
目前业内使用最多的是GPU,因为它适用于单指令、多数据处理,可用于深度学习的训练和推理。英伟达AI技术中心亚太首席技术官Simon See接受第一财经采访时表示,英伟达要做通用性的芯片,“通用是我们的优势,ASIC是针对其中一个领域,而GPU不仅仅可以应用于AI训练还有图像渲染等等。”
他表示,新的算法一直在出现,为了适配新的算法,就需要重新做芯片,英伟达会收集客户的意见并改进,但不会因为所谓“风口”的转向而调整,比如去做专门挖矿的芯片。 “做芯片是很冒险的,这么多公司在做是好事,说不定会有新的公司出很好的产品。我们的芯片性能体现,不仅仅是靠芯片自身的性能(raw performance),还有软件的性能。” Simon说。
“AI芯片现在是两拨人在做,以寒武纪为代表的,他们原本就做芯片,在计算机体系结构和芯片设计方面比较有经验,另外一拨是以地平线为代表的,以前做的是软件算法,现在做芯片。前者更容易做出一个好用、可靠的产品,后者更偏向于提供整体解决方案,硬件不足的地方用软件补足。”云启资本董事总经理陈昱判断,两者会有路径的差异化。
芯片的成本高在设计研发阶段,设计好之后要经过昂贵的流片验证才能量产,如果没有大的客户,就无法分摊前期成本。即便研发成功,量产时也面临着上游产能受限的问题。
“比特大陆在芯片设计上具有丰富经验,他们的挖矿芯片因为加密货币市场的爆发而需求强劲,但其产能仍受制于上游的芯片代工厂商。” 陈昱说。按照汤炜伟的说法,比特大陆有望今年成为台积电全球第五大客户。
正是因为芯片的研发周期和成本都很高,硬蛋公关总监王刚告诉第一财经,未来会考虑提供AI通用模块。“我们今年看到了AIOT的机会,就是人工智能与物联网的结合。硬蛋会把产业链上游的AI合作伙伴,如百度、云知声等,与硬蛋平台上的物联网项目对接,推出通用的AI模块。”
毫无疑问,国内的半导体行业正在蓬勃发展。已有消息传出国家成立的国家集成电路产业投资基金(下称“大基金”)第二期正在紧锣密鼓募资之中,筹资规模会超过一期,在1500亿~2000亿元左右。按照1∶3的撬动比,所撬动的社会资金规模在4500亿~6000亿元左右。
国家集成电路产业投资基金股份有限公司总裁丁文武去年10月份接受《中国电子报》采访时称,原计划首期募集资金1200亿元,通过各方的努力,实际募集资金达到了1387.2亿元。经过3年的运作,截至2017年9月20日,大基金累计决策投资55个项目,涉及40家集成电路企业,共承诺出资1003亿元,承诺投资额占首期募集资金的72%,实际出资653亿元,也达到首期募集资金的将近一半。
“真正把AI芯片做成有竞争力,要有护城河,这是远超于芯片本身的事情。像阿里和腾讯争取入口流量一样芯片往应用层走,更好知道最终用户的实际需求,更好的定义芯片,需要有比较强的能效,有一定的AI处理架构,没有这样的架构都是一片浮云。” 深鉴科技联合创始人、CEO姚颂对此有着清醒的认识。
而魏少军在一片繁荣之际毫不讳言“现在的发展太热了,甚至媒体在其中也起到了推波助澜的作用”。他提到,AI芯片的发展很可能在未来2到3年遭遇一个挫折期,今天以满足特定应用为主要目的的AI芯片需要思考何去何从,今天的部分甚至大部分创业者将成为此次技术变革中的先烈。
在这场伟大的“无芯片不AI,无终端不AI,无行业不AI“的变革时刻,也有人保持了清醒。我们需要多一点思考,怎样做才能避免魏少军教授警醒的成为现实,不让“今天的一部分甚至大部分的AI芯片创业者会成为技术变革的‘先烈’”。
虽然我国已消化了近1/3市场需求而成为全球最大的芯片消费国,但繁荣背后却有一个残酷的事实:我国国产芯片的自给率不到30%,产值不足全球的7%,市场份额更是不到10%,也就是说中国“芯”90%以上依赖进口。
截至2016年底,中国芯片的进口金额达到1.3万亿人民币左右,而同期的原油进口不到0.7万亿。中国在芯片进口上的花费已经接近原油的两倍。
同时,像海康威视(002415,股吧)、大华股份(002236,股吧)、宇视科技等安防巨头都和英伟达、英特尔等芯片商保持紧密联系。
种种案例表示,在半导体这块,国内一直落后于国外。所以AI芯片也是一次赶超的机会,这也是为什么一些初创公司会得到国资背景资本的支持,比如寒武纪的投资者就包括国投创业和国科创投。
AI芯片作为最基础的一环,提前做好“攻城略池”的准备,也是为后续发展做好铺垫。有资料显示,我国也已经制定了发展半导体产业的目标,2016年,芯片国产率只有26.2%,到2025年,国产率将增加到七成。这意味着国内的半导体制造能力也要同步增加。
而且相较之下,AI芯片研发上,目前国外的半导体巨头动作并不大,主要还是以收购和合作为主,以英特尔为例,他们陆陆续续收购了Altera、Nervana、Movidius、Mobileye等多家公司,拿下了FPGA等多种芯片处理器技术。
现阶段AI芯片的应用也主要以金融、安防、物联网、自动驾驶等几个细分的场景为主。
目前国内做AI芯片的公司可能有几十家,重合度不会低。但多数公司有自己的侧重点,例如寒武纪主推自己的AI专用处理器,地平线机器人在自动驾驶方面发展较多,商汤在智能监控方面积累较好。
AI芯片是阶段性的
指望它在一两年回本略显着急
一般情况下,芯片研发的周期都是按照年来计算,按照去年的发布时间,2018年下半年会有不少AI芯片陆续面世。
如此长的研发投入时间有可能无法和算法以及应用的发展同步,这种不确定性,也带来未知的风险。尤其是对于芯片这种烧钱的硬件,出了一点纰漏,损失的都是千万元以上。
换句话说,虽然国内芯片产业是巨大的,但是整个研发成本非常之高,成功率也很难有保证。