“术业有专攻”在电子科技行业是个挺有意思的句子。电子科技行业本身内部的子行业多样,且确确实实是“隔行如隔山”——上层开发者不大懂操作系统;软件工程师不大懂网络工程;芯片设计也可能不了解设计环境、IT基建。在上周于上海马桥人工智能创新试验区举办的“2020年紫光芯片云推介会”上,摩尔精英IT/CAD事业部高级技术总监周鸣炜在圆桌环节上说:“每年美国的IC大会,一半客户是startup(初创)公司。在IT、设计环境等方面,他们其实会碰到很多的技术壁垒。”
“芯片设计是很复杂的工作,即使单说数字设计,各环节的算力、资源需求都是大不一样的。这些startup公司的技术专家们,精通的是IC design这块。他们对于IT、设计环境并不是很清楚。”周鸣炜说,“专业的人应当做专业的事。”
紫光芯云(上海)科技有限公司董事长李广武在致辞中提到:“芯片设计越来越复杂,IT要求也越来越高。云计算可以一起解决这些问题,通过我们的IT服务能力,减少行业内的企业在IT投入方面的负担,降低芯片设计的IT门槛,让芯片设计企业可以轻装上阵。”
“大家各自做好自己专业的事,通过这样的分工,彼此获得快速发展的机会。”全球TOP10的芯片设计公司从2016年起都在往云上走。这里的“云”并不是普通的公有云,而是专门针对芯片设计提供的云服务,紫光芯片设计云即是这样的云。用李广武的话来说就是“行业服务为特色、具备行业能力的云公司”。
而本次推介会上揭牌的“紫光芯片设计产业互联网平台”即是基于紫光芯片设计云方案打造,面向芯片设计业的产业互联网平台。我们知道,紫光集团本身就有紫光展锐、长江存储这样的龙头企业,还有新华三、紫光云公司等不同层面的优势资源;而且纵向产业链的布局也比较全面,包括芯片设计、制造、封测。所以这一平台的推出,是有自身的积累及经验的,属于比较典型的、面向众多芯片设计企业的“能力输出”。
借此机会,我们也恰好可以了解芯片设计上云为什么是趋势,以及这样的芯片设计云方案又能解决什么样的问题。
紫光云公司CTO办公室主任 邓世友
芯片设计需求进化
紫光云公司CTO办公室主任邓世友说:“2015年到现在,国内芯片设计企业已经有将近2000家,而且分工越来越细密。很多小型创业团队都可以做相关IP、模块。这对产业链自然是好事,但更多参与者进入这个市场,对芯片设计企业自身而言,如何提升竞争力就成为一个很大的问题。”
“随着物联网、5G的发展,芯片的需求开始多样化。物联网要求针对不同场景做出不同的芯片。”邓世友说,“与此同时,芯片产品的生命周期在缩短,也要求芯片设计企业也缩短产品的开发时间,加速产品上市以获得更多的市场机会。”在市场的这三大环境变化之下,芯片设计行业是需要“降本增效”的。
新华三技术有限公司半导体行业资深IT专家周本立,也相应地提到了目前芯片设计行业的特点。除了场景需求多样化和技术迭代周期变短以外,尖端制造工艺进化造成了IC设计难度显著增加。采用先进工艺节点的芯片设计成本是在不断增高的,这一点在此前的文章中,我们就不止一次地谈到过。
上面这张图是IC设计流程。对于前端设计来说,其作业特征在于高并发、混合随机访问、元数据密集,以及百万级的小文件;而后端设计作业特征则又变为内存密集访问要求、有序访问、长时间运行和大文件。从前仿与后仿的I/O操作来看,其差别就比较大,这就对存储资源提出了更高的要求。
也就是说,前后端这两个环节的算力资源需求是不同的。
周本立则对此做了更进一步的解读,主要是CPU、内存、存储、网络的需求特点,如上图所示。比如对于CPU而言,不同设计阶段对CPU要求有差异:逻辑综合、时序分析阶段对计算需求较多;而对内存来说,仿真验证、时序分析阶段对内存需求大;存储方面,前端仿真验证、文件数量多,单文件小,并发写入,I/O敏感,而后端仿真需要大量读取文件,吞吐带宽敏感。
芯片设计上云为什么是趋势?
传统的芯片设计模式,是由企业自己采购设备——这是缺乏灵活性和对应的适配性的。尤其是在芯片设计需求发生进化的当下。“要么买多了,要么买少了。”邓世友表示。而除了这种弹性算力需求之外,芯片设计还有一些重要的资源需求:
比如需要CAD环境。通常大中型企业有专门的CAD团队,进行环境的部署和维护。但创业团队或者说一些小型企业,CAD团队的构建和维护成本很高。
再比如芯片设计中最为重要的EDA工具。美国三家领头企业“垄断90%以上的市场”——中国国内实际上在EDA领域很多局部的点工具上是有成绩的。“国内不缺EDA工具厂商,但缺乏体系,缺乏全流程。我们的某些局部都是可以用的。所以如果能通过一个平台串接起来,形成全流程的设计工作流,就能很大程度解决国产EDA工具体系化的问题。”
这些是芯片设计上云成为趋势的原因。因为一来算力可以按需购买:自己购买一台服务器,需要100个小时去完成仿真,但通过云上的100台服务器,1小时就能完成。而且如前文所述,设计不同阶段的算力需求有差异——这更对弹性算力有要求,而且对环境部署也造成了更大的难度——这些问题则恰好都是云服务的长项。
与此同时,云端设计仿真验证环境能够做到快速构建:“最佳实践模板化”——即众多芯片设计企业,以及紫光自己的一些实践,以模板的方式放在云端;还有“专业CAD/IT交付与运维团队”,以及“体系化安全”。
而最重要的是“协同共享”。从EDA工具、IP到中间环境,到底层资源,紫光芯片云联合了不少合作伙伴的参与。在众多EDA工具及设计IP合作伙伴的共同参与下,不仅能够为芯片设计企业提供服务,而且也能推动行业的发展。
这三点实际上也是紫光芯片云的目标和定位,总结起来就是提供弹性算力、IT/CAD环境的快速构建,以及最佳实践的输出。
芯片云的实践:7nm 5G SoC
在相对具体的芯片设计上云实践上,紫光集团旗下的某7nm 5G SoC就是最佳实践。“今年8月开始,该项目就在紫光芯片云上进行设计仿真与验证工作。月均算力超过了500台高性能裸金属服务器,单台服务器内存峰值需求达到了1.5TB。整个项目10月底顺利收尾type-out。”邓世友说,“云端的裸金属算力资源是可以分时共享的,我们通过紫光云紫鸾平台可以实现对算力资源快速调度,满足芯片设计企业对云端算力的弹性需求”。
这一应用场景包含了几个重要的特点:
其一是金融级的安全架构——也是云客户普遍最关心的问题。“独立专区,物理隔离互联网,对标金融级安全隔离要求”,以及“企业级高可用设备选型(存储、网络、加密)”,具体是“等保2.0三级评测”,属于国家监督保护级。
其二,核心安全设备专机专用。核心安全设备管理权交给用户;同时进行数据加密,密钥自管理;
上面两点都是和数据与网络安全相关的。第三点就是弹性资源,这是云平台本身的特点,“只需支付所需要的资源,根据对资源的需求周期,扩展或缩减基础资源”;
以及第四点,“专业CAD/IT支撑团队提供7*24小时服务,保证服务连续性”,这是前文就提到过的。
上面这张图总结了紫光芯片云云端仿真验证提供的性能与安全性。邓世友表示:“我们参考金融体系做的安全保障,数据存储落盘也都是加密的;同时通过构建公共服务解决CAD环境快速构建的问题。”实际上也就是对上述7nm 5G SoC实践的总结。
更具体的产品层面,大致情况如下图所示。比如算力资源配置上,768GB内存起配——据说那颗7nm 5G SoC的后仿用到了1.5TB内存,后续5nm的项目还会用到3TB内存;存储则针对前文提到的芯片设计阶段特性做了相应的优化,比如小文件并发写优化等;网络部分,紫光芯片云IDC在上海本地,可以通过光纤接直连用户设计内网,在保证安全的同时,也实现了大带宽和低时延,让芯片设计工程师无感知,体验更好。
“云+生态+运营”:芯片设计产业互联网平台
那么本文开头就提到的“紫光芯片设计产业互联网平台”具体是什么概念呢?实际上,前文花这么多笔墨描摹的紫光芯片云是这个平台中的一部分。这一平台的另外两个重要组成部分就是“生态”与“运营”。在我们看来,生态与运营本身也是围绕着紫光芯片云展开的。
这里的“生态”是指,芯片云上会有各种各样的工具,如EDA、CAD、各种IP等,并且还与制造、封测联动。紫光集团本身有完整产业链布局的经验,但这更需要更多合作伙伴一起加入进来。这就成为一个生态构建的过程——我们认为,这也是该平台构建上最大的难点。从整个平台整体框架来看,IP部分需联合国际大厂的IP库,还有国产IP库,以及高校研究院所IP库等。所以生态构建工作并不简单。
而“运营”,“上海本地有运营团队,整个市场的运营和推广”,包括用户运营、产品运营、生态运营、数据运营、市场拓展等。
邓世友提到,这一平台从今年5月开始建设,目前已经完成了算力平台和CAD公共服务平台的建设,正在联合EDA合作伙伴实现云化EDA部署。平台会不断迭代演进,如上图所示。在提供算力,并且完成云端设计环境/CAD上云、各种EDA工具上云后,未来还要做更多IP的上云——甚至IP共享交易上云;以及再往后的产能共享、跨界融合。事实上,云+生态+运营最终做到的也就是算力共享、产能共享和渠道共享。
这是个宏大,仍有大量后续工作需要去做的工程。大概也是我们预想中,芯片设计上云的完全形态。尤其是生态构建的过程。当天的推介会上,国微思尔芯和新华三也都参与了主题演讲。新华三在紫光芯片云生态中扮演的角色不言而喻,自然就是基础设施设备以及IT解决方案,不管是服务器计算产品线,还是存储产品组合。
所以无论是设计验证、运算仿真、逻辑综合等需要的算力,还是对存储、网络在不同阶段有不同吞吐与I/O需求的资源,新华三都有对应的解决方案。这实际上也很大程度决定了紫光芯片设计云有能力构建这样一个平台,是充分利用了紫光集团各部分的资源的,而不仅是芯片设计领域的经验。
国微思尔芯(上海)信息科技有限公司CEO林俊雄也在演讲中提到了在先进工艺节点下,大型芯片面临验证方面的压力。林俊雄提到的“异构验证方法学”通过将流程、工具串起来,实现快速架构设计、系统性能分析以及软硬协同设计,最终就能起到缩短芯片设计周期的作用。
而思尔芯设定的异构验证云有三层架构,包含本地集群——“要求快速、小块仿真、设计的东西,还是在本地做”;EDA专有云,“可能是自建私有云或外包私有云”;以及公有云算力,“大量需要算力的时候,外发到公有云算力”。
“芯片设计上云,不是单纯把EDA工具移到云上。各种IP、软件、debug工具都要上去,才有办法做到真正的芯片设计上云,这是很大的框架。”上面两张图是思尔芯对于云端异构验证平台和验证异构云架构的解读。
紫光芯片云便在其中扮演公有云的角色,而思尔芯为企业达成这种三层架构需求(紫光芯片云本身也支持混合云部署模式),包括做云管理、资源调度,和数据安全相关的服务——思尔芯这类角色的存在,很大程度上就是为客户解决如何上云、如何部署的困难的;这类角色的存在也是该领域处在上升期的写照。这实际上也是“紫光芯片设计产业互联网平台”生态的一环:即针对云服务的解决方案。很显然这个平台在首发之际,就已经做了不少生态方面的筹备。
加速弥合能力差距
中半协会设计分会秘书长、上海集成电路行业协会高级顾问徐秀法在推介会的圆桌环节向邓世友提了个问题。“再好的服务都要讲成本,云上服务和传统方案相比,成本对比如何?”
邓世友以7nm SoC项目为例,做了个简单的计算:“不靠紫光芯片云,这些计算、存储设备如果完全靠企业自己采购,先不说机房、电费运营费,仅是硬件设备就要6000-7000万的采购成本。此外,还要再加上机房、机柜、人力成本,还有设备维护费用。”
“而且在交付的速度问题上,如果靠企业自己去做起码要1个月的时间。而我们去做,在搞清楚需求以后,只需要3天时间。”邓世友说,“实际上这个7nm SoC项目采用芯片云,整体费用只比企业租机柜的一年费用(Opex)略高一点。省下大量固定资产采购成本、建设成本、运维成本,所以成本优化幅度很大。”
“云是轻资产运营模式。基础算力、CAD团队等都可以交给紫光云和我们的合作伙伴。所以上云不只是趋势,也为企业带来非常大的价值。”而且这其中的成本效益,不只是体现在直观的固定资产上的,也在于在芯片设计之外,不再需要投入太多精力。如李广武所说,让芯片设计企业将更多注意力放在业务本身,这也是全行业获得更快速发展的方式。
“在EDA设计环境上,我们跟国外大企业的差距,不只是EDA工具方面的,我们是全面的差距,我们面临的挑战很多。” 周鸣炜在圆桌上说:“在规范、标准化,EDA设计环境方面,国外大企业走了二三十年。单机、集群到现在的方案,有着二三十年的积累。我们要在这么短的时间赶超他们,从各个点去赶超,这是很大的挑战,国内同仁需要做的事还很多。”
紫光芯片云的搭建,以及紫光芯片设计产业互联网平台构建起的生态,如今正是弥合能力差距的方式。速石科技高级技术总监陈琳涛在圆桌上说:“二三十年的积累的确不是一两天就能赶超的。但云平台给了我们很好的能力、很多的资源,框架被打开。”无论对芯片设计、EDA还是更多IP而言,这都是加速弥合能力差距的机遇。