tag 标签: 芯片设计

相关博文
  • 热度 1
    2024-7-16 09:34
    201 次阅读|
    0 个评论
    更深入了解汽车与航空电子等安全关键型应用的IP核考量因素
    作者: Philipp Jacobsohn , SmartDV 高级应用工程师 中国已经连续十多年成为全球第一大汽车产销国,智能化也成为了汽车行业发展的一个重要方向,同时越来越多的制造商正在考虑进入无人机和飞行汽车等低空设备,而所有的这些系统产品都需要先进芯片的支撑,其中的许多芯片因其功能都是安全关键型芯片(safety-critical chip)。 所有类型的安全关键型芯片设计都需要深谋远虑和认真规划。本文的目的是阐明在安全关键型应用中使用预先打造的电路功能(也就是IP内核)的益处,并为您在设计芯片时,在做出相关选择和IP内核集成过程中提供一些指导。 遗憾的是,设计师往往低估了在其项目的早期阶段与第三方IP制造商合作的重要性和益处。缺乏与IP供应商之间有计划的密切合作可能会导致误解、时间压力、流片延迟和挫败感。当然,您肯定希望在您的芯片设计项目中避免所有这些问题——那我们就接着往下看。 什么是安全标准 ? 在我们深入研究安全关键型芯片设计的IP选型之前,让我们先快速了解一下不同的行业针对安全性形成的标准。 适用于汽车行业的标准是ISO 26262,它源自IEC 61508标准。《航空器机载电子设备硬件设计保障指南(DO-254)和AMC 20-152A(基本上是DO-254的补充)是为开发航空机载电子设备硬件的工程师提出要求的通用标准。其他最终用途和设计应用都可能有其自己的专用标准。ISO 21434网络安全标准就是一个例子,它在当今的汽车和航空电子设计中扮演着越来越重要的角色。(出于本文的目的,我将把重点放在安全性上,而不是安全防护。) 我们为什么需要安全标准 ? 以及它们为什么会有这么多不同之处 ? 接下来我们讨论一下为什么在开发电路的时候需要标准化的问题。坦率地说,这个话题并不新鲜,甚至也不令人兴奋!安全标准甚至经常被视为一种必要的挑战——但是,如果没有明确定义的可靠性和操作安全性规则,电子电路的运行将不再可能。 与航空公司飞行员在起飞前必须通过飞机所有安全相关的标准协议类似,标准化也必须作为电路开发的一部分加以推进。即使飞行员已经经历了数百次相同的过程,并且成功完成了相应数量的飞行,在每次重新起飞之前也必须重新进行该程序;这一措施的唯一目标是避免错误。 同理,这正是ISO 26262和IEC 61508等预定义的标准所希望达到的目的:一个明确定义的计划,有助于发现可能的错误并对问题进行分类,从而使设计能够对不可预见的情况做出充分的反应。如果轮胎损坏,必须阻止飞机起飞,因为它将无法安全着陆。然而,如果机上厨房有缺陷,这对于飞行来说可能是可以接受的,因为它不会对飞机的航空机械性能产生不利影响。 从根本上说,轮船船长和飞行员的目标是完全相同的:即将乘客和货物安全地运送到预定的目的地。由于海上和空中旅行之间的巨大差异,对这些任务就有不同的标准。正是由于这个原因,所以才制定了专门的安全标准。为这些不同运输工具提供设备的任何供应商必须事先知道,例如,他们的陀螺罗盘将要被安装在飞机上还是安装在游船上,以确保其正常工作。这也是IP供应商需要了解将使用其预定义电路功能(IP)的应用环境的原因。 安全标准定义了哪些方面 ? 安全标准定义了设计过程安全需求的各个阶段:计划(planning)、实施(implementation)、验证(verification)和文档记录(documentation)。 对于所有标准,该程序都有或多或少的统一性,但应该注意的是,每个标准对这四个阶段的适用性要求的定义还是略有不同。必须满足每个步骤的原则,从而符合相关标准。 最终用途和允许的故障概率 为了定义恰当的错误处理机制,就必须对潜在的硬件故障进行分类。就像前面提到的飞机轮胎和厨房的场景一样:汽车信息娱乐系统中的一个错误可能是可以接受的,而影响安全装置的错误则是不可接受的,例如自动制动系统。 因此,需要依次对不同的要求进行分类。例如,IEC 61508标准就被细分为五个安全完整性等级:SIL 0到SIL 4。ISO 26262标准包括四个等级:ASIL A到ASIL D(其中ASIL代表汽车安全完整性级别)。类别级别越高,安全要求越严格,其中SIL 4或ASIL D是最严格的。 在确定设计和验证中必须采用的方法时,产品的最终用途在其中起着至关重要的作用。例如,进入汽车信息娱乐系统的芯片,如果发生故障就会给驾驶员带来麻烦,但不会对人的生命构成任何风险。相比之下,安全气囊或车道管理系统中的芯片故障可能会威胁到驾驶员、乘客、道路上其他车辆甚至行人的安全。 当一种芯片设计的最终用途可能意味着人类的生命会受到威胁时,我们将其称为安全关键型芯片。功能安全在这种设计中是必不可少的:因此,这类设计的完整性级别必须与最终用途相称。必须对软件或硬件引起的潜在故障制定计划并主动解决。 对故障的理解和反应 让我们进一步了解如何理解和应对潜在的故障。从根本上来说,这都是关于系统如何处理故障情况,并确定:1)如何预防故障本身发生,或2)如何应对故障。这里必须区分硬件错误和软件错误,它们要么可以被安全地忽略,要么必须通过不同的方法加以预防或应对。即使是纯粹的硬件错误,也必须了解这些错误实际上会导致什么故障,以及适当的应对措施应该是什么样子。 需要对系统性误差(例如,由电路开发或不充分验证导致的)和随机发生的错误(由外部影响引起)之间进行区分。重要的是要明白,在任何情况下都不可能避免系统性错误。通过良好的验证覆盖、标准化的测试过程、广泛的测试,其中也可能通过使用专用的验证IP(VIP)以及使用专门的工具,有可能显著提升开发无错误产品的可能性。 正如相应的安全标准明确强调的那样,100%的覆盖率在实际中是不可能实现的。对于所谓的极端情况尤其如此,这种情况描述了元器件在异常条件下的操作,并且在电路开发和相关验证中都是一种挑战。 另一方面,也不能完全排除随机错误。在这里,有必要制定对此类错误做出适当反应的策略。为了消除由外部影响(如α因子)引起的潜在故障,必须采用错误检测和校正电路。根据应用领域和无错误操作要求的级别,有必要提供容错实现。容错在发生错误会危及人类生命的情况下尤其重要,比如飞机上的设备。 原则上来说,这样的要求需要大大增加实现的工作量,当然也需要增加验证的工作量。在这个领域,有必要强调的是,芯片设计人员必须要验证电路本身的正确性,还要验证错误检测和纠正电路的正确性。 IP 开发是如何受到影响的 ? 当为安全关键型设计创建或使用IP时,工程师必须要牢记什么? 即使只对最终产品进行认证,但其中每个组件也必须满足适用于整个系统的要求。因此,所有子组件都必须按照严格的规则来执行电路实现要求,以考虑产品在安全性相关应用中的后续使用,并遵守适用标准的开发流程。 就ISO 26262标准而言,设计流程要求包括: ·详细的规划——在定义功能安全要求阶段中必须仔细完成 ·分析——旨在识别危险和可能的错误模式 ·实施——即对前面两个步骤进行全面的考量 然后,必须对系统进行验证和确认。为了获得认证,所有细分步骤都必须有良好的证明文件,并记录其结果。同时,这个记录必须包括所使用的工具和采用的验证方法等等。 为了获得DO-254认证,必须在规范制定阶段首先就要强制性地使用明确的定义和术语,以确保从一开始就有完全可追溯性,并指出精确的要求,以确保详细的证明文件。 要获得这种类型的认证需要付出很大的努力!还必须承担额外的任务来创建适当的证明文件,如记录验证过程、错误覆盖、错误报告和工具使用等必需环节。还应该注意的是,只有某种产品在获得认证后保持不变的“冻结”版本才是认证合格的。此外,在创建产品时所使用工具的版本也必须保持不变。 获得行业标准机构认证 为了确保符合DO-254或ISO 26262等安全标准,就有必要获得相应的认证。公司必须与独立的组织合作,例如德国的TÜV SÜD等机构,以完成认证过程。全球有许多这样的认证机构。 那么,你应该追求认证吗?这需要视情况而定。 不利的一面是,获得安全标准认证的整个过程非常耗时,而且还需要适当培训人员。还需要在整个认证期间接受认证组织的审核,以检查和证明实现功能安全的措施的完整性。 有利的一面是,认证可以增加客户对其所需的产品质量和可靠性的信任。此外,由于投入了额外的时间和精力,在整个设计过程中对细节的严格关注可以开发出优质的产品。 在大多数情况下,认证IP核这样的单个子组件是没有意义的,因为它们会被用于更复杂的电路中。但是,所有子组件都必须符合适用标准规定的严格规则,并考虑到产品在安全相关应用中的后续使用。 最终考量因素 如前所述,获得认证并不容易,但值得一试。即使只对最终产品进行认证,但包括第三方IP核在内的每个组件都必须满足适用于整个系统的要求。因此,所有子组件都有必要按照适用标准的严格规则进行电路实现,并在开发阶段就为产品的安全关键型最终用途制定规划。前面提到的标准定义流程必须从始至终贯彻。 SmartDV已在汽车和航空电子设计方面富有经验和颇有建树,可以成为芯片厂商在探索相关领域时值得信赖的IP合作伙伴。我们的VIP是由具有数十年复杂芯片验证经验的验证工程师所创建。我们还为各种应用提供基于标准的设计IP。下面显示的是我们的一些IP核,它们都适用于本文中讨论的安全关键型设计。 随着芯片的复杂性不断增加,验证也在逐年变得越来越复杂。在当今的芯片设计中,验证往往会消耗大约60%-80%的项目资源,并且通常是整个过程中的瓶颈。正是因为这样的复杂性和重要性,与值得信赖的IP伙伴合作是回报最高的途径,他们将与芯片设计师共同解决其在此过程中遇到的任何问题。 市场差异化带来的定制化需求也在芯片行业中不断凸显。无论您是为下一代SoC、ASIC或FPGA项目采购设计IP,还是寻求验证解决方案(VIP)来完成您的芯片设计,SmartDV都可以快速且可靠地对我们多元化的产品组合进行定制,以满足您独特的设计需求。我们的SmartCompiler™技术使这种定制化可以很完美地实现,并可使芯片设计公司获得更高的回报。IP Your Way™——只需定义您的规格,然后交给我们处理。 我们期待看到您的芯片设计成果应用在道路上或在天空中! 本篇技术文章是Philipp之前发表的同一主题博客文章的后续,他最近也用在线研讨会的方式详细解读了这个话题,大家可以关注“智权半导体”微信公众号,我们将在近期发布他的演讲视频记录。智权半导体科技(厦门)有限公司是SmartDV在中国的全资子公司,其目标是为中国的客户提供更直接和深入的支持,并与中国的合作伙伴开展更全面的合作。 关于 Philipp Jacobsohn Philipp Jacobsohn是SmartDV的高级应用工程师,他为北美和欧洲地区的客户提供设计IP和验证IP方面的支持。除了使SmartDV的客户实现芯片设计成功这项工作,Philipp还是一个狂热的技术作家,乐于分享他拥有的在半导体行业近30年积累的丰富知识。在2023年加入SmartDV团队之前,Philipp在J. Haugg、Synopsys、Synplicity、Epson Europe Electronics、Lattice Semiconductors、EBV Elektronik和SEI-Elbatex等担任过多个工程和现场应用职位。Philipp在瑞士工作。 关于智权半导体 智权半导体科技(厦门)有限公司是SmartDV Technologies™在华设立的全资子公司,其目标是利用SmartDV全球领先的硅知识产权(IP)技术和产品,以及本地化的支持服务来赋能中国集成电路行业和电子信息产业。目前,SmartDV在全球已有300家客户,其中包括十大半导体公司中的七家和四大消费电子公司。 通过将专有的SmartCompiler™技术与数百位专家工程师的知识相结合,SmartDV可以快速、经济、可靠地定制IP,以实现您独特的设计目标。因此,无论您是为下一代SoC、ASIC或FPGA寻找基于标准的设计IP,还是寻求验证解决方案(VIP)来测试您的芯片设计,您都会发现SmartDV的IP非常容易集成,并在性能上可力助您的芯片设计实现差异化。 chinasales@smart-ip.cn
  • 2024-4-11 16:10
    0 个评论
    艾迈斯欧司朗正式面向新老客户推出全方位晶圆代工服务。 即日起,我们诚挚邀请各大芯片设计公司体验艾迈斯欧司朗的集成电路(IC)代工服务,进行IC原型设计,共享晶圆制造服务。该服务也被称为多项目晶圆(MPW)/晶圆共享,您可以享受共享晶圆制造带来的成本优势及其他优势。 艾迈斯欧司朗MPW服务提供180 nm和0.35 μm全范围的专业工艺,包括最近推出的180 nm CMOS技术(“C18”) 。2024年的服务计划表已公布。 多项目晶圆服务将不同客户的多种设计需求集成到单片晶圆设计上。由于晶圆和掩膜的成本由各个多项目晶圆客户均摊,因此该服务可有效降低艾迈斯欧司朗代工厂客户的成本。 该项服务的实现得益于全球合作伙伴的支持,其中包括CIME-P(前身为CMP)和Fraunhofer IIS(通过EUROPRACTICE欧共体计划)。亚太地区和中国区的客户也可以通过当地MPW项目的合作伙伴MEDs Technologies使用该服务。 180 nm CMOS技术 适用于多种应用的 传感器/传感器接口器件 C18工艺支持多种1.8V和3.3V NMOS和PMOS器件,包括基于衬底、浮动、低漏和高阈值电压多种选择,以及经过完整验证的无源器件,比如各种各样的电容器。经过占位面积优化的高密度和低功耗数字库,其密度可达125kGates/mm²,数字和模拟输入输出库更新后同时拥有多达六个金属层。静电放电(ESD)保护单元达到8kV HBM级别。C18工艺广泛应用于传感器和传感器接口器件。 2024年度的所有MPW将在位于奥地利的领先200 mm晶圆制造工厂进行生产,以确保缺陷密度最低化和高产量。 0.35 μm CMOS / 嵌入式闪存技术 适用于汽车和工业的高电压设计 2024年,除C18的MPW服务外,艾迈斯欧司朗还将提供0.35 μm专业工艺的MPW服务。 艾迈斯欧司朗0.35 μm高压CMOS工艺系列专为汽车和工业应用中的高电压设计进行了优化,该系列支持20V、50V和120V的器件,并提供真正的电压可拓展晶体管。 先进高压CMOS工艺具备可嵌入EEPROM功能,与CMOS基础工艺完全兼容,使艾迈斯欧司朗MPW服务有了更完整的解决方案。 如何快速启动 复杂高性能混合信号IC的设计? 为确保MPW服务顺利开展,请代工厂客户务必在指定的日期前提交完整的GDSII数据(详情参阅下表)。客户将很快收到未经测试的封装样品或芯片,一般情况下,CMOS工艺周期为10周、高压CMOS和嵌入式闪存工艺周期为12周。 所有工艺技术均得到了知名的 hitkit设计环境 的支持,在使用Cadence的Virtuoso® Custom IC Technology的基础上,采用艾迈斯欧司朗行业基准工艺设计工具包(PDK)。 hitkit提供了全面的硅认证标准单元、外围电路单元库和通用模拟元件,如比较器、运算放大器、低功耗模数和数模转换器。定制的模拟器件、适用于PVS/Pegasus和Calibre的物理验证规则集,以及具有精确特性的Spectre Simulation Platform电路仿真模型,均有助于复杂高性能混合信号集成电路设计快速启动。 除标准的原型制作服务外,艾迈斯欧司朗还提供先进的模拟IP模块、存储器(RAM/ROM)生成服务和陶瓷或塑料封装服务。 致力于提供高品质和高可靠性的 全方位晶圆代工服务 在汽车、工业和医疗应用领域,艾迈斯欧司朗拥有四十年的专业知识及经验,为客户提供CMOS和光学滤波器的一站式服务。选择艾迈斯欧司朗代工服务,将助您在传感器和传感器接口领域取得市场领先地位。 如有相关需求请联系我们,轻松获取优质的专业服务。 作者简介 Rene Kautschitsch Rene Kautschitsch是艾迈斯欧司朗全方位晶圆代工服务的市场经理,拥有30余年的半导体行业产品营销、业务拓展和市场研究从业经验。
  • 2022-10-9 12:20
    5280 次阅读|
    1 个评论
    GeForce RTX 40系列的发布,是摩尔定律的挽歌
    我们知道“摩尔定律”形容的是半导体的尖端制造工艺——现在尖端制造工艺的 foundry 玩家就剩 3 个了,毕竟成本和技术投入也不是谁都承受得起。而能够承担尖端制造工艺的芯片门类也不多,电脑、手机、数据中心里面的大芯片,然后就没有了。 从技术角度来说,CPU 这类通用处理器受惠于摩尔定律的性能提升幅度越来越有限,原因比较复杂,不是咱要讨论的重点。得到尖端制造工艺最大红利的,我觉得是更偏专用的芯片:就是那些能大量堆砌算力、搞大规模并行计算的芯片。AI 芯片、GPU 都是典型。 所以 GPU、AI 芯片每年迭代堆晶体管都还是蛮狠的,因为堆晶体管真的有效,多堆一些计算单元,算力也就跟着提高——虽然堆晶体管实现性能趋近于线性提升也不是那么简单。 不过这些芯片也面临一些实际问题,比如说芯片已经那么大了,再大半导体制造设备都处理不了;与此同时晶体管微缩速度显著放缓,根本就做不到每 2 年单位面积内的晶体管数量翻番——这其实也是阻碍堆晶体管的重要因素。最近英伟达 GTC Fall 上,黄仁勋就说:“摩尔定律主要讲的是有关于晶体管的,还有技术代与代之间成本变低。但现实已经不是这样了。摩尔定律已经结束了,技术现在变得越来越昂贵。” 其实有关“单个晶体管造价成本降低”的问题,这应该算是摩尔定律的一个推论——有兴趣的可以去看看维基百科对摩尔定律的具体阐释。老黄说的是事实,从 20nm 以后,单个晶体管造价就在一路小幅攀升——前两年有关这方面的研究还挺多的;这就相当于摩尔定律终结了一半。而到现在,即便半导体制造上游的很多市场参与者还在嘴硬,也改变不了现实。 当然,其实解决问题的方法还有不少,比如其他更系统层面的方案——像 chiplet、先进封装、DSA(专用架构)、Synopsys 的 SysMoore 之类的。不过咱来看个更有趣的例子: 这是黄仁勋在主题演讲中展示的一张PPT。这张图中下面那根曲线是 2018 - 2022 年英伟达 GPU 的晶体管数量增长趋势,从增长倍数来看也还行。 但光线追踪的性能需求,已经从 4 年前的每像素 39 次光追操作,上涨到 635 次。之间的性能跃升是 16 倍。如果真的只靠堆晶体管,那就扑街了。 英伟达针对今年新发布 Ada Lovelace 架构显卡综合性能提升的宣传说辞是“4 倍”。今年 GTC Spring 的时候,英伟达也说面向数据中心的 Hopper 架构 GPU 性能提升 3 倍——就摩尔定律的角度,这都相当不科学。尤其黄仁勋不是还说摩尔定律结束了吗?那这 3、4 倍的性能提升都是哪儿来的?通用处理器一年性能提个 20% 就了不得了。 基于对这些“倍数”的解析,也有利于咱从 fabless 的企业看一看,这年头提升芯片性能应该用怎样的思路。反过来说,芯片设计企业的这些操作,其实也能有效佐证摩尔定律的终结,毕竟他们已经无法倚仗摩尔定律卖货了。 文章比较长,可以选择性阅读;各章节也可跳转阅读。 (这次 GTC 发布的 RTX Remix 也挺有意思的,我专门写了一篇文章,附在文末) 4080 12GB 性能真的能约等于 3090 Ti? 对消费用户而言,GTC Fall 的大热门莫过于 GeForce RTX 40 系列新显卡。从产品层面先来简单看看这次的新货。 游戏显卡新发的产品主要就 3 个:GeForce RTX 4090、GeForce RTX 4080 16GB 和 GeForce RTX 4080 12GB。 貌似这次被吐槽比较多的是 4080 12GB 版,因为这块显卡的 die 和 4080 16GB 都不一样,按照传统应该放到 4070 一档。不过英伟达说 4080 12GB 在性能上最高达到了 3080 12GB 的 3 倍,比 3090 Ti 性能强,所以仍将其归于“4080”定位。 已列出的参数就不多啰嗦了,看图即可,说一些亮点。基于台积电 4N 工艺,4090 的 AD102 die 上堆砌的晶体管数量是 763 亿个,die size 608.5mm²;3090 Ti 的这两个值是 283 亿和 628.5mm²。台积电果然还是比三星要靠谱许多的… 可能很多同学对 763 亿晶体管没有量级概念。实际上很多数据中心的大规模 AI 芯片、GPGPU 都没有这个数量级,比如 Graphcore IPU 的单 die 也就 600 亿晶体管,英伟达自己用在数据中心的 Hopper 架构 GH100 是 800 亿晶体管。这年头,玩个游戏都这么高级了吗? 另外,新架构新工艺带来的一大亮点在于功耗的显著降低。我个人感觉就工艺器件层面,比较有对比价值的一个数据是,4090 的 TGP 450W,和 3090 Ti 一样,但前者的浮点吞吐性能是后者的 2 倍。这种比较 raw 的对比方式,是能够看出工艺层面的进步的。 还有一个说法,是前面提到的英伟达说 4080 12GB 性能就比肩 3090 Ti 了,但功耗却从此前的 450W 降低到了 285W。这个说法是否有待商榷?佐证是下面这张图的游戏与应用实测数据。 这个数据一大部分是基于 DLSS 3——后面会提到这项技术。看过发布会或报道文章的同学应该知道 DLSS 3 的技术主体包括了游戏画面的超分(AI Super Resolution)和插帧(AI Frame Generation),另外还有个 Nvidia Reflex。尤其是插帧,看起来简直是刷游戏帧率神器;换句话说一部分画面并不是图形单元渲染出来的,而是 AI 生成的。这也算性能提升吗? 就这个问题,说一点个人感想。我始终觉得“以体验为本”是考察性能是否真的提升的依据。当代图形计算的很多 tricky 技术都是基于这一点,比如说 VRS(可变速率着色)——很早以前就有人说 VRS 是“虚假的帧率提升技术”。但这项技术是真切地提升了画面帧率,同时对体验又没有什么影响的;那么它就是一项应纳入性能考虑范畴的技术。 超分、插帧如果能真切提升游戏流畅度,而且对画质和体验几乎没有影响或影响很小,则其带来的性能提升就应当被纳入考量。其实电子工程(EE)和计算机科学(CS)这两门学科,乃至更多电子相关的工程类学科的一大特色,就是利用各种 tricky 技术来实现进步。而随着摩尔定律的结束,堆晶体管已经没那么有效,一切 brute force 的技术推升都需要一些“奇技淫巧”来从旁协助。行业其实就是在各种奇技淫巧思路的推进中发展的。 从 Turing 架构开始,在图形 GPU 上增加 RT core、Tensor core 多少都算当年的奇技淫巧。而它们的计算范式一旦成为行业标准,构成生态,也就成为了图形技术的组成部分。像 3DMark 这种 benchmark 工具都已经在逐步加入对于光追、AI 超分的考察方法,自然算得性能提升。 据说 DLSS 3 今年 10 月就会应用于首波 35 款游戏和应用中,这进度似乎比 DLSS 最初发布的时候还要顺利。这也算英伟达在生态号召力上的体现吧。其实如果某种技术和标准没有号召力,则它对于实际性能的贡献,大概率都会被整个行业排除在外。 所以 4080 12GB 性能约等于 3090 Ti,以及 Ada Lovelace 消费级显卡性能相比 Ampere 消费级显卡提升 4 倍,这类命题能成立的一个必要条件就是生态号召力足够强大。当然还有就是技术本身能够实打实提升体验(所以叫“以体验为本”嘛),而不是像既有的一些插帧技术一样,极大增加了游戏操控延迟,那把帧数提升算在性能进步里,就比较不靠谱了。 我个人印象比较深刻的一点是这次英伟达不是还发布了一个 Racer X 么?英伟达说对于其设计,如果是用 3090 Ti + DLSS 2,那么设计师是需要做权衡的:要么就是你看到的画面是物理级准确的(physically accurate),但帧率会很低;要么就是帧率可以更高,但预览的渲染精度会明显更低。但英伟达说,这回的 4090 + DLSS 3,帧率、精度都能有。我感觉这个点的性能提升是质的飞跃。 产品层面最后值得一提的是,除了 GeForce 显卡以外,这次 Ada Lovelace 架构显卡还有新增面向工作站的 RTX 6000 更新,以及用于数据中心的 L40。后者不是 Hopper 架构,而是富含图形单元的 Ada Lovelace——所以也就是云游戏,或者其他图形计算密集型应用,也包括 AI、CV,当然还有 Omniverse。 Ada Lovelace 新架构概览 有关 GeForce RTX 40 系 GPU 详细配置,网上的信息已经比较多了,这里不再一一列举,包括目前最大的 AD102 die 的 CUDA 核心、频率、TGP,还有 RT core、Tensor core 有多少、第几代等等,汇总相较于前两代显卡旗舰款的配置数据对比如下: SM 层级、GPC 层级 GPU 层级 AD102 从 SM 到 GPC 到 GPU 不同维度的模块构成示意如上图,应用于 4090 的时候如何下刀的应该也一目了然了。不过这个示意图也有一些信息未给出,比如说每个 SM 还带 2 个 FP64 核心。还有编解码器,NVENC 升级到第 8 代,开始支持 AV1 编码——高配的 GeForce RTX 40 系配了双 NVENC 编码器;NVDEC 解码器配置不变。 从 AD102 die 层面,总共应该是 18432 个 CUDA core,144 个 RT core,576 个 Tensor core,576 个 TU(纹理单元)。像存储子系统之类的部分就不多谈了:比如 AD102 的 L2 cache 堆料算是暴涨的;还有显存方面,似乎就系统角度来看,据说这次英伟达和美光合作搞的 GDDR6X,加上重新设计的散热系统,能在显卡工作时让温度相比 3090 下降 10℃——主要是因为更高的显存密度,颗粒放在了 PCB 单面……更多配置数据就看图吧。 比较值得一提的是,上代 Ampere 架构的 RT core,也就是处理光追的单元,主要包含了 Box Intersection Engine(用于 BVH 盒子遍历加速)和 Triangle Intersection Engine(光线-三角形相交测试加速)——这是第 2 代 RT core。现在这类单元貌似已经成为当代光追 GPU 标配。 Ada Lovelace 的第 3 代 RT core 新增了 Opacity Micromap Engine 和 Displaced Micro-Mesh Engine。这两个新增的单元促成的改进,可认为是加速实时光追技术发展的重要组成部分。另外还有老黄在主题演讲中着重说到的 SER(Shader Execution Reordering,着色器执行重排序)。 而第 4 代 Tensor core,或者说专用 AI 单元,其乘加矩阵算力的具体情况可以去看英伟达官网产品介绍。比较值得一提的是,Tensor core 里也加入了 Hopper 架构中的 FP8 Transformer 引擎,毕竟这符合 AI 应用发展的大趋势。此外,和 Tensor core 相关的 DLSS 3,以及专用的 Optical Flow Engine 单元,后文会单独谈到。 光追技术上的几个变化 光追这两年越来越成为 GPU 的标配了,不光是PC市场的主要竞争者都给 GPU 加上了专用的光追单元,移动平台都已经在积极着手布局光追。这方面迈步比较早的英伟达,眼见生态建设成果还不错,就开始搞光追技术和流程的优化、迭代了。 这次的第 3 代 RT core 对于整个光追生态而言,应该都会有借鉴意义。我个人的理解是光追相关的 3 个主要改进,其实都着眼于解决光追技术现存的问题,或者说尝试提升光追的效率。 先来聊聊 SER。老黄在发布会上说这项技术为光追带来的价值,无异于当年 CPU 引入乱序执行。 其实对于不包含光追的纯光栅渲染管线,SIMT(Single Instruction Multiple Threads)操作是很自然而然的,一条指令、并行线程就下去了,填充进 shader 的所有通道。比如一个三角形,如果这个三角形对应 32 个像素,那么它们都跑在一起。Shader 要被高效利用,就应该是跑一个程序,shader 内的所有通道都被占满。 光线在碰到场景中的对象(secondary ray tracing),又射往不同方向,以前的 GPU 跑起来就会相对低效,因为不同的 shader 程序跑在不同的线程上,而且还经常串行化执行 而到了光线追踪情况就不同了,工作负载间很多时候不再有天然的相干性,因为场景内的每条光线可能会四处乱飞。或者说它们相当的“发散”。不仅是不同的线程会执行不同的 shader 或者代码路径,还在于线程要去访问存储资源的时候,这些资源很难做 cache。 Ada Lovelace 对此所用的解决方案就是 SER。技术白皮书中说这是个新的调度系统,对 shading 工作进行重排序,以实现更好的执行和数据 cache 效率。据说英伟达在这方面花了多年时间做研发。 SER 是在光追管线上新增了一个环节,如上图就是对上例中的第二次光线 hit shading 进行重排序和分组,那么在后面的执行阶段也就能更加高效。英伟达说加上这项技术以后《赛博朋克 2077》在光追 Overdrive 模式下,从 SER 这一项特性获取的性能提升达到了 44%。 其实自此就很容易理解,对架构的改进,相较于单纯堆计算单元和晶体管的收益有时可以高很多。不过光追技术原本就在发展早期:或许它未来还会有极大的余量做各种流程优化。值得一提的是,开发者可基于 API 指定对特定负载做排序的最佳方法。这又是个需要培养生态的技术。当前英伟达在和微软之类的合作伙伴合作,令其成为标准图形 API。 除了 SER,Ada Lovelace 另外两个改进,一是 Displaced Micro-mesh,二是 Opacity Micro-masks。这俩改进本质也是针对光追技术的优化的。 其中 Displaced Micro-mesh 着眼于解决光追在遇到大量几何细节需时开销过大的问题。因为光追以前所用的 BVH 数据结构需要搞定场景中的每一个三角形,要直接捕捉每个细节,开销就很大:包括 BVH 构建所需的时间,和占用的存储资源。 Displaced micro-mesh 是几何形状的一种结构化表达,用来表达几何细节(上图图左的右边部分)。简单来说,它知道如何构造螃蟹腿上的那些凸起。基于粗粒度最基本的三角形(上图图左的左边部分,base triangle),RT core 就知道如何解决问题了;并且能够最终得到上图右那样的效果。 从硬件层面来看,RT core 里面新增了 Micro-Mesh Engine,用于生成细分的 micro-triangles。这里面还涉及到什么 displacement map、压缩之类的问题,就不细谈了;有兴趣的可以去看看 Ada 架构技术白皮书。 值得一提的是,Simplygon 和 Adobe 两家都已经宣布把 displaced micro-mesh 支持加入到它们的工具链里面。这种事情一般能够表明它有可能成为新的标准存在。 还有就是 Opacity Micro-mask 了。玩游戏的同学应该知道,3D 场景中逼真的植物渲染开销不小。绘制上面这样一片叶子,一般是搞个矩形、然后在上面应用纹理;当然叶子不会是矩形的,那么就需要有些部分是透明的。 以前没有光追的年代 TU 会去检查 alpha(透明度)通道,自然就知道了要绕过对应的透明部分,一切都比较顺利。但在光追世界里,RT core 干不了这件事。RT core 会去看整个矩形,光线打到矩形的任意位置,它就要把信息传递给 SM——SM 再去搞清楚某个地方是不是透明的,然后再告知 RT core 继续做光线追踪,或者这地方是不透明或半透明的… 这一代 RT core 为此引入了 Opacity Micromap Engine 单元。简单来说 RT core 能够基于 opacity micromap 的透明度状态,来直接解决光线相交的问题。仅在状态标注为“unkown”时才需要找 SM 帮忙。这样一来,效率会有大幅飞跃。具体的方法涉及到了所谓的 opacity mask,而 Opacity Micromap Engine 就负责标注透明度状态……细节就不做深入了。 也不光是树叶子,比较典型的像烟雾缭绕的场景,以往开启光追时就很容易悲剧。那么新特性的引入就会极大提升这方面的表现。英伟达在这次自己做的 mod《Portal RTX》里面也特别演示了对应的场景。 英伟达表示这几项特性包括 SER 都已经通过 SDK 的方式提供给了开发者,开发者可以很容易进行集成支持。而未来是否能和微软合作,通过 DXR 做集成,也可以期待一下。好像电子产业发展至今,更下游开发者的水平也极大程度决定了性能跃进幅度。 说了这么多,以上都是 GeForce RTX 40 系显卡相较前代实现 2 倍性能提升的技术基础。不是说好的 4 倍吗?还有 2 倍在哪里?那就是 DLSS 3 的事情了。 AI 算出来的帧率 DLSS 最初作为一种 AI 超分技术,从初代诞生至今已经 4 年了。前面我就说 DLSS 是种“奇技淫巧”。因为严格来说,DLSS 更靠近计算机视觉,而非图形渲染 – 还是基于 AI 的。它在思路上,就“GPU”这类硬件来看算是相当不正经。 而 DLSS 的出现,本身就很大程度代表着摩尔定律的终结。因为如果晶体管数量真的能无节制往上涨,还满足市场需求,那么图形渲染发展得好好的,要 CV 干嘛?一定是现有技术压根儿满足不了市场,才需要“奇技淫巧”的辅助。 黄仁勋在主题演讲后,接受采访时说了个很有趣的点:“英伟达就生于摩尔定律终结的时代。”“这也是加速计算崛起的原因。”这个立意听起来就拔高了一些:加速计算变火,客观上就表现出了摩尔定律的终结——好像真是这样。 而 DLSS,本质上属于 1 级加速计算附带的 2 级加速计算。因为 GPU 本来就已经是图形加速器了,而 DLSS 则成为了用来给图形计算再做加速的加速器。挺有意思的吧? 这次伴随 Ada Lovelace 而来的 DLSS 3。从软件层面来看,除了众所周知的超分(super resolution)——也就是基于AI把低分辨率的画面 upscale 为高分辨率,还新加了 AI 插帧(frame generation),以及 Nvidia Reflex。这三者干的事情分别是:提升画面清晰度(画质)、提升画面流畅度(帧率)、降低游戏操作延迟。 超分就不多谈了,其详细工作流程,网上现成的资料不少。而且这次 GTC 上英伟达也没怎么聊超分,估计和 DLSS 2 的超分差不多。着重来看看 AI 生成帧和 Reflex。 插帧或者叫补帧,顾名思义就是在原有 GPU 渲染出来的帧的基础上,再生成一些帧,以提高动态画面的帧率,起到提高画面流畅度的效果。这两年貌似手机行业有 OEM 厂商在搞的“显示芯片”就专职插帧(MEMC),但体验并不好,而且有明确可感知的操控延迟。 英伟达在技术白皮书中说,这项技术是过去 4 年 Applied Deep Learning Research 团队开发的。相关技术负责人说:“帧生成的挑战很大。我们需要确保画面中对象的顺畅、合理移动,确保不会让对象失真:比如要处理好画面中遮挡的问题,某个东西又出现的问题。另外还需要处理好游戏交互,确保很低的延迟。”这应该是现有解决方案存在的所有痛点。 光流法(optical flow)是计算机视觉应用中比较常见的,用来在连续渲染帧或视频帧之间,判断像素运动方向和速度的一种技术。其应用似乎还挺广泛,甚至在深度学习领域也用作汽车、机器人巡航、视频分析和理解等。 Ampere 架构 GPU 上就有专门的 OFA(optical flow engine,光流引擎)单元。而 Ada Lovelace 上的 OFA 提升了性能,标称 300 TOPS 光流操作,2 倍于 Ampere。似乎从英伟达的解释来看,Ampere GPU 之所以不会支持 DLSS 3,主要就是因为对于目前的算法来说,OFA 的性能不够。 当然另一个核心也在于运动矢量分析算法。DLSS 3 的插帧就是基于运动矢量+光流。英伟达说之所以要做光流,是因为如果只用运动矢量的话,画面可能会出现大量伪像。尤其在应用光追的情况下,因为几何运动矢量根本就无法用于判断光追造成效果的移动。比如画面中路面上的阴影,如果把这个阴影当作几何体,则它也会随着路面向后移动。但实际上我们知道,这个阴影应该是随视角位置相对稳定的。这就需要用光流来判断。 所以这里 engine motion vectors 能够理解几何体的移动,而 optical flow vectors 则能够更多的理解外观变化情况。英伟达说其实光流对于运动的理解不够精准,会犯错,最终效果也各异;这是 Ada Lovelace 投入光流加速器单元的原因,是为了令其更快、更准确。 这回 GTC 主题演讲和各路 session 都拿《微软模拟飞行》在应用 DLSS 帧生成技术后帧率暴涨来举例。其实像这种 CPU 为主要瓶颈的游戏,较大程度受惠于 DLSS 插帧很正常——CPU 瓶颈决定了超分技术的收益会很有限,但插帧是不需要 CPU 参与的,自然帧率倍增。 从英伟达那里听到相关插帧的技术解释差不多就这些了,总感觉这其中还遗漏了些什么重要信息。比如说所谓的 AI frame generation,并没有看出“AI”技术的应用——针对这一点英伟达倒是有告诉我 DLSS 3 的 frame generation 算法模型是 AI 计算模型,所以也需要 Tensore core 来加速; 还有从直觉来看,这么做仍然很容易造成可感知的操控延迟。猜测基于 GeForce RTX 40 系 GPU 的原生堆料和运算速度提升,DLSS 3 未应用于 30 系 GPU 的一大原因也在于旧显卡的延迟可能会太高。 英伟达展示的数据是,《赛博朋克 2077》开启光追 + DLSS 2 超分,输出 4K 画面的帧率是 62fps,延迟 58ms;而接入 DLSS 3,加入插帧,则帧率提升到 101fps,延迟还更短了。DLSS 相关技术负责人只在采访中说,针对 DLSS 帧生成技术,英伟达投入了大量工作,所有的优化加在一起、“对整个图形管线做优化”,才有了现在的结果。 当然 DLSS 3 还有一个组成部分没说,就是 Nvidia Reflex,这是一项显著降低操控延迟的技术。英伟达告诉我说,frame generation 带来的新延迟会被 Reflex 抵消,Reflex 也提供了更多的优化。“所以在绝大部分场景下,开启DLSS 3 会比,开启 DLSS 2 而没有开启 Reflex 的(情况)延迟更低。” 说起来,Nvidia Reflex 也不是新技术了,之前英伟达在竞技游戏和电竞圈里推 Reflex 生态也挺长时间。这次把 Reflex 作为 DLSS 3 的一大组件,可能是插帧有增加延迟的风险,故而需要借助 Reflex 再推一把——这是我自己猜的,但从英伟达的反应来看,差不多就是这样。 我们所说的游戏延迟,是指从输入设备发出指令,比如鼠标按下按键,到屏幕上的像素做出响应,这之间的时间。此前好像不少游戏输入输出设备供应商都推出过 Reflex 生态产品。 这个流程里当然还有 CPU 之类的参与,包括生成一大堆的 draw call,告诉 GPU 如何绘制场景,并进入到渲染队列(Render Queue)。GPU 就从渲染队列中去取这些 draw call,渲染完了会把画面发给显示器。 这里面有几十毫秒的延迟可能会是渲染队列带来的。其实渲染队列的存在很大程度上是为了确保 GPU 的高利用率的。要移除渲染队列还是需要很仔细的。Nvidia Reflex 在这条通路上的选择之一就是移除渲染队列。 据英伟达所说,Nvidia Reflex 很仔细地协调了 GPU 和 CPU 的工作。这其实就要求 Reflex 非常了解游戏引擎在某些特定点的工作状况。这主要依托于游戏开发者在游戏引擎里增加的一些所谓的“Reflex Markers”标记,这些标记会告诉 Reflex 软件怎么做,那么 CPU、GPU 在不需要渲染队列的情况下,就能保持高效同步。如此一来也就消除了不少的延迟。 这个 Reflex Markers 也是对开发者而言,要去践行 DLSS 3 非常重要的组成部分——在此之前应该是没有这部分操作的(也是就开发者角度,相较 DLSS 2 的唯一差别)。可见 Reflex 是配套消除延迟的必行方案。 在 DLSS 3 的生态扩展方面,前文已经提到了首批很快会有 35 款游戏和应用做出支持;另外 DLSS 3 会作为 Streamline 插件存在,UE 引擎之类的就不用多说了。 我觉得有一个点可能会吸引到玩家,就是英伟达在 DLSS 3 技术解析 session 上说,长久以来竞技类游戏玩家都选择 1080p 分辨率,这是为了确保高帧率。但这次英伟达很推荐这部分玩家开始用 1440p,因为“我们发现 1440p 27 寸显示器上,相比于 1080p 25 寸显示器,玩家能够提高对准精度、打击更小的目标”,高分辨率也有助于更快锁定目标。而新架构是实现这些的基础。 摩尔定律终结后… 原本还想聊聊 Ada Lovelace 的“第 8 代”NVENC 的,但文章篇幅有些过长了,且等往后吧。有关编码器可总结的部分是这次的 NVENC 新增了对于 AV1 编码的支持,貌似英伟达在 AV1 生态方面也做了不少工作。 另外就是采用双编码器(dual encoders)配置——英伟达也为此开发了双编码器协作算法,可以把帧拆成两半,实现编码负载均衡——这就让 GeForce RTX 40 系显卡用达芬奇之类的工具做视频剪辑的时候,4K 编码速度快 1 倍、8K 输出速度快 2.5 倍等…以及和 Black Magic 合作,实现达芬奇 12K RAW 剪辑可以不用代理…… 最后做个总结吧。从 Ada Lovelace 来看,英伟达作为一家 GPU 企业,对抗摩尔定律停滞的方法至少包含以下几项: (1)DSA 和更专用的硬件单元。从此前给 GPU 加 Tensor core、RT core 就能看出来了;而在 Ada Lovelace 上,则为 RT core 又特别加了好几个专用引擎,用以提升光追效率;还有 Tensor core 上此前就已经出现的 FP8 Transformer 引擎; (2)大搞 AI 技术。这一点虽然跟第 1 点有那么点重复,但 Tensor core 的存在,以及 DLSS 这类技术,都已经成为原始 GPU 之外,像素世界展示的重要组成部分了;AI 生成的像素和帧,未来大概就比 GPU 渲染的像素还要多。宣传中所说的 4 倍性能提升,其中有 2 倍都是来自 DLSS; (3)架构优化。从 Ada Lovelace 上主要体现在光追的架构和流程改良上,SER 是个中典型; (4)从系统层面看问题。这一点算是全行业趋势,黄仁勋在答记者问时说:“未来是有关加速全栈的(The future is about accelerated full stack)。”“计算并不是个芯片问题,计算是软件和芯片的问题,是全栈的挑战。”如果你在图形之外,关注英伟达的 HPC 和 AI 版图,就知道他们经常隔年更新某个细分领域的库、框架之类的东西,同硬件下的计算性能就提升 1 倍…… 其实这上面有好几项都与生态构建能力有莫大关联,尤其专用硬件、AI 技术、系统层面的软件构成,都依托于庞大的开发者生态,否则也就是个精致的摆设。比如光追架构改一下,开发生态和标准可能都跟着有动作,也没有多少芯片公司现在敢贸然做这种事吧。而生态恰好是英伟达的强项。或者大概应当说正因为是强项,才会这么去做。 其实系统层面 more than Moore、Over Moore 之类的技术宣传都还在持续,这些技术惠及 PC 和工作站 GPU 应该也快了。我们可以等等看,明后年的英伟达 GPU 还将有哪些有趣的变化。 PS: 针对这次 GTC Fall 的一个大热门 RTX Remix——就是那个能用来做游戏 MOD 的工具,我另外写了文章,这是个挺有趣的技术,欢迎点阅: 一切皆可元宇宙!20年前的游戏开启光线追踪,方法是这样的-国际电子商情 (esmchina.com)
  • 热度 4
    2022-3-26 11:33
    2900 次阅读|
    2 个评论
    随谈芯片设计公司研发实验室的静电防护问题
    1. 芯片设计公司研发实验室的工作内容简介: 芯片设计公司一般都有自己的芯片研发实验室,主要为公司的芯片进行各种验证测试,包括芯片自身的性能测试、芯片在各种电子终端产品上应用的仿真测试,以及向芯片客户提供芯片的失效分析等技术支持。 芯片研发实验室里的设施主要包括进行芯片测试的工作台、测试设备以及电子维修的工位。 2. 芯片研发实验室会有高静电的情形么? 芯片研发实验室里的工作相比于电子工厂的生产线,自动化程度非常低,各种测试项目基本全部靠工程师手动操作来完成各种测试平台的搭建、调试等。 芯片设计公司的每个工程师基本都要负责数个工位的测试项目,由此,工程师在实验室里工位上以及工位间的走动就会很频繁,这样,工程师人体上的静电(如果不做特别针对性的控制)时常就会很高。 表1,几种常见的人员活动中的人体静电带电行业调查数据 实验室的环境湿度对实验室内工程师的走动及各种手动操作(测试连接插装与拆解)的静电带电有着直接的影响。以华南地区的广州、深圳等地的一年环境湿度统计结果而言,每年一般都会在12月前后10多天的相对湿度降至20% RH左右。据此可以推断,国内几乎全部地区每年都会有中低湿情况致使实验室内的静电会比较高。 3. 静电会给芯片研发实验室的测试造成什么影响? 静电是如何对芯片构成危害的,参见前述的文章《概说静电对微电子产业的影响》。 一是工程师人体上的静电,在工程师走到各测试工位上操作测试平台时(尤其是靠近或接触测试平台的电气管脚部位),就构成了典型的人体静电放电情形。生活中,每个人都有冬天里触摸金属门把手或车门被静电电击的多次体验。而对于测试平台上的各类芯片(包括芯片公司的产品),在人体静电完全不受控的工程师手部触摸到其电气管脚时,势必会产生很高强度的放电电流。这种强放电电流,一方面可能直接导致测试平台上的电子元件失效,同时,另一方面也会对进行中的测试产生显著的干扰(也就给芯片的测试结果带来干扰,这一方面反而是芯片验证测试更为关注的)。 图1,芯片研发实验室测试工位工程师人体静电操作测试平台的静电放电原型 二是测试工位中的高静电源带来的影响。以工位的台面为例,如果选用一般的塑胶质表面,则在低于55%RH中低湿的环境条件下,工位的台面上就会时常出现高静电带电的情形。 图2,高静电工作台面上操作芯片测试平台连接插拔过程的静电放电风险原型-芯片测试电路板对测试设备发生静电放电 图3,高静电工作台面上芯片测试电路板焊接维修过程的静电放电原型-芯片测试电路板对接地的电烙铁放电 4. 芯片研发实验室的静电防护方案 基于芯片研发实验室的主要静电来源与高静电风险的操作,针对性的静电防护方案主要包括三部分: 一是实验室内工程师的人体静电必须采取有效的控制措施,可以采用静电手腕带接地系统(首选),也可以辅助采用静电鞋_静电地板系统(可靠性与可行性相对较差)。 二是实验室内各测试工位的工作台面,应避免采用绝缘材质(容易产生并累积高静电),可采用铺装静电防护台垫,实现静电防护工作台面,这样就消除了测试工位中最主要的静电来源。 三是个别工位采取特定的静电防护措施。例如,测试平台中涉及到操作大尺寸的绝缘部件(塑胶外壳、膜材等),就需要加装离子化措施,来中和消除这些物料操作过程产生的高静电。 综上所述,芯片研发实验室各工位的静电防护措施,主要包括以下部分: 1) 工位的静电接地系统,供工位的静电防护台垫、人体手腕带系统以及静电地板进行接地连接。静电主地首选实验室内合格的电气设备地; 2) 工位的静电防护工作台面,表面电阻 1E4 欧姆),具体可参照行业标准ANSI/ESD S20.20或IEC61340-5-1关于静电防护台面的技术性要求; 3) 人体静电接地系统,首先工程师佩戴静电手腕带实现人体接地的做法; 4) 离子化静电中和消除措施,主要针对于工程师操作中易于产生高静电的测试工位。 图4,芯片研发实验室工位的静电防护架设方案
  • 热度 33
    2020-7-3 10:09
    1698 次阅读|
    0 个评论
    加速产品研发,助力IP国产替代迎接高光时刻
    在全世界大力发展互联网科技的新时期,外部对我国科技的考验仍在不断加大,发展 IP 国产替代已成为不可逆转的技术浪潮。 中美博弈激发民族责任感 漩涡中的中兴通讯成为了中美贸易战中 “ 杀鸡儆猴 ” 的牺牲品;孟晚舟被捕,漫漫归国路荆棘密布; 2020 年 5 月 16 日,美国商务部宣布了一项新计划,将修改出口管制规定,限制使用美国芯片制造设备的外国公司再向华为或海思等关联公司供应部分芯片。在此之后,半导体国产化声浪高涌, IP 的重要性也愈发凸显, IP 国产替代迫在眉睫。 作为世界先进、国内领军的高速混合电路 IP 和定制芯片一站式提供商,芯动科技 IP 支持了国内外数以十亿计的主流高端 SoC 量产,覆盖国际知名 6 大顶级半导体厂从 0.18um to 5nm ,市场份额连续 10 年遥遥领先。芯动科技全力支持芯片自主可控国产化,以高安全性、高可靠性 IP 和定制产品、灵活共赢的商业模式服务于全球客户。 在互联网经济不断发展的时代趋势下,芯动科技进一步加强半导体 IP 的研发,加强行业间合作,为促进芯片国产化进程添砖加瓦,展现民族科技企业的责任与担当。 国产 IP 崛起之路 如今中国由信息化向智能化跨越转型,智能制造成为大势所趋,国产高端芯片业迎来新的机遇。目前,半导体产业已进入继 PC 和智能手机后的新一个发展周期,其最主要的变革力量源自于物联网、 5G 通信等新应用的兴起。在国产替代浪潮,以及政策、资金等支持之下,国内芯片创业公司和芯片设计项目近年来也快速增长。 去年可以说是 5G 的元年, 5G 的通信技术在全球各地开花。作为中国科技行业的佼佼者,华为的 5G 得到了很多国家的认可,但是木秀于林,势必会招来狂风。这一路敌人要比朋友还多,要做到不惧风浪,眼光独到,大胆创新。国产 IP 崛起之路道阻且长,但前途光明。 讲到国产 IP 的崛起,不得不提一下芯动科技!芯动科技在 IP 行业深耕细作 14 年,国产 IP 和芯片一站式定制服务连续 10 年国内市场遥遥领先。无论是传统通用的 USB 、 HDMI 等高速接口 IP ,还是缺口较大的 PCle3.0/4.0 、 DDR4/5 、 GDDR6/5 等高性能计算领域,几乎均被芯动的纯国产 IP 所取代。特别是芯动全球首发并量产的 GDDR6 高带宽数据存储技术和低功耗主流计算技术,为国产高端 GPU 、 CPU 创造了 4 倍以上的数据带宽技术,对人工智能和 5G 大数据处理意义重大。芯动科技通过一站式芯片定制服务,跨工艺、跨封装、跨系统,连接研发设计和代工量产环节,灵活贴近客户各种需求。 放眼全中国,国产能够代替的产业链环节在逐渐增加,只有在技术环节上有所作为,才能确保建立技术战略威慑力。半导体产业链其中最为重要的则是 IP 国产化,因为它在整个半导体产业链中处于上游的环节,只有 IP 研发逐渐趋于国产化,才能体现出国家半导体产业的自主创新能力。只有发展好国产半导体 IP 技术,才能让我国在国际竞争中立于不败之地。 芯动用时间沉淀产品 / 技术 14 年的深耕打磨 在这场 IP 国产化的马拉松中 我们厚积薄发,砥砺前行 只为高效赋能高端国产生态链!
相关资源