tag 标签: 摩尔定律

相关博文
  • 2022-10-9 12:20
    5099 次阅读|
    1 个评论
    GeForce RTX 40系列的发布,是摩尔定律的挽歌
    我们知道“摩尔定律”形容的是半导体的尖端制造工艺——现在尖端制造工艺的 foundry 玩家就剩 3 个了,毕竟成本和技术投入也不是谁都承受得起。而能够承担尖端制造工艺的芯片门类也不多,电脑、手机、数据中心里面的大芯片,然后就没有了。 从技术角度来说,CPU 这类通用处理器受惠于摩尔定律的性能提升幅度越来越有限,原因比较复杂,不是咱要讨论的重点。得到尖端制造工艺最大红利的,我觉得是更偏专用的芯片:就是那些能大量堆砌算力、搞大规模并行计算的芯片。AI 芯片、GPU 都是典型。 所以 GPU、AI 芯片每年迭代堆晶体管都还是蛮狠的,因为堆晶体管真的有效,多堆一些计算单元,算力也就跟着提高——虽然堆晶体管实现性能趋近于线性提升也不是那么简单。 不过这些芯片也面临一些实际问题,比如说芯片已经那么大了,再大半导体制造设备都处理不了;与此同时晶体管微缩速度显著放缓,根本就做不到每 2 年单位面积内的晶体管数量翻番——这其实也是阻碍堆晶体管的重要因素。最近英伟达 GTC Fall 上,黄仁勋就说:“摩尔定律主要讲的是有关于晶体管的,还有技术代与代之间成本变低。但现实已经不是这样了。摩尔定律已经结束了,技术现在变得越来越昂贵。” 其实有关“单个晶体管造价成本降低”的问题,这应该算是摩尔定律的一个推论——有兴趣的可以去看看维基百科对摩尔定律的具体阐释。老黄说的是事实,从 20nm 以后,单个晶体管造价就在一路小幅攀升——前两年有关这方面的研究还挺多的;这就相当于摩尔定律终结了一半。而到现在,即便半导体制造上游的很多市场参与者还在嘴硬,也改变不了现实。 当然,其实解决问题的方法还有不少,比如其他更系统层面的方案——像 chiplet、先进封装、DSA(专用架构)、Synopsys 的 SysMoore 之类的。不过咱来看个更有趣的例子: 这是黄仁勋在主题演讲中展示的一张PPT。这张图中下面那根曲线是 2018 - 2022 年英伟达 GPU 的晶体管数量增长趋势,从增长倍数来看也还行。 但光线追踪的性能需求,已经从 4 年前的每像素 39 次光追操作,上涨到 635 次。之间的性能跃升是 16 倍。如果真的只靠堆晶体管,那就扑街了。 英伟达针对今年新发布 Ada Lovelace 架构显卡综合性能提升的宣传说辞是“4 倍”。今年 GTC Spring 的时候,英伟达也说面向数据中心的 Hopper 架构 GPU 性能提升 3 倍——就摩尔定律的角度,这都相当不科学。尤其黄仁勋不是还说摩尔定律结束了吗?那这 3、4 倍的性能提升都是哪儿来的?通用处理器一年性能提个 20% 就了不得了。 基于对这些“倍数”的解析,也有利于咱从 fabless 的企业看一看,这年头提升芯片性能应该用怎样的思路。反过来说,芯片设计企业的这些操作,其实也能有效佐证摩尔定律的终结,毕竟他们已经无法倚仗摩尔定律卖货了。 文章比较长,可以选择性阅读;各章节也可跳转阅读。 (这次 GTC 发布的 RTX Remix 也挺有意思的,我专门写了一篇文章,附在文末) 4080 12GB 性能真的能约等于 3090 Ti? 对消费用户而言,GTC Fall 的大热门莫过于 GeForce RTX 40 系列新显卡。从产品层面先来简单看看这次的新货。 游戏显卡新发的产品主要就 3 个:GeForce RTX 4090、GeForce RTX 4080 16GB 和 GeForce RTX 4080 12GB。 貌似这次被吐槽比较多的是 4080 12GB 版,因为这块显卡的 die 和 4080 16GB 都不一样,按照传统应该放到 4070 一档。不过英伟达说 4080 12GB 在性能上最高达到了 3080 12GB 的 3 倍,比 3090 Ti 性能强,所以仍将其归于“4080”定位。 已列出的参数就不多啰嗦了,看图即可,说一些亮点。基于台积电 4N 工艺,4090 的 AD102 die 上堆砌的晶体管数量是 763 亿个,die size 608.5mm²;3090 Ti 的这两个值是 283 亿和 628.5mm²。台积电果然还是比三星要靠谱许多的… 可能很多同学对 763 亿晶体管没有量级概念。实际上很多数据中心的大规模 AI 芯片、GPGPU 都没有这个数量级,比如 Graphcore IPU 的单 die 也就 600 亿晶体管,英伟达自己用在数据中心的 Hopper 架构 GH100 是 800 亿晶体管。这年头,玩个游戏都这么高级了吗? 另外,新架构新工艺带来的一大亮点在于功耗的显著降低。我个人感觉就工艺器件层面,比较有对比价值的一个数据是,4090 的 TGP 450W,和 3090 Ti 一样,但前者的浮点吞吐性能是后者的 2 倍。这种比较 raw 的对比方式,是能够看出工艺层面的进步的。 还有一个说法,是前面提到的英伟达说 4080 12GB 性能就比肩 3090 Ti 了,但功耗却从此前的 450W 降低到了 285W。这个说法是否有待商榷?佐证是下面这张图的游戏与应用实测数据。 这个数据一大部分是基于 DLSS 3——后面会提到这项技术。看过发布会或报道文章的同学应该知道 DLSS 3 的技术主体包括了游戏画面的超分(AI Super Resolution)和插帧(AI Frame Generation),另外还有个 Nvidia Reflex。尤其是插帧,看起来简直是刷游戏帧率神器;换句话说一部分画面并不是图形单元渲染出来的,而是 AI 生成的。这也算性能提升吗? 就这个问题,说一点个人感想。我始终觉得“以体验为本”是考察性能是否真的提升的依据。当代图形计算的很多 tricky 技术都是基于这一点,比如说 VRS(可变速率着色)——很早以前就有人说 VRS 是“虚假的帧率提升技术”。但这项技术是真切地提升了画面帧率,同时对体验又没有什么影响的;那么它就是一项应纳入性能考虑范畴的技术。 超分、插帧如果能真切提升游戏流畅度,而且对画质和体验几乎没有影响或影响很小,则其带来的性能提升就应当被纳入考量。其实电子工程(EE)和计算机科学(CS)这两门学科,乃至更多电子相关的工程类学科的一大特色,就是利用各种 tricky 技术来实现进步。而随着摩尔定律的结束,堆晶体管已经没那么有效,一切 brute force 的技术推升都需要一些“奇技淫巧”来从旁协助。行业其实就是在各种奇技淫巧思路的推进中发展的。 从 Turing 架构开始,在图形 GPU 上增加 RT core、Tensor core 多少都算当年的奇技淫巧。而它们的计算范式一旦成为行业标准,构成生态,也就成为了图形技术的组成部分。像 3DMark 这种 benchmark 工具都已经在逐步加入对于光追、AI 超分的考察方法,自然算得性能提升。 据说 DLSS 3 今年 10 月就会应用于首波 35 款游戏和应用中,这进度似乎比 DLSS 最初发布的时候还要顺利。这也算英伟达在生态号召力上的体现吧。其实如果某种技术和标准没有号召力,则它对于实际性能的贡献,大概率都会被整个行业排除在外。 所以 4080 12GB 性能约等于 3090 Ti,以及 Ada Lovelace 消费级显卡性能相比 Ampere 消费级显卡提升 4 倍,这类命题能成立的一个必要条件就是生态号召力足够强大。当然还有就是技术本身能够实打实提升体验(所以叫“以体验为本”嘛),而不是像既有的一些插帧技术一样,极大增加了游戏操控延迟,那把帧数提升算在性能进步里,就比较不靠谱了。 我个人印象比较深刻的一点是这次英伟达不是还发布了一个 Racer X 么?英伟达说对于其设计,如果是用 3090 Ti + DLSS 2,那么设计师是需要做权衡的:要么就是你看到的画面是物理级准确的(physically accurate),但帧率会很低;要么就是帧率可以更高,但预览的渲染精度会明显更低。但英伟达说,这回的 4090 + DLSS 3,帧率、精度都能有。我感觉这个点的性能提升是质的飞跃。 产品层面最后值得一提的是,除了 GeForce 显卡以外,这次 Ada Lovelace 架构显卡还有新增面向工作站的 RTX 6000 更新,以及用于数据中心的 L40。后者不是 Hopper 架构,而是富含图形单元的 Ada Lovelace——所以也就是云游戏,或者其他图形计算密集型应用,也包括 AI、CV,当然还有 Omniverse。 Ada Lovelace 新架构概览 有关 GeForce RTX 40 系 GPU 详细配置,网上的信息已经比较多了,这里不再一一列举,包括目前最大的 AD102 die 的 CUDA 核心、频率、TGP,还有 RT core、Tensor core 有多少、第几代等等,汇总相较于前两代显卡旗舰款的配置数据对比如下: SM 层级、GPC 层级 GPU 层级 AD102 从 SM 到 GPC 到 GPU 不同维度的模块构成示意如上图,应用于 4090 的时候如何下刀的应该也一目了然了。不过这个示意图也有一些信息未给出,比如说每个 SM 还带 2 个 FP64 核心。还有编解码器,NVENC 升级到第 8 代,开始支持 AV1 编码——高配的 GeForce RTX 40 系配了双 NVENC 编码器;NVDEC 解码器配置不变。 从 AD102 die 层面,总共应该是 18432 个 CUDA core,144 个 RT core,576 个 Tensor core,576 个 TU(纹理单元)。像存储子系统之类的部分就不多谈了:比如 AD102 的 L2 cache 堆料算是暴涨的;还有显存方面,似乎就系统角度来看,据说这次英伟达和美光合作搞的 GDDR6X,加上重新设计的散热系统,能在显卡工作时让温度相比 3090 下降 10℃——主要是因为更高的显存密度,颗粒放在了 PCB 单面……更多配置数据就看图吧。 比较值得一提的是,上代 Ampere 架构的 RT core,也就是处理光追的单元,主要包含了 Box Intersection Engine(用于 BVH 盒子遍历加速)和 Triangle Intersection Engine(光线-三角形相交测试加速)——这是第 2 代 RT core。现在这类单元貌似已经成为当代光追 GPU 标配。 Ada Lovelace 的第 3 代 RT core 新增了 Opacity Micromap Engine 和 Displaced Micro-Mesh Engine。这两个新增的单元促成的改进,可认为是加速实时光追技术发展的重要组成部分。另外还有老黄在主题演讲中着重说到的 SER(Shader Execution Reordering,着色器执行重排序)。 而第 4 代 Tensor core,或者说专用 AI 单元,其乘加矩阵算力的具体情况可以去看英伟达官网产品介绍。比较值得一提的是,Tensor core 里也加入了 Hopper 架构中的 FP8 Transformer 引擎,毕竟这符合 AI 应用发展的大趋势。此外,和 Tensor core 相关的 DLSS 3,以及专用的 Optical Flow Engine 单元,后文会单独谈到。 光追技术上的几个变化 光追这两年越来越成为 GPU 的标配了,不光是PC市场的主要竞争者都给 GPU 加上了专用的光追单元,移动平台都已经在积极着手布局光追。这方面迈步比较早的英伟达,眼见生态建设成果还不错,就开始搞光追技术和流程的优化、迭代了。 这次的第 3 代 RT core 对于整个光追生态而言,应该都会有借鉴意义。我个人的理解是光追相关的 3 个主要改进,其实都着眼于解决光追技术现存的问题,或者说尝试提升光追的效率。 先来聊聊 SER。老黄在发布会上说这项技术为光追带来的价值,无异于当年 CPU 引入乱序执行。 其实对于不包含光追的纯光栅渲染管线,SIMT(Single Instruction Multiple Threads)操作是很自然而然的,一条指令、并行线程就下去了,填充进 shader 的所有通道。比如一个三角形,如果这个三角形对应 32 个像素,那么它们都跑在一起。Shader 要被高效利用,就应该是跑一个程序,shader 内的所有通道都被占满。 光线在碰到场景中的对象(secondary ray tracing),又射往不同方向,以前的 GPU 跑起来就会相对低效,因为不同的 shader 程序跑在不同的线程上,而且还经常串行化执行 而到了光线追踪情况就不同了,工作负载间很多时候不再有天然的相干性,因为场景内的每条光线可能会四处乱飞。或者说它们相当的“发散”。不仅是不同的线程会执行不同的 shader 或者代码路径,还在于线程要去访问存储资源的时候,这些资源很难做 cache。 Ada Lovelace 对此所用的解决方案就是 SER。技术白皮书中说这是个新的调度系统,对 shading 工作进行重排序,以实现更好的执行和数据 cache 效率。据说英伟达在这方面花了多年时间做研发。 SER 是在光追管线上新增了一个环节,如上图就是对上例中的第二次光线 hit shading 进行重排序和分组,那么在后面的执行阶段也就能更加高效。英伟达说加上这项技术以后《赛博朋克 2077》在光追 Overdrive 模式下,从 SER 这一项特性获取的性能提升达到了 44%。 其实自此就很容易理解,对架构的改进,相较于单纯堆计算单元和晶体管的收益有时可以高很多。不过光追技术原本就在发展早期:或许它未来还会有极大的余量做各种流程优化。值得一提的是,开发者可基于 API 指定对特定负载做排序的最佳方法。这又是个需要培养生态的技术。当前英伟达在和微软之类的合作伙伴合作,令其成为标准图形 API。 除了 SER,Ada Lovelace 另外两个改进,一是 Displaced Micro-mesh,二是 Opacity Micro-masks。这俩改进本质也是针对光追技术的优化的。 其中 Displaced Micro-mesh 着眼于解决光追在遇到大量几何细节需时开销过大的问题。因为光追以前所用的 BVH 数据结构需要搞定场景中的每一个三角形,要直接捕捉每个细节,开销就很大:包括 BVH 构建所需的时间,和占用的存储资源。 Displaced micro-mesh 是几何形状的一种结构化表达,用来表达几何细节(上图图左的右边部分)。简单来说,它知道如何构造螃蟹腿上的那些凸起。基于粗粒度最基本的三角形(上图图左的左边部分,base triangle),RT core 就知道如何解决问题了;并且能够最终得到上图右那样的效果。 从硬件层面来看,RT core 里面新增了 Micro-Mesh Engine,用于生成细分的 micro-triangles。这里面还涉及到什么 displacement map、压缩之类的问题,就不细谈了;有兴趣的可以去看看 Ada 架构技术白皮书。 值得一提的是,Simplygon 和 Adobe 两家都已经宣布把 displaced micro-mesh 支持加入到它们的工具链里面。这种事情一般能够表明它有可能成为新的标准存在。 还有就是 Opacity Micro-mask 了。玩游戏的同学应该知道,3D 场景中逼真的植物渲染开销不小。绘制上面这样一片叶子,一般是搞个矩形、然后在上面应用纹理;当然叶子不会是矩形的,那么就需要有些部分是透明的。 以前没有光追的年代 TU 会去检查 alpha(透明度)通道,自然就知道了要绕过对应的透明部分,一切都比较顺利。但在光追世界里,RT core 干不了这件事。RT core 会去看整个矩形,光线打到矩形的任意位置,它就要把信息传递给 SM——SM 再去搞清楚某个地方是不是透明的,然后再告知 RT core 继续做光线追踪,或者这地方是不透明或半透明的… 这一代 RT core 为此引入了 Opacity Micromap Engine 单元。简单来说 RT core 能够基于 opacity micromap 的透明度状态,来直接解决光线相交的问题。仅在状态标注为“unkown”时才需要找 SM 帮忙。这样一来,效率会有大幅飞跃。具体的方法涉及到了所谓的 opacity mask,而 Opacity Micromap Engine 就负责标注透明度状态……细节就不做深入了。 也不光是树叶子,比较典型的像烟雾缭绕的场景,以往开启光追时就很容易悲剧。那么新特性的引入就会极大提升这方面的表现。英伟达在这次自己做的 mod《Portal RTX》里面也特别演示了对应的场景。 英伟达表示这几项特性包括 SER 都已经通过 SDK 的方式提供给了开发者,开发者可以很容易进行集成支持。而未来是否能和微软合作,通过 DXR 做集成,也可以期待一下。好像电子产业发展至今,更下游开发者的水平也极大程度决定了性能跃进幅度。 说了这么多,以上都是 GeForce RTX 40 系显卡相较前代实现 2 倍性能提升的技术基础。不是说好的 4 倍吗?还有 2 倍在哪里?那就是 DLSS 3 的事情了。 AI 算出来的帧率 DLSS 最初作为一种 AI 超分技术,从初代诞生至今已经 4 年了。前面我就说 DLSS 是种“奇技淫巧”。因为严格来说,DLSS 更靠近计算机视觉,而非图形渲染 – 还是基于 AI 的。它在思路上,就“GPU”这类硬件来看算是相当不正经。 而 DLSS 的出现,本身就很大程度代表着摩尔定律的终结。因为如果晶体管数量真的能无节制往上涨,还满足市场需求,那么图形渲染发展得好好的,要 CV 干嘛?一定是现有技术压根儿满足不了市场,才需要“奇技淫巧”的辅助。 黄仁勋在主题演讲后,接受采访时说了个很有趣的点:“英伟达就生于摩尔定律终结的时代。”“这也是加速计算崛起的原因。”这个立意听起来就拔高了一些:加速计算变火,客观上就表现出了摩尔定律的终结——好像真是这样。 而 DLSS,本质上属于 1 级加速计算附带的 2 级加速计算。因为 GPU 本来就已经是图形加速器了,而 DLSS 则成为了用来给图形计算再做加速的加速器。挺有意思的吧? 这次伴随 Ada Lovelace 而来的 DLSS 3。从软件层面来看,除了众所周知的超分(super resolution)——也就是基于AI把低分辨率的画面 upscale 为高分辨率,还新加了 AI 插帧(frame generation),以及 Nvidia Reflex。这三者干的事情分别是:提升画面清晰度(画质)、提升画面流畅度(帧率)、降低游戏操作延迟。 超分就不多谈了,其详细工作流程,网上现成的资料不少。而且这次 GTC 上英伟达也没怎么聊超分,估计和 DLSS 2 的超分差不多。着重来看看 AI 生成帧和 Reflex。 插帧或者叫补帧,顾名思义就是在原有 GPU 渲染出来的帧的基础上,再生成一些帧,以提高动态画面的帧率,起到提高画面流畅度的效果。这两年貌似手机行业有 OEM 厂商在搞的“显示芯片”就专职插帧(MEMC),但体验并不好,而且有明确可感知的操控延迟。 英伟达在技术白皮书中说,这项技术是过去 4 年 Applied Deep Learning Research 团队开发的。相关技术负责人说:“帧生成的挑战很大。我们需要确保画面中对象的顺畅、合理移动,确保不会让对象失真:比如要处理好画面中遮挡的问题,某个东西又出现的问题。另外还需要处理好游戏交互,确保很低的延迟。”这应该是现有解决方案存在的所有痛点。 光流法(optical flow)是计算机视觉应用中比较常见的,用来在连续渲染帧或视频帧之间,判断像素运动方向和速度的一种技术。其应用似乎还挺广泛,甚至在深度学习领域也用作汽车、机器人巡航、视频分析和理解等。 Ampere 架构 GPU 上就有专门的 OFA(optical flow engine,光流引擎)单元。而 Ada Lovelace 上的 OFA 提升了性能,标称 300 TOPS 光流操作,2 倍于 Ampere。似乎从英伟达的解释来看,Ampere GPU 之所以不会支持 DLSS 3,主要就是因为对于目前的算法来说,OFA 的性能不够。 当然另一个核心也在于运动矢量分析算法。DLSS 3 的插帧就是基于运动矢量+光流。英伟达说之所以要做光流,是因为如果只用运动矢量的话,画面可能会出现大量伪像。尤其在应用光追的情况下,因为几何运动矢量根本就无法用于判断光追造成效果的移动。比如画面中路面上的阴影,如果把这个阴影当作几何体,则它也会随着路面向后移动。但实际上我们知道,这个阴影应该是随视角位置相对稳定的。这就需要用光流来判断。 所以这里 engine motion vectors 能够理解几何体的移动,而 optical flow vectors 则能够更多的理解外观变化情况。英伟达说其实光流对于运动的理解不够精准,会犯错,最终效果也各异;这是 Ada Lovelace 投入光流加速器单元的原因,是为了令其更快、更准确。 这回 GTC 主题演讲和各路 session 都拿《微软模拟飞行》在应用 DLSS 帧生成技术后帧率暴涨来举例。其实像这种 CPU 为主要瓶颈的游戏,较大程度受惠于 DLSS 插帧很正常——CPU 瓶颈决定了超分技术的收益会很有限,但插帧是不需要 CPU 参与的,自然帧率倍增。 从英伟达那里听到相关插帧的技术解释差不多就这些了,总感觉这其中还遗漏了些什么重要信息。比如说所谓的 AI frame generation,并没有看出“AI”技术的应用——针对这一点英伟达倒是有告诉我 DLSS 3 的 frame generation 算法模型是 AI 计算模型,所以也需要 Tensore core 来加速; 还有从直觉来看,这么做仍然很容易造成可感知的操控延迟。猜测基于 GeForce RTX 40 系 GPU 的原生堆料和运算速度提升,DLSS 3 未应用于 30 系 GPU 的一大原因也在于旧显卡的延迟可能会太高。 英伟达展示的数据是,《赛博朋克 2077》开启光追 + DLSS 2 超分,输出 4K 画面的帧率是 62fps,延迟 58ms;而接入 DLSS 3,加入插帧,则帧率提升到 101fps,延迟还更短了。DLSS 相关技术负责人只在采访中说,针对 DLSS 帧生成技术,英伟达投入了大量工作,所有的优化加在一起、“对整个图形管线做优化”,才有了现在的结果。 当然 DLSS 3 还有一个组成部分没说,就是 Nvidia Reflex,这是一项显著降低操控延迟的技术。英伟达告诉我说,frame generation 带来的新延迟会被 Reflex 抵消,Reflex 也提供了更多的优化。“所以在绝大部分场景下,开启DLSS 3 会比,开启 DLSS 2 而没有开启 Reflex 的(情况)延迟更低。” 说起来,Nvidia Reflex 也不是新技术了,之前英伟达在竞技游戏和电竞圈里推 Reflex 生态也挺长时间。这次把 Reflex 作为 DLSS 3 的一大组件,可能是插帧有增加延迟的风险,故而需要借助 Reflex 再推一把——这是我自己猜的,但从英伟达的反应来看,差不多就是这样。 我们所说的游戏延迟,是指从输入设备发出指令,比如鼠标按下按键,到屏幕上的像素做出响应,这之间的时间。此前好像不少游戏输入输出设备供应商都推出过 Reflex 生态产品。 这个流程里当然还有 CPU 之类的参与,包括生成一大堆的 draw call,告诉 GPU 如何绘制场景,并进入到渲染队列(Render Queue)。GPU 就从渲染队列中去取这些 draw call,渲染完了会把画面发给显示器。 这里面有几十毫秒的延迟可能会是渲染队列带来的。其实渲染队列的存在很大程度上是为了确保 GPU 的高利用率的。要移除渲染队列还是需要很仔细的。Nvidia Reflex 在这条通路上的选择之一就是移除渲染队列。 据英伟达所说,Nvidia Reflex 很仔细地协调了 GPU 和 CPU 的工作。这其实就要求 Reflex 非常了解游戏引擎在某些特定点的工作状况。这主要依托于游戏开发者在游戏引擎里增加的一些所谓的“Reflex Markers”标记,这些标记会告诉 Reflex 软件怎么做,那么 CPU、GPU 在不需要渲染队列的情况下,就能保持高效同步。如此一来也就消除了不少的延迟。 这个 Reflex Markers 也是对开发者而言,要去践行 DLSS 3 非常重要的组成部分——在此之前应该是没有这部分操作的(也是就开发者角度,相较 DLSS 2 的唯一差别)。可见 Reflex 是配套消除延迟的必行方案。 在 DLSS 3 的生态扩展方面,前文已经提到了首批很快会有 35 款游戏和应用做出支持;另外 DLSS 3 会作为 Streamline 插件存在,UE 引擎之类的就不用多说了。 我觉得有一个点可能会吸引到玩家,就是英伟达在 DLSS 3 技术解析 session 上说,长久以来竞技类游戏玩家都选择 1080p 分辨率,这是为了确保高帧率。但这次英伟达很推荐这部分玩家开始用 1440p,因为“我们发现 1440p 27 寸显示器上,相比于 1080p 25 寸显示器,玩家能够提高对准精度、打击更小的目标”,高分辨率也有助于更快锁定目标。而新架构是实现这些的基础。 摩尔定律终结后… 原本还想聊聊 Ada Lovelace 的“第 8 代”NVENC 的,但文章篇幅有些过长了,且等往后吧。有关编码器可总结的部分是这次的 NVENC 新增了对于 AV1 编码的支持,貌似英伟达在 AV1 生态方面也做了不少工作。 另外就是采用双编码器(dual encoders)配置——英伟达也为此开发了双编码器协作算法,可以把帧拆成两半,实现编码负载均衡——这就让 GeForce RTX 40 系显卡用达芬奇之类的工具做视频剪辑的时候,4K 编码速度快 1 倍、8K 输出速度快 2.5 倍等…以及和 Black Magic 合作,实现达芬奇 12K RAW 剪辑可以不用代理…… 最后做个总结吧。从 Ada Lovelace 来看,英伟达作为一家 GPU 企业,对抗摩尔定律停滞的方法至少包含以下几项: (1)DSA 和更专用的硬件单元。从此前给 GPU 加 Tensor core、RT core 就能看出来了;而在 Ada Lovelace 上,则为 RT core 又特别加了好几个专用引擎,用以提升光追效率;还有 Tensor core 上此前就已经出现的 FP8 Transformer 引擎; (2)大搞 AI 技术。这一点虽然跟第 1 点有那么点重复,但 Tensor core 的存在,以及 DLSS 这类技术,都已经成为原始 GPU 之外,像素世界展示的重要组成部分了;AI 生成的像素和帧,未来大概就比 GPU 渲染的像素还要多。宣传中所说的 4 倍性能提升,其中有 2 倍都是来自 DLSS; (3)架构优化。从 Ada Lovelace 上主要体现在光追的架构和流程改良上,SER 是个中典型; (4)从系统层面看问题。这一点算是全行业趋势,黄仁勋在答记者问时说:“未来是有关加速全栈的(The future is about accelerated full stack)。”“计算并不是个芯片问题,计算是软件和芯片的问题,是全栈的挑战。”如果你在图形之外,关注英伟达的 HPC 和 AI 版图,就知道他们经常隔年更新某个细分领域的库、框架之类的东西,同硬件下的计算性能就提升 1 倍…… 其实这上面有好几项都与生态构建能力有莫大关联,尤其专用硬件、AI 技术、系统层面的软件构成,都依托于庞大的开发者生态,否则也就是个精致的摆设。比如光追架构改一下,开发生态和标准可能都跟着有动作,也没有多少芯片公司现在敢贸然做这种事吧。而生态恰好是英伟达的强项。或者大概应当说正因为是强项,才会这么去做。 其实系统层面 more than Moore、Over Moore 之类的技术宣传都还在持续,这些技术惠及 PC 和工作站 GPU 应该也快了。我们可以等等看,明后年的英伟达 GPU 还将有哪些有趣的变化。 PS: 针对这次 GTC Fall 的一个大热门 RTX Remix——就是那个能用来做游戏 MOD 的工具,我另外写了文章,这是个挺有趣的技术,欢迎点阅: 一切皆可元宇宙!20年前的游戏开启光线追踪,方法是这样的-国际电子商情 (esmchina.com)
  • 热度 19
    2020-7-3 14:06
    2195 次阅读|
    0 个评论
    5nm制程:摩尔定律发展的重要转折点 备受关注的5nm究竟能给行业带来什么? 芯片行业的共识是:从行业最直观的受益来讲,5nm让产品获得更高算力的同时,还保持相同甚至更低的功耗,整体性能进一步加强。 摩尔定律认为,集成电路上可容纳的晶体管数量,每隔18至24个月就会增加一倍,性能也将提升一倍。当芯片制程演进到5nm,它晶体管的集成度和精细化程度都要比以往更高,可容纳更复杂的电路设计,并将更丰富的功能融入其中。 但从目前行业的普遍应用上看,许多产品用28nm、14nm,甚至10nm就已绰绰有余。部分业内人士认为,不是所有行业都对5nm有着强劲的需求,它在现阶段并非多数市场的刚需。 话虽如此,当我们把目光放至未来,随着5G和AI技术的发展,以及全球大数据的爆发式增长,5G智能终端、VR/AR产品、机器人、AI和超算等产品的成熟和应用,都将对芯片的性能、能耗和算力都有着更加严格的要求。 从另一个维度来说,业内普遍认为,芯片这类硬件的发展也将催生出新的应用生态,或是对早已成熟的市场带来革命性的颠覆。例如,当下因苹果AirPods而重新迎来第二次黄金时代的TWS(真无线立体声耳机)市场,各大厂商使用的蓝牙芯片制程尚未踏入7nm领域,大多聚集在28nm至12nm中。但随着市场需求倒逼着蓝牙芯片的发展,未来各家厂商为了能在更小的芯片中集成更多的功能与应用,也将逐渐推动蓝牙芯片朝着7nm甚至是5nm制程演进。不可否认,5nm制程的演进是各项技术和产业逐步成熟、变革的必经之路,亦是根基。 半导体代工厂制程路线图 编辑 5nm制程捷报频传 随着先进制程的不断演进,工艺研发的门槛越来越高,成本与技术逐渐成为一座座制程演进的分水岭。目前行业中布局5nm制程的玩家,主要有台积电、三星和英特尔三足鼎立。其中,台积电和三星的对峙最为激烈,淡出赛局许久的英特尔则在一旁蓄势待发。过去一年以来,5nm芯片试产、量产和良率等消息的不断释放,持续刺激着业界神经。 近日,台积电5纳米接单再传捷报,高通最先进的「骁龙875」系列手机芯片,以及内部命名为「X60」的5G基带芯片,上周正式在台积电以5纳米投片。高通扩大与台积电合作,是继超微之后,快速衔接海思在台积电腾出产能的重量级国际大厂。 前一段时间,三星也宣布其5nm制程产线抢下了高通和英伟达的订单。不过,业界普遍认为,三星晶圆代工的5nm产能及良率在下半年仍然难以追上台积电,台积电有信心成为今年唯一能提供5nm量产的晶圆代工厂。 5月,三星宣布计划提升位于韩国平泽工厂的晶圆代工产能,新的晶圆代工生产线将基于5nm工艺打造5G、高性能计算(HPC)和人工智能(AI)芯片。该公司希望新的代工线能在2021年下半年全面投入使用。 目前,采用三星5nm制程制造的芯片主要包括三星新款处理器Exynos 1000,这款芯片将会在今年底或明年初发布。此外,还有谷歌自研的SoC “Whitechapel”,有望在Pixel系列手机上使用。 另外,高通的5G芯片订单,特别是基带芯片X60,除了由台积电代工外,可能还有一部分交由三星生产。 据了解,中国企业除了芯片设计龙头华为海思以及顶尖代工厂台积电的布局以外,芯动科技作为国内领军的一站式IP和芯片定制解决方案提供商,也率先在三星5nm流片。新技术追逐战上,国产自主创新成果正不断缩小差距甚至赶超国际水平。 结语:摩尔定律不死,制程之战不息 就目前看来,台积电和三星的5nm战局预热仍在紧张进行中。与以往不同的是,这场制程之战的战火也将不再局限于代工厂或是芯片厂商之间的竞争,它亦将烧到更上游的半导体材料厂商、光刻机设备,甚至是学术界和产业界的新工艺研发中。 因此,决定这场制程战胜负的,不再单纯是设备与制程技术,随着工艺和材料都双双接近极限点,能否最先实现工艺和材料的质变,也成为了芯片厂商们的胜利王牌,对国内领先企业而言,5nm战局也是实现弯道突破的重要机会。
  • 热度 24
    2015-9-30 16:09
    1360 次阅读|
    1 个评论
      随着 芯片 体积不断缩小,半导体技术也在走向物理学极限,本文主要来探讨这一问题,描述了摩尔定律失效所造成的影响以及计算机科学家们为完成技术突破正在寻找的新技术方法。 (斯坦福大学的毕业生Max Shulaker,自2011年以来一直在研究一种全新的半导体电路)   1960年,宾夕法尼亚大学举办了一场影响深远的国际晶体管电路研讨会,一位名为道格拉斯 恩格尔巴特(Douglas Engelbart)的年轻电脑工程师在这次会议上大放异彩,他提出了看起来简单但却振聋发聩的“缩小”概念,对业界产生了重要影响。   恩格尔巴特博士随后还在鼠标的发明和其他重要的计算机科技上立下了汗马功劳。他还从理论上阐明,随着电路尺寸越来越小,元器件速度将会越来越快,能耗和制造成本也会越来越低。而这一切都呈加速发展态势。   而那天坐在观众席上的就有著名的英特尔之父戈登 摩尔(Gordon Moore)。1965年,摩尔成功量化了缩小概念并提出了影响整个计算机时代的摩尔定律。他预测十年之内半导体芯片上集成的晶体管和电阻数量将每年增加一倍,计算机的处理能力也将获得大幅提高。   摩尔的观点观点首次发表在1965年4月的《Electronics》杂志上(点击这里查看原文),后来则被世人称为摩尔定律。实际上它不是一条科学定律,而是对新兴的电子产业的观察报告,在随后的半个世纪里,摩尔定律都一直是业界的金科玉律。   在60年代早期,一个宽度仅有棉纤维大小的晶体管,成本都可达到8美元(刨除各种因素后量化为现在的美元)。而半个世纪后,指甲盖大小的芯片便可集成数十亿个晶体管,一美分就能买一堆晶体管。   计算机芯片更快更小更强的发展让硅谷迅速成长,并由此改变着世界,从计算机到智能手机,再到我们生活中无处不在的互联网。   不过最近几年,芯片的发展速度有所减慢,摩尔定律开始不准了。大约十年前,芯片的速度就开始停滞不前,新款产品的迭代时间开始变长,晶体管成本也不再下降。   许多专家认为未来芯片的迭代会变得更慢,其间隔可能会达到2.5—3年。若按现在的速度继续发展,到21世纪20年代中期,晶体管的尺寸将仅有单个分子大小,晶体管也将变得非常不稳定,若没有新的技术突破,摩尔定律将会彻底终结。   博通公司首席技术官Henry Samueli表示:“摩尔定律已经头发花白,步履蹒跚了。它还没死,但是时候退休了。”   1995年,摩尔博士就对定律做了修改,将晶体管数量翻番的时间改为了两年。而且他认为摩尔定律能有这么久的生命力已经很了不起了。在摩尔定律五十周年纪念会议上他说道:“最初预计该定律的有效期仅有十年,现在已经超额完成任务了。”   但真正困扰我们的问题是,如果提高速度、降低能耗和价格的路走不通了,未来会出现什么情况呢?   若该情况成真,恐怕受到影响的将不止是计算机产业。英特尔前电子工程师Robert P. Colwell说:“以汽车产业为例,过去三十年来推动其不断创新和进步的也是摩尔定律。”汽车产业的创新(如引擎控制器、防抱死刹车、导航、娱乐和安全系统等)都与价格逐步降低的半导体息息相关。   而永葆青春的硅谷对这种担忧完全免疫。过去三十年来,业界都认为芯片的速度会更快、容量更高、价格也会更低。人们将这个时代定义为互联网时代,甚至许多硅谷人认为我们不久之后就会见证奇点到来,到时计算机的运算处理能力将超过人类大脑。 (戈登 摩尔)   图片摄于20世纪60年代末,戈登 摩尔是英特尔公司的创始人之一。1965年,摩尔博士提出著名的摩尔定律。   Colwell说:“在计算机的进化过程中,人们已经形成了思维定势,他们会不假思索地购买最新的硬件,因为他们相信芯片在不断进步。”而我们的半导体技术正在走向物理极限。 物理极限   芯片由金属线和半导体材料制成的晶体管组成,最先进的晶体管和走线的宽度甚至小于可见光的波长,电子开关更恐怖,其尺寸比生物病毒还小。   现在的芯片采用光刻工艺制造而成,光刻技术自50年代末发明以来一直在不断进步。而今天,紫外激光技术让光刻工艺步入了一个新的阶段,让生产商可以直接在芯片上通过金属掩膜蚀刻电路,就像画地图一样。   而每一副“地图”就代表一种电路图案模型,之后在对其上的金属和半导体进行沉积或侵蚀操作就完成了光刻过程。随后这些“地图”就可以在量产中被复制到直径约一英寸的抛光晶圆上。   光刻机售价约为每台5000万美元,可以在晶圆表面刻出所需的电路图案。要完成一块芯片的制作,至少要经历50岛曝光工序,金属掩膜更是要与这些图形设计配合得天衣无缝,否则,生产过程中就会小错误不断,导致良品率下降。   “各种半导体工艺我都有所涉猎,但光刻机绝对是其中技术难度最高的。”Alan R. Stivers说道,他1979年起就开始在英特尔摸爬滚打,07年退休,他在英特尔的各代芯片研发中居功至伟。   为了进一步缩小设备尺寸,芯片制造商们费尽了心思,甚至都用上了浸没式光刻机,它可以用水来弯曲光波,从而提高分辨率。另外,他们还采用了多模式光刻技术,这样就可以通过单独的掩膜来锐化边缘并进一步缩小走线和其它元器件的尺寸。   由于元器件和走线的尺寸已经缩小到分子级别,工程师只好在设计中采用计算机模拟技术,该技术需要超强的计算能力。“这简直是在戏耍物理学。”设计自动化软件厂商Mentor Graphics的首席执行官Walden C. Rhines评论说。   如果恩格尔波特的“缩小”理论无以为继,大型芯片厂商该何去何从呢?出路之一就是转向软件或全新的芯片设计,以原有得晶体管数量实现更高的计算性能。说不定由此支撑摩尔定律半个世纪之久的传统模式还会焕发新的生机一段时间。   哈佛大学计算机科学家David M. Brooks说:“如果硅是我们作画的画布,那么工程师们可以做到更多,而不仅仅是缩小晶体管的大小。”   未来特殊材料也有可能取代硅,并在更小的晶体管、新型存储器和光通讯设备中扮演重要角色。另外,我们还有许多全新技术,例如量子计算,如果能真正成熟,就将大幅提高运算速度;而自旋电子学将会把计算技术带入原子级元器件时代。   最近,极紫外光刻技术(EUV)在业界造成了不小的震动。如果该技术获得成功,芯片的元器件便可进一步缩小,其制造过程也能大大简化。不过商用化过程中的各类试验证明该技术暂时还不够成熟。   今年早些时候,荷兰光刻机制造商ASML(英特尔有其股份)表示,它们已经获得了一家美国客户的EUV大单,大多数业内人士认为这个大户就是英特尔。这也就意味着英特尔在制造工艺方面又取得了一个身位的领先优势。   英特尔的高管依然坚持自己的既定策落,未来将继续降低芯片的成本。而其主要竞争对手三星、台积电则认为晶体管价格已经趋于稳定。面对对手的强有力竞争,英特尔依旧信心满满,但它也做不到完全无视物理学。   因为半导体电路蚀刻过程中使用的材料多数都对紫外线异常敏感,所以必须采用黄色光源。Shulaker正在斯坦福大学对开发新晶圆,该晶圆搭载了全新的电路。   Colwell说:“即使英特尔这样的超级巨头在摩尔定律即将崩塌时也会束手无策。”   今年七月英特尔就表示旗下最新的10纳米(人的头发直径就达到了75000纳米)制程芯片的发布会将推迟到2017年。这打破了英特尔传统的tick-tock战略(即奇数年更新制作工艺,偶数年更新微架构)。   英特尔首席执行官Brian Krzanich在一次分析师电话会议上表示:“最近的两次技术转换已经表明我们的更新周期从两年延长到了两年半。” 没有“顺风车”可搭了   从乐观的角度来看,芯片开发脚步的放缓会带来更加激烈的竞争和创新。处于领先地位的四大芯片厂商英特尔、三星、台积电和GlobalFoundries都拥有自己的制造工厂,而许多小型半导体公司可没这份运气。   哈佛商学院教授David B. Yoffie说:不过技术进步的放缓可能会给这些小厂带来一丝喘息的机会,因为他们可以参与技术较低的市场竞争。   即使晶体管尺寸的缩小无法带来速度和价格上的优势,也会换来功耗的降低。预计超低功耗电脑芯片会在2020年前问世,届时可能电池都不再是必需品了,因为太阳能、振动、无线电波甚至汗液都能为其供电。   这样的芯片会催生什么样的产品呢?现在我们还不得而知。不过设计师们不能再依靠处理器性能的提升了,他们不得不在产品开发中换一种思路。托摩尔定律的福,计算机尺寸变得越来越小,但设计方面并没有什么大的突破,依旧是以处理器为中心,软硬件结合的产品。   “过去设计师们都被惯坏了,懒散得很。”苹果前高管Tony Fadell说道,他曾主导了初代iPod的设计工作,而后出走苹果创立了智能家居制造公司Nest Labs。   物理学家Carver Mead(摩尔定律一词就是他创造出来的)表示:“我们过去基本算是在搭顺风车,神奇的是这策略居然很有效。”   话虽如此, 摩尔定律 也许还能继续存活十年时间,如果想要更久,我们就只能在创新的道路上奋发图强了。 致尚微电子 微信公众号:cnzasem
  • 热度 19
    2011-6-14 11:20
    2099 次阅读|
    1 个评论
    你也许会觉得我这个智商高达181的帅哥是个不识情趣的人,但其实并非如此。我喜欢在晚上读点轻松的东西,例如Kreck 与 Lück合著的《诺维科夫猜想》,或者是卡沃·米德 (Carver Mead)的《集合电动力学》等。   这些巨著非常引人入胜,我相信你一定也深有同感。   这让我对半导体的可靠性有了一点小小的联想。不过我得在此声明,我刚刚喝了点葡萄酒,所以我的想法可能会受到酒精的影响啊。    前面提到过的卡沃·米德 ,他的成就众多,其中之一就是在1960年代,当戈登·摩尔(Gordon Moore)尚任职于飞兆半导体公司时,对摩尔定律 (即集成电路上的晶体管密度约每两年便会翻一番) 所作出的贡献。   1965 年,戈登 · 摩尔刚刚开始进行他的数据绘制工作,按年份把芯片上晶体管的数目以对数的形式绘制出来。它们都是一些不起眼的手绘图。现在我还保留了一些。   有一天,我们谈到这些手绘图。   他说:“你正在研究当物体极为微型化时发生的电子隧道效应,对吗?”   “是的。 ”   “那不是会限制晶体管尺寸进一步缩小吗?”   “的确是。”   “那么,可以达到多小?”   戈登追问这些非常简单问题的方式,让你确实觉得你应该知道所有答案,然而我并不知道。我说:“好的,我得去想一想”。从那天以后,我就一直在思考这个问题。   -          摘自Carver Mead在2006年 Telecosm 大会上的演讲   摩尔定律的推动力在于,在我们制造出更小晶体管的同时,它们的制造成本也越来越低,而且工作性能也越来越高。这不是很了不起吗?那么,工作性能更高意味着什么呢? 这意味着这些晶体管的功耗会更低,开关速度也更快。正是这个小小的奇迹,推动了数字化革命的惊人进步。   在创业50多年之后,飞兆半导体今天已是功率管理和便携式技术的领导厂商,而我们的工厂仍继续以最先进的晶体管光刻技术提供各种领先的产品。   像我们这样能够为客户不断改进产品、同时又逐年降低价格的企业并不多。一般来说,如果你在大卖场购买廉价品牌的货品,你对商品的质量、功能、可靠性 的期望值就会降低。倘若你低价买了一辆汽车,你就会有心理准备,它不会像高档品牌那么舒服,也不会那么安全可靠。但是,半导体企业的运作方式却不是这样。 无论你花费多少来购买我们的产品,你都可以期待高可靠性、稳健坚固的部件。   年复一年,我们不断改进,尽力生产出故障率超低的部件。举个例子,飞兆的N –沟道FET NDT3055的FIT (Failure in Time, 1G元件小时的故障数量) 额定值为3.65,也就是说工作3127年才会出现一次故障。   让我们仔细看看这意味着什么。我们当然无法创建大量的部件并进行长达3,127年的测试。当然我们很乐意这样做,只是这并不可行。这个FIT 额定值是基于部件样品的加速寿命测试,再将结果插入公式法而推算出来的。   其基本概念是,利用高湿度与过压应力对样品器件进行老化试验,这样便无需等待几千年就可以估算出故障率。   如我上文所述,我们尽力为客户创建出稳健可靠的器件。客户可以参与到其中吗?当然可以。   在建立我们的可靠性估计时,我们使用一个根据Arrhenius方程得出的温度应力系数如下:   其中:   Ea = 半导体激活能量 k = 玻尔兹曼常数 Tu = 使用温度(K),或设计中的芯片温度 Ts = 加速寿命测试中使用的应力温度(K)。   所以,比如说你想提高一个系统的可靠性。利用本文末尾附带的免费平均故障间隔时间(MTBF)工具,我们可以预测把工作温度从100摄氏度降至90摄氏度后的效果。   我们对应力温度进行控制,这些基于半导体工艺,一般为150摄氏度(423K)或175摄氏度(448K)。只是使用温度是由你来控制,工作温度越低,则可靠性更高。这就是你那部分的工作。   所以,比如说你想提高一个系统的可靠性。利用本文末尾附带的免费平均故障间隔时间(MTBF)工具,我们可以预测把工作温度从100摄氏度降至90摄氏度后的效果。   100度时,计算所得FIT为1009。    90度时,计算所得FIT为860。   这个改进够了吗?这得看你的需要了。   请注意,我并不是在谈论这些数字的基本现实意义。说实在的,它们 只是 一些数字罢了。不过在实际设计中,其实也存在着相当数量的假设和未曾考虑的因素。   时间不早了,瓶子里也只剩下约半杯的酒。我还在想要不要把余下的酒留待下次再喝……   参考信息   Free MTBF Tool (免费平均故障间隔时间工具), Advanced Logistics Developments   《集合电动力学》( Collective Electrodynamics ), Carver A. Mead, The MIT Press   《诺维科夫猜想》( The Novikov Conjecture ), Matthias Kreck and Wolfgang Lück, Birkhauser Verlag
  • 热度 25
    2008-7-9 15:26
    1829 次阅读|
    3 个评论
    最近在北京有家媒体做了Tensilica的一个采访,题目确实蛮有意思的。大家都是在探讨之中,今天见到文字,觉得这样的话题可以继续下去。科学的发展需要不尽的想象力和创新精神,这是经典的,也是浪漫的。 跟大家分享一下。 http://www.eeworld.com.cn/news/eda/200807/article_21665.html 有人说SoC是历史必然?有人说SoC是其项目努力方向?有人说手机里已经随处可见SoC? 还有人说SoC是这样一种令人着迷的技术:既有着每年1000亿美元市场,也是仍然在探索实现其最初承诺的??地。 然而,正当SoC在手机中大行其道、为相关产业带来丰厚利润的同时,我们不禁会问:SoC是否已足够完美? 诚然,SoC的发展在世界范围内呈健康发展态势,国内SoC设计的发展也令人欣喜。我们可以看到很多国内公司的设计复杂度和设计能力已经可以媲美国际大公司,而且工程师的经验也在逐步增长。 但是,以摩尔定律发展的IC工艺技术已经踏上了不归路,在这条路上没有最低、最新,只有更低、更新。随着单位面积上硅密度的增加,SoC设计规模也日渐庞大、复杂、功能更多、成本更低。 “整个行业还存在更艰巨的挑战,”Tensilica公司中国区经理李冉在接受电子工程世界采访时称。 Tensilica公司中国区经理李冉 其中,具有自主知识产权的集成电路(IP)设计重用技术成为提高SoC设计效率、缩短设计周期的关键因素。传统应用电子工程师面对的是各种定制集成电路,而使用SoC技术的电子系统设计工程师所面对的是一个巨大的IP库,所有设计工作都是以IP模块为基础。 因此,IP供应商需要考虑如何使自己的IP快速发展、如何帮助客户差异化其产品,从而更好满足客户多方面需求,其中包括硅面积、功耗、性能、成本、可靠性、易于集成等。 假定把IC设计分为ASIC设计(纯RTL)设计和SoC设计两类。其中纯粹的ASIC设计基本使用RTL编程,功能一般固定、简单,这类设计对IP的需求不是很显著。但是并不是说他们不需要IP,纯粹RTL实现的基带芯片也是需要Memory Controller及外设等IP。 SoC设计因为功能复杂,需要可编程性,并通过可编程性实现对多种功能的支持,且外设接口比较丰富,所以SoC设计对IP需求(尤其是处理器类IP)是比较显著的。同时,SoC类设计的附加值高、对上市时间要求苛刻、对初期成本不很敏感、资金投入大等特点,也决定了SoC设计对IP的需求量远大于纯RTL的ASIC设计。随着市场发展,SoC设计越来越多,IP供应商会发现其IP授权给SoC的情况会越来越多。“尤其对于处理器类IP,可以断言都是针对SoC类设计的,”李冉说。 因此,未来IP产业将围绕SoC展开竞争。 同时,从整个生态系统而言,也有尚待完善的地方:   1)  设计方法: 现有的设计方法无法赶上半导体工艺的发展速度;   2)  设计方面的努力: 对于规模庞大的SOC,在设计方面所付出的努力将是巨大的。随着设计模块变得更加复杂,基于Verilog和VHDL的逻辑设计将会淡出主流设计方法。   3)  验证方面的困难: 典型逻辑模块的复杂度比门数的增长会更加迅速,因此设计中潜在的缺陷数量也会迅速提高。设计团队的报告表明70%的开发时间用于对他们的设计进行验证。   4)  排除设计缺陷的成本: 设计团队越大,NRE费用越高,利润和市场份额损失就越大, 这都使避免设计缺陷的成本变得不可忍受。   5)  硬件/软件集成时间滞后: 作为系统开发过程的最后一步,软件集成通常使得整个开发计划延迟。对于新的产品开发工程而言,硬件/软件验证的滞后是一个极大风险。   6)  标准的变化及其复杂性: 业界标准变化的次数、复杂度和费用爆炸性的增长使得现有的设计方法和模块构建技术变得过时了。一些新的复杂标准要求更大的计算吞吐量。 图1:硅片复杂度和设计人员生产效率之间日益增长的鸿沟意味着业界需要一种新的、更加有效的方法来设计SOC 其中,硅片复杂度和设计人员生产效率间的鸿沟,意味着业界需要一种更新的、更加有效的方法来设计SoC。 为应对这些挑战,各大EDA公司都在开发各种ESL方法和ESL工具以提供新的设计方法,但目前效果都不很理想。为此,Tensilica开发了可配置处理器技术,能够实现替代RTL开发新思路。事实证明Tensilica方法效率高,开销小,生成速度快,实用化程度高。这个方法可以突破通用处理器的限制,使得处理器的生成自动化,实现早期软硬件集成。并且,Tensilica在多核处理器(MPSoC)方面开创了端口队列查找表等机制,使得多处理器互联仿真设计变得异常容易。这点也可以从Tensilica多核客户的成功案例得到结论,解决了存储器模块使用低效和系统建模困难等难题。 总之,Tensilica的创新技术使得处理器定制变得自动化,开创了新的SoC和MPSoC设计方法学(RTL替代),为提高开发速度、减少验证时间、差异化客户产品提供了有效途径。 正因为Tensilica的技术是可配置处理器,可以用作微控制器、RISC CPU、音频DSP、视频DSP、网络引擎、各类DSP及协处理器,甚至替代RTL的Task Engine等,所以应用范围非常广泛,包括:消费类电子、数字电视、网络无线等。 摩尔定律决定了芯片密度越来越大,开发人员有越来越多的电路门可以使用。所以注定SoC内部的功能会越来越多,成本越来越低。同时通过集成越来越多的功能,和使用越来越新的半导体工艺,新产品的功耗会越来越低,且让我们期待SoC带给我们的体验奇迹!
相关资源
  • 所需E币: 0
    时间: 2020-12-19 23:25
    大小: 273.96KB
    上传者: samewell
    拯救摩尔定律,宽带隙半导体表现超越硅
  • 所需E币: 5
    时间: 2020-6-24 18:35
    大小: 147.87KB
    上传者: samewell
    随着摩尔定律走到极限集成电路在横向上的可扩展性越发重要.pdf
  • 所需E币: 5
    时间: 2020-1-4 12:28
    大小: 888.4KB
    上传者: 16245458_qq.com
    介绍28nm创新技术,超越摩尔定律白皮书介绍28nm创新技术,超越摩尔定律在工艺基础上,Altera利用FPGA创新技术超越了摩尔定律,满足更大的带宽要求以及成本和功耗预算。AlteraStratixVFPGA通过28-Gbps高功效收发器突破了带宽限制,支持用户使用嵌入式HardCopy模块将更多的设计集成到单片FPGA中,部分重新配置功能还提高了灵活性。本白皮书介绍StratixVFPGA怎样帮助用户提高带宽同时保持严格的成本和功耗预算不变。引言据思科系统公司预测,宽带应用导致带宽年度复合增长率高达40%(1)(2)。带宽之所以越来越大,是因为计算机、电视和移动电话以及电子邮件、游戏和文件共享等互联网应用对音频/视频流不断增长的需求。预计全球互联网协议流量将从2008年的每月10艾字节(1018字节,或者泽字节的一半)增长到2013年的每月56艾字节。图1显示了2013年的带宽需求:移动流量每月大约为2.2艾字节,商业流量每月大约为13艾字节,消费类流量每月将超过40艾字节。图1.全球互联网协议流量增长,2008……
  • 所需E币: 3
    时间: 2020-1-4 12:28
    大小: 888.4KB
    上传者: 238112554_qq
    介绍28nm创新技术,超越摩尔定律白皮书介绍28nm创新技术,超越摩尔定律在工艺基础上,Altera利用FPGA创新技术超越了摩尔定律,满足更大的带宽要求以及成本和功耗预算。AlteraStratixVFPGA通过28-Gbps高功效收发器突破了带宽限制,支持用户使用嵌入式HardCopy模块将更多的设计集成到单片FPGA中,部分重新配置功能还提高了灵活性。本白皮书介绍StratixVFPGA怎样帮助用户提高带宽同时保持严格的成本和功耗预算不变。引言据思科系统公司预测,宽带应用导致带宽年度复合增长率高达40%(1)(2)。带宽之所以越来越大,是因为计算机、电视和移动电话以及电子邮件、游戏和文件共享等互联网应用对音频/视频流不断增长的需求。预计全球互联网协议流量将从2008年的每月10艾字节(1018字节,或者泽字节的一半)增长到2013年的每月56艾字节。图1显示了2013年的带宽需求:移动流量每月大约为2.2艾字节,商业流量每月大约为13艾字节,消费类流量每月将超过40艾字节。图1.全球互联网协议流量增长,2008……
  • 所需E币: 4
    时间: 2019-12-25 03:51
    大小: 888.4KB
    上传者: 978461154_qq
    介绍28nm创新技术,超越摩尔定律白皮书介绍28nm创新技术,超越摩尔定律在工艺基础上,Altera利用FPGA创新技术超越了摩尔定律,满足更大的带宽要求以及成本和功耗预算。AlteraStratixVFPGA通过28-Gbps高功效收发器突破了带宽限制,支持用户使用嵌入式HardCopy模块将更多的设计集成到单片FPGA中,部分重新配置功能还提高了灵活性。本白皮书介绍StratixVFPGA怎样帮助用户提高带宽同时保持严格的成本和功耗预算不变。引言据思科系统公司预测,宽带应用导致带宽年度复合增长率高达40%(1)(2)。带宽之所以越来越大,是因为计算机、电视和移动电话以及电子邮件、游戏和文件共享等互联网应用对音频/视频流不断增长的需求。预计全球互联网协议流量将从2008年的每月10艾字节(1018字节,或者泽字节的一半)增长到2013年的每月56艾字节。图1显示了2013年的带宽需求:移动流量每月大约为2.2艾字节,商业流量每月大约为13艾字节,消费类流量每月将超过40艾字节。图1.全球互联网协议流量增长,2008……
  • 所需E币: 3
    时间: 2019-12-24 21:39
    大小: 1.14MB
    上传者: givh79_163.com
    在工艺基础上,Altera利用FPGA创新技术超越了摩尔定律,满足更大的带宽要求以及成本和功耗预算。AlteraStratixVFPGA通过28-Gbps高功效收发器突破了带宽限制,支持用户使用嵌入式HardCopy®模块将更多的设计集成到单片FPGA中,部分重新配置功能还提高了灵活性。本白皮书介绍StratixVFPGA怎样帮助用户提高带宽同时保持严格的成本和功耗预算不变。介绍28nm创新技术,超越摩尔定律WP-01125-1.1白皮书在工艺基础上,Altera利用FPGA创新技术超越了摩尔定律,满足更大的带宽要求以及成本和功耗预算。AlteraStratixVFPGA通过28-Gbps高功效收发器突破了带宽限制,支持用户使用嵌入式HardCopy模块将更多的设计集成到单片FPGA中,部分重新配置功能还提高了灵活性。本白皮书介绍StratixVFPGA怎样帮助用户提高带宽同时保持严格的成本和功耗预算不变。引言据思科系……