tag 标签: 英伟达

相关博文
  • 热度 6
    2023-3-16 23:12
    2575 次阅读|
    1 个评论
    RMA 是 Return Material Authorization 的英文缩写, 即退料审查。是 处理用户不良产品退货、换货的主要流 程。 当用户所使用某产品或 dao 部件不能正常工作时,将发起一个 RMA 流程,首先用户必须填写 RMA 申请单,然后 RMA 的处理人员将对该 RMA 申请进行审查,例如是否在保修期内等,然后分配一个 RMA 号给该申请单。 RMA 在业务上有三种处理方式: repair 退回修理、 replace 退换、 return 退回。一般都要求退到暂存仓,进行检验。 一种是换货,通知用户寄回 RMA 件,确认收到后寄出新的产品或部件(有时,也可能先寄出新货品),同时寄出发票(有金额或无金额,红字发票冲账,新开发票按再销售处理),新品发货走正常订单处理流程,退回的 RMA 件做入库处理; 第二种方式是退货,退回货物后付钱或增加信用余额,同时走红字发票冲账; 第三种方式是维修,收到 RMA 件入库后,开出维修通知单或服务通知单,在维修完成、服务确认后,发货或用户取货时,再做收款和财务处理。 以英伟达为例: RMA 是出货产品经过客户使用后发现问题(软件硬件功能,外观等质量)而退回给生产商的产品工序,这个工序包括产品维修,产品的升级,产品的维修报告和记录,还有当前状态指示和整体流程。
  • 2022-10-9 12:20
    5099 次阅读|
    1 个评论
    GeForce RTX 40系列的发布,是摩尔定律的挽歌
    我们知道“摩尔定律”形容的是半导体的尖端制造工艺——现在尖端制造工艺的 foundry 玩家就剩 3 个了,毕竟成本和技术投入也不是谁都承受得起。而能够承担尖端制造工艺的芯片门类也不多,电脑、手机、数据中心里面的大芯片,然后就没有了。 从技术角度来说,CPU 这类通用处理器受惠于摩尔定律的性能提升幅度越来越有限,原因比较复杂,不是咱要讨论的重点。得到尖端制造工艺最大红利的,我觉得是更偏专用的芯片:就是那些能大量堆砌算力、搞大规模并行计算的芯片。AI 芯片、GPU 都是典型。 所以 GPU、AI 芯片每年迭代堆晶体管都还是蛮狠的,因为堆晶体管真的有效,多堆一些计算单元,算力也就跟着提高——虽然堆晶体管实现性能趋近于线性提升也不是那么简单。 不过这些芯片也面临一些实际问题,比如说芯片已经那么大了,再大半导体制造设备都处理不了;与此同时晶体管微缩速度显著放缓,根本就做不到每 2 年单位面积内的晶体管数量翻番——这其实也是阻碍堆晶体管的重要因素。最近英伟达 GTC Fall 上,黄仁勋就说:“摩尔定律主要讲的是有关于晶体管的,还有技术代与代之间成本变低。但现实已经不是这样了。摩尔定律已经结束了,技术现在变得越来越昂贵。” 其实有关“单个晶体管造价成本降低”的问题,这应该算是摩尔定律的一个推论——有兴趣的可以去看看维基百科对摩尔定律的具体阐释。老黄说的是事实,从 20nm 以后,单个晶体管造价就在一路小幅攀升——前两年有关这方面的研究还挺多的;这就相当于摩尔定律终结了一半。而到现在,即便半导体制造上游的很多市场参与者还在嘴硬,也改变不了现实。 当然,其实解决问题的方法还有不少,比如其他更系统层面的方案——像 chiplet、先进封装、DSA(专用架构)、Synopsys 的 SysMoore 之类的。不过咱来看个更有趣的例子: 这是黄仁勋在主题演讲中展示的一张PPT。这张图中下面那根曲线是 2018 - 2022 年英伟达 GPU 的晶体管数量增长趋势,从增长倍数来看也还行。 但光线追踪的性能需求,已经从 4 年前的每像素 39 次光追操作,上涨到 635 次。之间的性能跃升是 16 倍。如果真的只靠堆晶体管,那就扑街了。 英伟达针对今年新发布 Ada Lovelace 架构显卡综合性能提升的宣传说辞是“4 倍”。今年 GTC Spring 的时候,英伟达也说面向数据中心的 Hopper 架构 GPU 性能提升 3 倍——就摩尔定律的角度,这都相当不科学。尤其黄仁勋不是还说摩尔定律结束了吗?那这 3、4 倍的性能提升都是哪儿来的?通用处理器一年性能提个 20% 就了不得了。 基于对这些“倍数”的解析,也有利于咱从 fabless 的企业看一看,这年头提升芯片性能应该用怎样的思路。反过来说,芯片设计企业的这些操作,其实也能有效佐证摩尔定律的终结,毕竟他们已经无法倚仗摩尔定律卖货了。 文章比较长,可以选择性阅读;各章节也可跳转阅读。 (这次 GTC 发布的 RTX Remix 也挺有意思的,我专门写了一篇文章,附在文末) 4080 12GB 性能真的能约等于 3090 Ti? 对消费用户而言,GTC Fall 的大热门莫过于 GeForce RTX 40 系列新显卡。从产品层面先来简单看看这次的新货。 游戏显卡新发的产品主要就 3 个:GeForce RTX 4090、GeForce RTX 4080 16GB 和 GeForce RTX 4080 12GB。 貌似这次被吐槽比较多的是 4080 12GB 版,因为这块显卡的 die 和 4080 16GB 都不一样,按照传统应该放到 4070 一档。不过英伟达说 4080 12GB 在性能上最高达到了 3080 12GB 的 3 倍,比 3090 Ti 性能强,所以仍将其归于“4080”定位。 已列出的参数就不多啰嗦了,看图即可,说一些亮点。基于台积电 4N 工艺,4090 的 AD102 die 上堆砌的晶体管数量是 763 亿个,die size 608.5mm²;3090 Ti 的这两个值是 283 亿和 628.5mm²。台积电果然还是比三星要靠谱许多的… 可能很多同学对 763 亿晶体管没有量级概念。实际上很多数据中心的大规模 AI 芯片、GPGPU 都没有这个数量级,比如 Graphcore IPU 的单 die 也就 600 亿晶体管,英伟达自己用在数据中心的 Hopper 架构 GH100 是 800 亿晶体管。这年头,玩个游戏都这么高级了吗? 另外,新架构新工艺带来的一大亮点在于功耗的显著降低。我个人感觉就工艺器件层面,比较有对比价值的一个数据是,4090 的 TGP 450W,和 3090 Ti 一样,但前者的浮点吞吐性能是后者的 2 倍。这种比较 raw 的对比方式,是能够看出工艺层面的进步的。 还有一个说法,是前面提到的英伟达说 4080 12GB 性能就比肩 3090 Ti 了,但功耗却从此前的 450W 降低到了 285W。这个说法是否有待商榷?佐证是下面这张图的游戏与应用实测数据。 这个数据一大部分是基于 DLSS 3——后面会提到这项技术。看过发布会或报道文章的同学应该知道 DLSS 3 的技术主体包括了游戏画面的超分(AI Super Resolution)和插帧(AI Frame Generation),另外还有个 Nvidia Reflex。尤其是插帧,看起来简直是刷游戏帧率神器;换句话说一部分画面并不是图形单元渲染出来的,而是 AI 生成的。这也算性能提升吗? 就这个问题,说一点个人感想。我始终觉得“以体验为本”是考察性能是否真的提升的依据。当代图形计算的很多 tricky 技术都是基于这一点,比如说 VRS(可变速率着色)——很早以前就有人说 VRS 是“虚假的帧率提升技术”。但这项技术是真切地提升了画面帧率,同时对体验又没有什么影响的;那么它就是一项应纳入性能考虑范畴的技术。 超分、插帧如果能真切提升游戏流畅度,而且对画质和体验几乎没有影响或影响很小,则其带来的性能提升就应当被纳入考量。其实电子工程(EE)和计算机科学(CS)这两门学科,乃至更多电子相关的工程类学科的一大特色,就是利用各种 tricky 技术来实现进步。而随着摩尔定律的结束,堆晶体管已经没那么有效,一切 brute force 的技术推升都需要一些“奇技淫巧”来从旁协助。行业其实就是在各种奇技淫巧思路的推进中发展的。 从 Turing 架构开始,在图形 GPU 上增加 RT core、Tensor core 多少都算当年的奇技淫巧。而它们的计算范式一旦成为行业标准,构成生态,也就成为了图形技术的组成部分。像 3DMark 这种 benchmark 工具都已经在逐步加入对于光追、AI 超分的考察方法,自然算得性能提升。 据说 DLSS 3 今年 10 月就会应用于首波 35 款游戏和应用中,这进度似乎比 DLSS 最初发布的时候还要顺利。这也算英伟达在生态号召力上的体现吧。其实如果某种技术和标准没有号召力,则它对于实际性能的贡献,大概率都会被整个行业排除在外。 所以 4080 12GB 性能约等于 3090 Ti,以及 Ada Lovelace 消费级显卡性能相比 Ampere 消费级显卡提升 4 倍,这类命题能成立的一个必要条件就是生态号召力足够强大。当然还有就是技术本身能够实打实提升体验(所以叫“以体验为本”嘛),而不是像既有的一些插帧技术一样,极大增加了游戏操控延迟,那把帧数提升算在性能进步里,就比较不靠谱了。 我个人印象比较深刻的一点是这次英伟达不是还发布了一个 Racer X 么?英伟达说对于其设计,如果是用 3090 Ti + DLSS 2,那么设计师是需要做权衡的:要么就是你看到的画面是物理级准确的(physically accurate),但帧率会很低;要么就是帧率可以更高,但预览的渲染精度会明显更低。但英伟达说,这回的 4090 + DLSS 3,帧率、精度都能有。我感觉这个点的性能提升是质的飞跃。 产品层面最后值得一提的是,除了 GeForce 显卡以外,这次 Ada Lovelace 架构显卡还有新增面向工作站的 RTX 6000 更新,以及用于数据中心的 L40。后者不是 Hopper 架构,而是富含图形单元的 Ada Lovelace——所以也就是云游戏,或者其他图形计算密集型应用,也包括 AI、CV,当然还有 Omniverse。 Ada Lovelace 新架构概览 有关 GeForce RTX 40 系 GPU 详细配置,网上的信息已经比较多了,这里不再一一列举,包括目前最大的 AD102 die 的 CUDA 核心、频率、TGP,还有 RT core、Tensor core 有多少、第几代等等,汇总相较于前两代显卡旗舰款的配置数据对比如下: SM 层级、GPC 层级 GPU 层级 AD102 从 SM 到 GPC 到 GPU 不同维度的模块构成示意如上图,应用于 4090 的时候如何下刀的应该也一目了然了。不过这个示意图也有一些信息未给出,比如说每个 SM 还带 2 个 FP64 核心。还有编解码器,NVENC 升级到第 8 代,开始支持 AV1 编码——高配的 GeForce RTX 40 系配了双 NVENC 编码器;NVDEC 解码器配置不变。 从 AD102 die 层面,总共应该是 18432 个 CUDA core,144 个 RT core,576 个 Tensor core,576 个 TU(纹理单元)。像存储子系统之类的部分就不多谈了:比如 AD102 的 L2 cache 堆料算是暴涨的;还有显存方面,似乎就系统角度来看,据说这次英伟达和美光合作搞的 GDDR6X,加上重新设计的散热系统,能在显卡工作时让温度相比 3090 下降 10℃——主要是因为更高的显存密度,颗粒放在了 PCB 单面……更多配置数据就看图吧。 比较值得一提的是,上代 Ampere 架构的 RT core,也就是处理光追的单元,主要包含了 Box Intersection Engine(用于 BVH 盒子遍历加速)和 Triangle Intersection Engine(光线-三角形相交测试加速)——这是第 2 代 RT core。现在这类单元貌似已经成为当代光追 GPU 标配。 Ada Lovelace 的第 3 代 RT core 新增了 Opacity Micromap Engine 和 Displaced Micro-Mesh Engine。这两个新增的单元促成的改进,可认为是加速实时光追技术发展的重要组成部分。另外还有老黄在主题演讲中着重说到的 SER(Shader Execution Reordering,着色器执行重排序)。 而第 4 代 Tensor core,或者说专用 AI 单元,其乘加矩阵算力的具体情况可以去看英伟达官网产品介绍。比较值得一提的是,Tensor core 里也加入了 Hopper 架构中的 FP8 Transformer 引擎,毕竟这符合 AI 应用发展的大趋势。此外,和 Tensor core 相关的 DLSS 3,以及专用的 Optical Flow Engine 单元,后文会单独谈到。 光追技术上的几个变化 光追这两年越来越成为 GPU 的标配了,不光是PC市场的主要竞争者都给 GPU 加上了专用的光追单元,移动平台都已经在积极着手布局光追。这方面迈步比较早的英伟达,眼见生态建设成果还不错,就开始搞光追技术和流程的优化、迭代了。 这次的第 3 代 RT core 对于整个光追生态而言,应该都会有借鉴意义。我个人的理解是光追相关的 3 个主要改进,其实都着眼于解决光追技术现存的问题,或者说尝试提升光追的效率。 先来聊聊 SER。老黄在发布会上说这项技术为光追带来的价值,无异于当年 CPU 引入乱序执行。 其实对于不包含光追的纯光栅渲染管线,SIMT(Single Instruction Multiple Threads)操作是很自然而然的,一条指令、并行线程就下去了,填充进 shader 的所有通道。比如一个三角形,如果这个三角形对应 32 个像素,那么它们都跑在一起。Shader 要被高效利用,就应该是跑一个程序,shader 内的所有通道都被占满。 光线在碰到场景中的对象(secondary ray tracing),又射往不同方向,以前的 GPU 跑起来就会相对低效,因为不同的 shader 程序跑在不同的线程上,而且还经常串行化执行 而到了光线追踪情况就不同了,工作负载间很多时候不再有天然的相干性,因为场景内的每条光线可能会四处乱飞。或者说它们相当的“发散”。不仅是不同的线程会执行不同的 shader 或者代码路径,还在于线程要去访问存储资源的时候,这些资源很难做 cache。 Ada Lovelace 对此所用的解决方案就是 SER。技术白皮书中说这是个新的调度系统,对 shading 工作进行重排序,以实现更好的执行和数据 cache 效率。据说英伟达在这方面花了多年时间做研发。 SER 是在光追管线上新增了一个环节,如上图就是对上例中的第二次光线 hit shading 进行重排序和分组,那么在后面的执行阶段也就能更加高效。英伟达说加上这项技术以后《赛博朋克 2077》在光追 Overdrive 模式下,从 SER 这一项特性获取的性能提升达到了 44%。 其实自此就很容易理解,对架构的改进,相较于单纯堆计算单元和晶体管的收益有时可以高很多。不过光追技术原本就在发展早期:或许它未来还会有极大的余量做各种流程优化。值得一提的是,开发者可基于 API 指定对特定负载做排序的最佳方法。这又是个需要培养生态的技术。当前英伟达在和微软之类的合作伙伴合作,令其成为标准图形 API。 除了 SER,Ada Lovelace 另外两个改进,一是 Displaced Micro-mesh,二是 Opacity Micro-masks。这俩改进本质也是针对光追技术的优化的。 其中 Displaced Micro-mesh 着眼于解决光追在遇到大量几何细节需时开销过大的问题。因为光追以前所用的 BVH 数据结构需要搞定场景中的每一个三角形,要直接捕捉每个细节,开销就很大:包括 BVH 构建所需的时间,和占用的存储资源。 Displaced micro-mesh 是几何形状的一种结构化表达,用来表达几何细节(上图图左的右边部分)。简单来说,它知道如何构造螃蟹腿上的那些凸起。基于粗粒度最基本的三角形(上图图左的左边部分,base triangle),RT core 就知道如何解决问题了;并且能够最终得到上图右那样的效果。 从硬件层面来看,RT core 里面新增了 Micro-Mesh Engine,用于生成细分的 micro-triangles。这里面还涉及到什么 displacement map、压缩之类的问题,就不细谈了;有兴趣的可以去看看 Ada 架构技术白皮书。 值得一提的是,Simplygon 和 Adobe 两家都已经宣布把 displaced micro-mesh 支持加入到它们的工具链里面。这种事情一般能够表明它有可能成为新的标准存在。 还有就是 Opacity Micro-mask 了。玩游戏的同学应该知道,3D 场景中逼真的植物渲染开销不小。绘制上面这样一片叶子,一般是搞个矩形、然后在上面应用纹理;当然叶子不会是矩形的,那么就需要有些部分是透明的。 以前没有光追的年代 TU 会去检查 alpha(透明度)通道,自然就知道了要绕过对应的透明部分,一切都比较顺利。但在光追世界里,RT core 干不了这件事。RT core 会去看整个矩形,光线打到矩形的任意位置,它就要把信息传递给 SM——SM 再去搞清楚某个地方是不是透明的,然后再告知 RT core 继续做光线追踪,或者这地方是不透明或半透明的… 这一代 RT core 为此引入了 Opacity Micromap Engine 单元。简单来说 RT core 能够基于 opacity micromap 的透明度状态,来直接解决光线相交的问题。仅在状态标注为“unkown”时才需要找 SM 帮忙。这样一来,效率会有大幅飞跃。具体的方法涉及到了所谓的 opacity mask,而 Opacity Micromap Engine 就负责标注透明度状态……细节就不做深入了。 也不光是树叶子,比较典型的像烟雾缭绕的场景,以往开启光追时就很容易悲剧。那么新特性的引入就会极大提升这方面的表现。英伟达在这次自己做的 mod《Portal RTX》里面也特别演示了对应的场景。 英伟达表示这几项特性包括 SER 都已经通过 SDK 的方式提供给了开发者,开发者可以很容易进行集成支持。而未来是否能和微软合作,通过 DXR 做集成,也可以期待一下。好像电子产业发展至今,更下游开发者的水平也极大程度决定了性能跃进幅度。 说了这么多,以上都是 GeForce RTX 40 系显卡相较前代实现 2 倍性能提升的技术基础。不是说好的 4 倍吗?还有 2 倍在哪里?那就是 DLSS 3 的事情了。 AI 算出来的帧率 DLSS 最初作为一种 AI 超分技术,从初代诞生至今已经 4 年了。前面我就说 DLSS 是种“奇技淫巧”。因为严格来说,DLSS 更靠近计算机视觉,而非图形渲染 – 还是基于 AI 的。它在思路上,就“GPU”这类硬件来看算是相当不正经。 而 DLSS 的出现,本身就很大程度代表着摩尔定律的终结。因为如果晶体管数量真的能无节制往上涨,还满足市场需求,那么图形渲染发展得好好的,要 CV 干嘛?一定是现有技术压根儿满足不了市场,才需要“奇技淫巧”的辅助。 黄仁勋在主题演讲后,接受采访时说了个很有趣的点:“英伟达就生于摩尔定律终结的时代。”“这也是加速计算崛起的原因。”这个立意听起来就拔高了一些:加速计算变火,客观上就表现出了摩尔定律的终结——好像真是这样。 而 DLSS,本质上属于 1 级加速计算附带的 2 级加速计算。因为 GPU 本来就已经是图形加速器了,而 DLSS 则成为了用来给图形计算再做加速的加速器。挺有意思的吧? 这次伴随 Ada Lovelace 而来的 DLSS 3。从软件层面来看,除了众所周知的超分(super resolution)——也就是基于AI把低分辨率的画面 upscale 为高分辨率,还新加了 AI 插帧(frame generation),以及 Nvidia Reflex。这三者干的事情分别是:提升画面清晰度(画质)、提升画面流畅度(帧率)、降低游戏操作延迟。 超分就不多谈了,其详细工作流程,网上现成的资料不少。而且这次 GTC 上英伟达也没怎么聊超分,估计和 DLSS 2 的超分差不多。着重来看看 AI 生成帧和 Reflex。 插帧或者叫补帧,顾名思义就是在原有 GPU 渲染出来的帧的基础上,再生成一些帧,以提高动态画面的帧率,起到提高画面流畅度的效果。这两年貌似手机行业有 OEM 厂商在搞的“显示芯片”就专职插帧(MEMC),但体验并不好,而且有明确可感知的操控延迟。 英伟达在技术白皮书中说,这项技术是过去 4 年 Applied Deep Learning Research 团队开发的。相关技术负责人说:“帧生成的挑战很大。我们需要确保画面中对象的顺畅、合理移动,确保不会让对象失真:比如要处理好画面中遮挡的问题,某个东西又出现的问题。另外还需要处理好游戏交互,确保很低的延迟。”这应该是现有解决方案存在的所有痛点。 光流法(optical flow)是计算机视觉应用中比较常见的,用来在连续渲染帧或视频帧之间,判断像素运动方向和速度的一种技术。其应用似乎还挺广泛,甚至在深度学习领域也用作汽车、机器人巡航、视频分析和理解等。 Ampere 架构 GPU 上就有专门的 OFA(optical flow engine,光流引擎)单元。而 Ada Lovelace 上的 OFA 提升了性能,标称 300 TOPS 光流操作,2 倍于 Ampere。似乎从英伟达的解释来看,Ampere GPU 之所以不会支持 DLSS 3,主要就是因为对于目前的算法来说,OFA 的性能不够。 当然另一个核心也在于运动矢量分析算法。DLSS 3 的插帧就是基于运动矢量+光流。英伟达说之所以要做光流,是因为如果只用运动矢量的话,画面可能会出现大量伪像。尤其在应用光追的情况下,因为几何运动矢量根本就无法用于判断光追造成效果的移动。比如画面中路面上的阴影,如果把这个阴影当作几何体,则它也会随着路面向后移动。但实际上我们知道,这个阴影应该是随视角位置相对稳定的。这就需要用光流来判断。 所以这里 engine motion vectors 能够理解几何体的移动,而 optical flow vectors 则能够更多的理解外观变化情况。英伟达说其实光流对于运动的理解不够精准,会犯错,最终效果也各异;这是 Ada Lovelace 投入光流加速器单元的原因,是为了令其更快、更准确。 这回 GTC 主题演讲和各路 session 都拿《微软模拟飞行》在应用 DLSS 帧生成技术后帧率暴涨来举例。其实像这种 CPU 为主要瓶颈的游戏,较大程度受惠于 DLSS 插帧很正常——CPU 瓶颈决定了超分技术的收益会很有限,但插帧是不需要 CPU 参与的,自然帧率倍增。 从英伟达那里听到相关插帧的技术解释差不多就这些了,总感觉这其中还遗漏了些什么重要信息。比如说所谓的 AI frame generation,并没有看出“AI”技术的应用——针对这一点英伟达倒是有告诉我 DLSS 3 的 frame generation 算法模型是 AI 计算模型,所以也需要 Tensore core 来加速; 还有从直觉来看,这么做仍然很容易造成可感知的操控延迟。猜测基于 GeForce RTX 40 系 GPU 的原生堆料和运算速度提升,DLSS 3 未应用于 30 系 GPU 的一大原因也在于旧显卡的延迟可能会太高。 英伟达展示的数据是,《赛博朋克 2077》开启光追 + DLSS 2 超分,输出 4K 画面的帧率是 62fps,延迟 58ms;而接入 DLSS 3,加入插帧,则帧率提升到 101fps,延迟还更短了。DLSS 相关技术负责人只在采访中说,针对 DLSS 帧生成技术,英伟达投入了大量工作,所有的优化加在一起、“对整个图形管线做优化”,才有了现在的结果。 当然 DLSS 3 还有一个组成部分没说,就是 Nvidia Reflex,这是一项显著降低操控延迟的技术。英伟达告诉我说,frame generation 带来的新延迟会被 Reflex 抵消,Reflex 也提供了更多的优化。“所以在绝大部分场景下,开启DLSS 3 会比,开启 DLSS 2 而没有开启 Reflex 的(情况)延迟更低。” 说起来,Nvidia Reflex 也不是新技术了,之前英伟达在竞技游戏和电竞圈里推 Reflex 生态也挺长时间。这次把 Reflex 作为 DLSS 3 的一大组件,可能是插帧有增加延迟的风险,故而需要借助 Reflex 再推一把——这是我自己猜的,但从英伟达的反应来看,差不多就是这样。 我们所说的游戏延迟,是指从输入设备发出指令,比如鼠标按下按键,到屏幕上的像素做出响应,这之间的时间。此前好像不少游戏输入输出设备供应商都推出过 Reflex 生态产品。 这个流程里当然还有 CPU 之类的参与,包括生成一大堆的 draw call,告诉 GPU 如何绘制场景,并进入到渲染队列(Render Queue)。GPU 就从渲染队列中去取这些 draw call,渲染完了会把画面发给显示器。 这里面有几十毫秒的延迟可能会是渲染队列带来的。其实渲染队列的存在很大程度上是为了确保 GPU 的高利用率的。要移除渲染队列还是需要很仔细的。Nvidia Reflex 在这条通路上的选择之一就是移除渲染队列。 据英伟达所说,Nvidia Reflex 很仔细地协调了 GPU 和 CPU 的工作。这其实就要求 Reflex 非常了解游戏引擎在某些特定点的工作状况。这主要依托于游戏开发者在游戏引擎里增加的一些所谓的“Reflex Markers”标记,这些标记会告诉 Reflex 软件怎么做,那么 CPU、GPU 在不需要渲染队列的情况下,就能保持高效同步。如此一来也就消除了不少的延迟。 这个 Reflex Markers 也是对开发者而言,要去践行 DLSS 3 非常重要的组成部分——在此之前应该是没有这部分操作的(也是就开发者角度,相较 DLSS 2 的唯一差别)。可见 Reflex 是配套消除延迟的必行方案。 在 DLSS 3 的生态扩展方面,前文已经提到了首批很快会有 35 款游戏和应用做出支持;另外 DLSS 3 会作为 Streamline 插件存在,UE 引擎之类的就不用多说了。 我觉得有一个点可能会吸引到玩家,就是英伟达在 DLSS 3 技术解析 session 上说,长久以来竞技类游戏玩家都选择 1080p 分辨率,这是为了确保高帧率。但这次英伟达很推荐这部分玩家开始用 1440p,因为“我们发现 1440p 27 寸显示器上,相比于 1080p 25 寸显示器,玩家能够提高对准精度、打击更小的目标”,高分辨率也有助于更快锁定目标。而新架构是实现这些的基础。 摩尔定律终结后… 原本还想聊聊 Ada Lovelace 的“第 8 代”NVENC 的,但文章篇幅有些过长了,且等往后吧。有关编码器可总结的部分是这次的 NVENC 新增了对于 AV1 编码的支持,貌似英伟达在 AV1 生态方面也做了不少工作。 另外就是采用双编码器(dual encoders)配置——英伟达也为此开发了双编码器协作算法,可以把帧拆成两半,实现编码负载均衡——这就让 GeForce RTX 40 系显卡用达芬奇之类的工具做视频剪辑的时候,4K 编码速度快 1 倍、8K 输出速度快 2.5 倍等…以及和 Black Magic 合作,实现达芬奇 12K RAW 剪辑可以不用代理…… 最后做个总结吧。从 Ada Lovelace 来看,英伟达作为一家 GPU 企业,对抗摩尔定律停滞的方法至少包含以下几项: (1)DSA 和更专用的硬件单元。从此前给 GPU 加 Tensor core、RT core 就能看出来了;而在 Ada Lovelace 上,则为 RT core 又特别加了好几个专用引擎,用以提升光追效率;还有 Tensor core 上此前就已经出现的 FP8 Transformer 引擎; (2)大搞 AI 技术。这一点虽然跟第 1 点有那么点重复,但 Tensor core 的存在,以及 DLSS 这类技术,都已经成为原始 GPU 之外,像素世界展示的重要组成部分了;AI 生成的像素和帧,未来大概就比 GPU 渲染的像素还要多。宣传中所说的 4 倍性能提升,其中有 2 倍都是来自 DLSS; (3)架构优化。从 Ada Lovelace 上主要体现在光追的架构和流程改良上,SER 是个中典型; (4)从系统层面看问题。这一点算是全行业趋势,黄仁勋在答记者问时说:“未来是有关加速全栈的(The future is about accelerated full stack)。”“计算并不是个芯片问题,计算是软件和芯片的问题,是全栈的挑战。”如果你在图形之外,关注英伟达的 HPC 和 AI 版图,就知道他们经常隔年更新某个细分领域的库、框架之类的东西,同硬件下的计算性能就提升 1 倍…… 其实这上面有好几项都与生态构建能力有莫大关联,尤其专用硬件、AI 技术、系统层面的软件构成,都依托于庞大的开发者生态,否则也就是个精致的摆设。比如光追架构改一下,开发生态和标准可能都跟着有动作,也没有多少芯片公司现在敢贸然做这种事吧。而生态恰好是英伟达的强项。或者大概应当说正因为是强项,才会这么去做。 其实系统层面 more than Moore、Over Moore 之类的技术宣传都还在持续,这些技术惠及 PC 和工作站 GPU 应该也快了。我们可以等等看,明后年的英伟达 GPU 还将有哪些有趣的变化。 PS: 针对这次 GTC Fall 的一个大热门 RTX Remix——就是那个能用来做游戏 MOD 的工具,我另外写了文章,这是个挺有趣的技术,欢迎点阅: 一切皆可元宇宙!20年前的游戏开启光线追踪,方法是这样的-国际电子商情 (esmchina.com)
  • 热度 3
    2022-8-21 11:05
    4082 次阅读|
    1 个评论
    英特尔的机遇与风险
    2022年, 美国当地时间 7月29日周五,半导体行业发生了一件颇具标志性意义的事件,即Intel的股票市值被AMD所超越。在周五股市收盘后,Intel市值为1480亿美元,而AMD为1530亿美元。 霎时间,媒体中各种雷人的标题“弱爆了”“亏麻了”铺天盖地,唯恐天下不乱。 Intel无论从市场表现,技术表现都是优秀的,只是财务出现短暂的困难,让竞争对手开始慢慢蚕食市场。其整体表现符合大部分人对优秀企业的评价, 只是作为一家志在全球市场长期占据龙头和领导者地位的目标,Intel离开这个目标越来越远。 就像美国继续称霸世界,已经力不从心,但是美国作为世界最强的大国完全是没有任何问题。 一、 CCG业务和DCAI业务:CPU市场 CCG业务1:Intel笔记本处理器从2019年83%下降为73%,从中长期来看,ARM的份额会有继续增长的空间;AMD增长的空间应该不大,除非Intel的下一代处理器的制程工艺继续拉跨。 CCG业务2:Intel桌面电脑处理器从全球市场来看,长期稳定在80%左右,从中长期来看ARM低功耗完全不占任何优势,AMD也无法实现更高级别的市场突破。 DCAI业务:Intel 服务器CPU从最高位的96%下滑到目前的89%,其中大部分的市场被AMD抢占,但是从整体格局看Intel依然占据着绝对统治地位。8月份Intel可以逆势涨价,无疑是向外界继续宣告统治地位。在服务器CPU中最大的变数是来自CSP厂商的ARM自研CPU,目前亚马逊的graviton3已经发布;阿里发布自研 CPU 芯片倚天 710 ;微软在2020年底也开始推进自研ARM CPU;Ampere,高通,以及国内的鲲鹏和飞腾都在推动ARM去同X86竞争,未来的市场 格局是存在一定的变数的。 二、 AXG业务:GPU市场: Jon Peddie Research发布了最新的GPU市场数据统计报告,显示2022年 Q1 PC使用的GPU出货量(包括集成和独立显卡)为9600万,环比下降了6.2%,同比下降了19%。 在2022年 Q1 中, GPU和PC的整体连接率(包括集成和独立显卡、台式机、笔记本电脑和工作站)为129%,环比增长5%;桌面独立显卡出货量环比增长1.4%;2022年第一季度PC使用的GPU出货量中,AMD出货量下降了1.5%,英特尔出货量下降8.7%,英伟达出货量增长3.2%。 从数据上看,出货量减少似乎主要来自OEM厂商的机器,特别是笔记本电脑。 在整个市场上, Intel依然是当之无愧的领导者,当然在独立GPU和数据中心GPU上,英伟达是绝对的领先者,AMD也是领先于Intel的市场。Intel也开始利用在CPU市场的优势地位,开始对独立GPU和加速计算GPU进行了市场争夺,从当前的市场格局看,难度很大。 三、 Mobileye:自动驾驶ADAS市场 依据中信证券的数据,在汽车 ADAS市场里,Intel的Mobileye占据了70%的市场份额,依旧占据着领先地位,虽然其主要市场集中在L1/L2的市场,但开始在L3市场开始发力,提升市场占有比例。其竞争对手里面英伟达和高通虽然也在积极抢占市场,短期依然无法撼动Intel的领导地位。 四、 IFS业务:晶圆代工市场和技术 首先看晶圆代工市场,台积电是处于半垄断式的技术领先地位,市场占比 51.6%,三星市场占比17.1%,联华电子6.9%,格芯6%,中芯国际4.9%,从市场占比来看台积电完全是碾压级的,确实没INTEL什么事。 其次看晶圆代工工艺技术情况,台积电和三星都开始试产 3nm,但是台积电的技术和良率要更领先三星,处于第一梯队;第二梯队的就是Intel的7nm,但是一直未能量产,处于研发和试产中;第三梯队的就是格芯和中芯国际,在14nm徘徊。 Intel清楚的定位了自己在行业地位,其集中资源在模拟IC和汽车半导体等高端业务争取一部分市场,其中收购高塔,成立汽车半导体代工部门就是其关键的举措。 最后, Intel是IDM的半导体工厂,其在晶圆代工存在的最主要意义不是为占有多少的市场份额,而是需要去保持技术的领先地位跟其半导体设计的CPU,GPU和FPGA等可以在自己的工厂生产并稳定供货客户。而目前Intel目前面临最大的问题就是其CPU产品由于制程研发的滞后性,全面拖累了IC设计研发的进度,从而面临着CPU技术能力落后死对手AMD的情况。AMD也是很好的利用了Intel垂直整合策略中的“木桶效应”,抓住战略机遇期,在市场上取得了不少战果。同样,Intel也因为在制造工艺上的落后,被大客户苹果给抛弃,遭遇了重大损失。 综合市场和技术的数据分析, Intel整体的市场份额和技术水平都是处于领先地位,基辛格的IDM 2.0从宏观上具备理论上的可行性。 一. 财务上进行开源:出售非核心的存储业务,并推动自动驾驶上市。 2020年10月20日 ,英特尔与SK海力士宣布签署收购协议 : SK海力士将以90亿美元收购英特尔的NAND闪存及存储业务。 2022年7月, 英特尔确认将逐步结束 Optane(傲腾)存储业务,不再开发新产品 。 2021年12月,Intel就宣布推动mobileye于2022年年中上市,截止目前,暂时还没有得到相关上市消息。 二. 技术上寻求芯片制造技术领先:提升晶圆代工能力 首先, 2022年2月15日晚间,英特尔宣布将以54亿美元收购以色列半导体代工厂高塔半导体,提升在晶圆代工的业务范围,扩张到汽车和模拟芯片领域。 其次,英特尔已计划把部分芯片外包给台积电,后者将于 2022年下半年给英特尔打造3nm芯片。近期台积电反馈出来的信息是量产时间推迟到2023年,其中合作存在变数,反应英特尔内部对于制造外包存在不一致的声音,也就是利益考量的犹豫不决。 再次,就是拓展晶圆代工客户,英特尔 7/25宣布,获得联发科投片于旗下晶圆代工服务IntelFoundry Services的先进制程制造晶片。联发科则强调,此次将投片于英特尔为成熟制程,为Intel16制程 。 最后,利用美国芯片法案的资金,迅速提升在半导体制造领域的技术和产能,确保核心业务整体的领先优势。 从财务角度来看,收购高塔和引入联发科,是为晶圆代工业务增加收入,而非 Intel终极目标是发展成熟的制造工艺,目前INTEL晶圆代工业务营收1.22美元,7nm先进制程工厂投资需要100亿美元,2nm预计是340亿美元,如果intel的代工业务依靠其他事业部的利润和股市融资,自身部门无法获取利润,是无法通过华尔街投资者的同意的,也肯定导致内部部门间的斗争。美国当下的芯片法案可以说是给INTEL“雪中送炭”,不过钱不一定够用。 英特尔虽然在当下的市场竞争中面临着巨大的压力,但在大盘上看其依然掌握着市场和技术的主动权,新任高管也顶住内部利益集团的七嘴八舌,进行了大刀阔斧的变革,行还是不行,都需要时间,毕竟实践才是检验真理的唯一标准。
  • 热度 5
    2022-4-2 14:28
    3282 次阅读|
    2 个评论
    聊聊元宇宙的建设进度
    今年英伟达 GTC ,Toy Jensen 又出场了。就是在去年 GTC 走红的、以黄仁勋本人为基础定制的一个虚拟人物形象——去年这个角色似乎还叫 Toy-Me。这是个可以进行实时对话的人物形象,能做眼神接触、对话,而且有全套的动画动作。宣传中,英伟达提到 Toy Jensen 是建立在 Omniverse Avatar 框架的基础之上。 就是这么个看起来简单的东西,实则浓缩了很多现代技术。初见此等技术,很多人可能会想:它很高端吗?能对话的智能语音助手不都一抓一大把?事实上,即便抛开对话式 AI 的质量不谈,Toy Jensen 也有很多技术点,或者说在造 Toy Jensen 过程中遇到的实际工程问题。因为这毕竟不是个简单预渲染的动画,而是你跟他说话,他立马做动作、表情、回应的虚拟角色。 首先是 Toy Jensen 的声音——是基于 Riva 语音 AI 的 Text-to-Speech RAD-TTS 语音合成。而面部表情则是用 Omniverse Audio2Face。去年其实我在谈元宇宙的文章里谈到过 Audio2Face,这个应用的神奇之处是在只有人声的情况下就能生成 3D 面部表达,嘴型都能和输入的音频完美匹配。 而支配 Toy Jensen 身体动作的是 Omniverse Animation 的 Animation Graph——这是应用于骨骼动画合成、回放和控制的一个 runtime 框架。Toy Jensen 的手、胳膊、头部和其他肢体动作都依托于此。 至于黄仁勋标志性的黑色皮衣,为了凸显 Toy Jensen 身上皮衣本身的皮革质感,令其看起来不像是塑料,需要用到英伟达开源的 MDL(Material Definition Language)。去年的 SIGGRAPH 上,英伟达宣布推出一个叫 Omnisurface 的东西,就是 MDL 的一部分,大约与此是相关的。 此外,要让 Toy Jensen 与人对话又需要动用到对话式 AI,也就是 Riva 和英伟达的 Megatron 530B NLP 模型……所以这称得上是现阶段集 AI 大成的作品了。 当涉足具体应用时,其关联的技术点还会更多。比如在今年 GTC 的 Omniverse Cloud 演示中,Toy Jensen 和另外三名设计师一起远程协作,也就是和真人一起完成设计工作:则其中涉及的 AI 和图形技术还会更多。 Toy Jensen 现阶段还只能说是英伟达用于炫技的一个虚拟角色,但同样建基于 Omniverse Avatar 的 Tokkio 虚拟机器人却是着眼于应用的,包括零售店、快餐店的服务 AI;今年英伟达也演示了 Tokkio 在智能驾驶汽车上直接与乘客对话并完成指定工作的过程。 当我们谈元宇宙这个话题时,图形计算、AI 一定是避不开的。而 Toy Jensen、Tokkio 必然成为元宇宙形成初期的某种示例和构成元素,即便我们现在离构建完整的元宇宙还略有些遥远。 这几件事让我感觉 元宇宙有眉目 参加今年的英伟达 GTC,有三件事让我印象非常深刻——让我感觉我们离元宇宙并没有很遥远,或者我们周遭原本就有了越来越多虚拟的东西。第一就是 Toy Jensen。 第二是黄仁勋在亚太区答记者问时,有个记者提问像 Omniverse 这样一个虚拟世界和技术,未来是否将模糊虚拟和现实的界限。“比如可能现在接受我们采访的 Jensen 就不是个真人。这会给世界带来混乱还是希望呢?”近两年受到疫情影响,GTC 活动的答记者问都是从线上接入的。 黄仁勋在画面那头是这么作答的:“其实现在我眼前的你,并不是真正的你。你经过了 H.264 编码、你数字化了,然后经过传输又以 H.264 解码,然后我才看到了这样的你——这已经不是你本人了,而是你的一个重构版本。” “如果我用 CV(计算机视觉)来对你进行检测感知,实际上检测的并不只是构成你的那一堆像素,还在于这背后的很多东西。比如说,能算出如果你现在要是站着,会是什么样子(因为采访时大家都坐着)。CV 所做的不只是‘所见’还在于‘所想’。然后再用计算机图形学来对‘想象中’你的样子(比如站着的你)进行重构。我就能以我期望的任何方式与你进行交互了。” “比如说可以 VR 的方式和你交互,我们可以在同一个房间里走来走去。”黄仁勋说,“这就不光是数字化、编解码的问题了。这是我们所做的工作,改变通信过程的一个例子。” “而 Omniverse 是我们的一个平台,用于模拟现实世界。我们的首个应用就是机器人——要是没有 Omniverse 的话,机器人的编程、测试就只能放到真实的环境里去进行。但机器人很笨重,测试过程会存在各种危险。那我们就需要一个虚拟的版本,机器人的数字孪生版本,把它放到 Omniverse 世界里——在这样的环境下对机器人进行编程测试。而且在该环境下,机器人的运作也是符合各种物理学定律的,就像真实世界一样。” 这是现在已经达成且在高速发展中的技术。说更近一点的,Zoom、腾讯视频之类的远程会议 app 如今都有“虚拟背景”功能。这大概就是最初级和简单的虚拟世界存在我们身边的佐证了吧。 第三,是黄仁勋在主题演讲过程中展示了某个虚拟人物(如上图,点击看动图,或者叫 AI-powered character)。黄仁勋说:“我们用强化学习来开发更贴近真实生活,和能够进行真实响应的模拟角色。这些角色基于人类动作数据——比如说走路、跑步、挥剑——来学习各种人类真实动作。” 据说这些角色训练机制是要求 10 年期的模拟的,而基于英伟达大规模并行 GPU 模拟,只需要现实世界中花 3 天时间就能训练完成。随后这些角色还能掌握各种技能,执行更复杂的任务。比如说撞倒某个东西、往不同方向前进,甚至我们可以随便输入一句话来控制角色。从演示来看,其动作流畅、自然程度与人类基本无异。 “我们希望这项技术最终能让虚拟人物的交互,就像和真人对话一样简单、流畅。”这项演示因为是基于模拟出的人形角色(而不是机械臂、物流机器人),所以第一次让我感觉“AI”是如此生动和真实的存在,仿佛随算法与算力堆砌,这些人形角色总有一天会有科幻电影呈现出的行动力。将其复制一份到现实世界,是否就是真正的生化人? 以上这三者都与虚拟世界、AI 有着莫大关联。在英伟达的生态帝国里,NVIDIA Omniverse 和 NVIDIA AI 是平台层的两个支柱,下面这张图展示了其间关系。感觉这张图的梳理,对于理解英伟达涉足的业务,有着相当大的帮助——否则,这公司的市场概念如此之多,而且有些隔年还改名,我们这些普通人实在很难记得住… 总结一下,今年 GTC 有关 Omniverse 和 AI 的发布内容主要有以下这些: • 发布 Nvidia Omniverse Cloud; • 发布 Nvidia OVX 与 OVX SuperPOD; • 发布 Spectrum-4 交换机; • 发布面向桌面 PC 的 RTX A5500 GPU;面向笔记本的更多绘图专业 GPU; • Omniverse 平台与生态的相关发展与更新(如 Connector 增加到 82 个;有更多新的客户;Omniverse Kit、Nucleus、XR、Replicator、DeepSearch 等应用和组件更新); • 发布 Nvidia AI Accelerated 项目; • 发布 Nvidia AI Enterprise 2.0; • Nvidia AI 部分库、软件和工具的更新(如 Triton、Riva 2.0、Maxine SDK、Merlin 1.0、Nemo Megatron) • 发布代理气候模型 FourCastNet;用于 6G 通信研究的 Sionna 框架;还有一些公布的信息是往届 GTC 有过介绍的(或者这些内容有新的更新),比如说用 Modulus 打造 Earth-2 地球的数字孪生,再度介绍用于网络安全的深度学习模型 Morpheus 等。 机器人、汽车原本也属于 Omniverse 和 AI 的组成部分——如前文提到将机器人放进虚拟世界中训练,其中关乎到合成数据生成、训练模型、模型部署测试之类的问题,这些也都在英伟达的射程范围内。 不过因为机器人和汽车风头正劲,所以这两年英伟达都是单独将其拿出来谈的。今年事实上也有一些关键更新,比如说面向 AMR(自主移动机器人)发布了专门的 Isaac SDK,还有面向汽车的 Hyperion 9 发布等等。但这些不成为本文探讨元宇宙的组成部分。 元宇宙的雏形,数字孪生 虽说把 Omniverse 叫做元宇宙是不对的,但私以为 Omniverse 是现阶段最接近元宇宙、且更能落地的东西。如果你不知道什么是 Omniverse 的话,建议你 看看这篇 文 章 。 Omniverse 现阶段在做的是两件事:设计协作与模拟仿真。设计协作比较类似于我们用云共享文档,直接合作编辑 word 一样。但 Omniverse 的设计协作是面向 3D 设计、建筑及更多专业视觉向的工作。创作者可能位于全球不同位置,而设计流程则可能涉及到各种不同的软件工具。 而模拟仿真,主要体现在数字孪生(digital twin)上。比如这次 GTC 上列举的一个例子,是 Siemens Gamesa 公司用 Omniverse 和 Modulus 搞风力发电厂的数字孪生。为了让风力发电厂输出电力最大化,可在虚拟世界先做各种环境、配置模拟。据说速度比成本高昂的涡轮仿真要快 4000 倍。 最大规模的数字孪生,则是去年英伟达就宣布要搞的 Earth-2 超算,作为实体地球的数字孪生。而且是可以实时交互的数字版地球。 3D 的数字孪生世界有一个基本前提,就是这个世界是必须符合物理学定律的,包括粒子、液体、材料、弹簧、线缆等等的物理特性模拟。游戏中我们常说的光线追踪就属于这样的模拟。 有没有感觉这稍微有点元宇宙的样子了?我始终认为,数字孪生的精度提高、规模扩大,终极版本就是元宇宙。而模拟仿真、数字孪生本身,又可认为是设计协作的高级阶段。 今年针对 Omniverse 世界的搭建,英伟达发布的硬件主要包括了 Nvidia OVX 服务器、OVX SuperPOD 集群。其配置特点就是满足工业数字孪生需求,处理延迟敏感、更要求实时性的工作——包括 32 台 OVX 服务器组成的 OVX SuperPOD 集群。英伟达说 OVX 要覆盖从汽车、工厂,到城市、地球各个级别的数字孪生项目。 另外这次发布的 Spectrum-4 交换机(用于这类 SuperPOD 集群的互联)也可认为是未来元宇宙发展的某一类基础设施,或者基础设施雏形吧。今年 GTC 的媒体沟通会上,英伟达技术专家提到 Spectrum-4 与那些一般处理 mouse flow 流量(大量用户、但 flow 数没那么多)的交换机不同,偏重在处理 elephant flow 流量(比如模拟整个地球所需的流量)。 所以 Spectrum-4 是为 RocE(RDMA over Converged Ethernet)打造的,数据共享会更快,比如可以实现 GPU direct storage。与此同时“相比一般数据中心毫秒级的抖动,Spectrum-4 可实现纳秒级计时精度,有 5-6 个量级的提升。” 另一个有关 Omniverse 比较值得一提的新发布是 Omniverse Cloud。其本质就是完全云化的 Omniverse。如果打比方的话,它和云游戏是近亲。在本世纪初云游戏概念出现以前,上世纪 80 年代就曾出现过用远程服务器做 3D 图形绘制,并将结果以图像形式回传给客户端的设计思路。 在 Omniverse Cloud 服务下,终端设备不需要 RTX GPU,可以是平板、手机、轻薄本、Mac 电脑,通过 GeForce Now 接入到 Omniverse Cloud。黄仁勋形容“一键设计协作”,就是只需要给你的同事发个 URL 链接,他在任何算力的终端设备上,点击链接就能进入到 Omniverse 的设计协作项目中。(似乎也有部分算力下放到本地的选择) 这在 3D 设计、数字孪生领域应该是挺举颠覆性的。只不过 Omniverse Cloud 目前还处在测试阶段,正式发布时间尚未知。而且以我对云游戏的了解,这种追求实时交互的云计算基础设施的建设和运维成本会是非常高的,尤其要达成比较好的体验,有大量工程问题要解决。 但我想,英伟达这么做主要应该也是为了扩大 Omniverse 的覆盖范围,让任何设备,即便是算力比较弱的设备也能用上 Omniverse。而且一键设计协作,以及通过 Omniverse Cloud 在数字孪生环境里测试新软件,都非常像是元宇宙的必要组成了。在元宇宙构成中,大家也是这么看云游戏的。 元宇宙发展要素 ,A I 原本谈元宇宙的基础设施应该去聊一聊底层芯片的。英伟达的芯片,尤其是 CPU、GPU 是今年 GTC 的重头戏。不过这部分我已经写了一篇7000字文章。对于 Hopper GPU,和 Grace CPU 感兴趣的同学可以移步看一看。虽说英伟达常年强调,自己不只是一家芯片公司,这仍是其赚钱和各项业务开展的基础。 而英伟达 GPU 架构迭代,越来越有 DSA 的样子;类似 Grace 超级芯片这样的 CPU,也有特别的场景针对性。对未来需求海量算力和芯片资源的元宇宙而言,这些可为此奠定基础。 而且 Hopper GPU 更新今年强调的就是 AI 算力,反倒没那么在意 HPC。不管是因为英伟达在 AI 市场吃下了多少红利,所以在堆料方面有了偏向性,还是英伟达在数据中心方面有别的发展思路,AI 作为元宇宙的必然要素是毋庸置疑的。 从前文英伟达的那张四层图就能看出 Omniverse 和 AI 之间有着错综复杂的关系。包括前面举的例子,虚拟角色走路、跑步、挥剑训练本身就是在一个符合物理学原理的虚拟图形世界里,与此同时这种训练必须借助 AI 技术。而机器人、汽车的模拟测试就更是如此了,像 DRIVE Sim,可以理解为把汽车的数字孪生,放在虚拟世界里路测,甚至可以搞一些 AI 生成的对抗场景(Adversarial Scenarios),以训练自动驾驶应对各类极端突发状况的能力。(汽车本身就是一种特殊的机器人) 英伟达是从 AI 基础设施硬件,到上层应用框架,提供全栈支持的企业——包括很多现成的预训练模型和迁移学习工具,还有合成数据之类。我采访过很多 AI 芯片公司,他们对于英伟达的态度普遍是 PPT 吊打,但私下很明了市场覆盖和生态搭建上,相比英伟达难以望其项背,所以只考虑一些竞争没那么激烈的市场——包括一些你们现在所知的顶尖的独角兽 AI 芯片公司。 今年 GTC,英伟达宣布开启 AI Accelerated 计划。英伟达给的数字是现在已经有超过 100 名成员加入。这个计划似乎是英伟达会帮助开发者来解决部署问题;或者说应该是加速 AI 发展,以及加速自家 AI 技术覆盖的计划。 Nvidia AI 这次的几个主要更新包括了 Nvidia AI Enterprise 2.0 发布。Nvidia AI Enterprise 本身是面向企业可应用 AI 技术的套装和服务。英伟达的说法是,让那些没有 AI 专家的企业,也能用上 AI;让 AI 开发部署流线化;企业自身可以专注在 AI 创造的价值上,而不必在意基础设施管理之类的问题。 除了企业级支持,更新到 2.0 版本的重点在于,可以跑在 vmware 和 Red Hat 认证平台上,包括裸金属虚拟化或者 container;以及获得 AWS、Azure、Google Cloud 支持;基于英伟达认证的服务器配置。 另外两个比较重要的更新是 Riva 语音 AI SDK 更新至 2.0 版,以及 Merlin 推荐系统框架发布 1.0 版——就是互联网公司现在普遍会给用户搞各类推荐服务(如推荐商品)的实现基础。 Riva 在前面谈 Toy Jensen 的时候就提到过,是个可用于语音识别、text-to-speech 的套件,里面也包括了模型——可以用迁移学习工具来做个性化的模型精调。2.0 版这次总算是宣布面向大众了。另外还有新发布的 Riva Enterprise,面向大规模部署,其中当然也有 Nvidia 的企业级支持服务。 而 Merlin 是面向数据科学家、ML 工程师的推荐框架。英伟达说只需要少很多的代码就能扩展出一个 recommender。这次 1.0 版的发布,也是让 Merlin 正式面向大众开放了。限于篇幅,更多有关 AI 的发布不再做介绍。 黄仁勋说现在很多公司都开始出现一个名叫 MLOps 的部门,职能就是把手里掌握的数据转为可预测的模型,实现智能化,最终转化为利润。这可能就是未来诸多企业的发展归属吧。像这样的发展,本身就是在为元宇宙添砖加瓦。 推进 再推进 今年英伟达发布了一个叫做 FourCastNet 的模型,全拼 Fourier Forecasting Neural Network,是好几所高校的研究人员,外加英伟达一起打造的气候预测模型,可以预测飓风、大气河流、极端降水等灾难性事件。而且据说精度、准确度非常高。 “这是我们第一次能够用深度学习的方式去实现,相较于传统数值模型有着更高的精度和能力。”英伟达的工程师说相比传统的数值模型,速度快 45000 倍,而且能效高出 12000 倍。以前一年才模拟出来,现在只需要几分钟。另外还强调这个模型是所谓 physics-informed 的。 与此同时,英伟达再度谈到了 Modulus,这是个用于开发物理学机器学习神经网络模型的框架,以符合物理原理为准则,构建 AI 模型。FourCastNet 就是基于 Modulus,融入 Omniverse,辅以 10TB 的 Earth 系统数据,以数字孪生的方式打造的模型。 这应该是英伟达构建地球数字孪生的一个组成部分,部分达成与地球数字孪生的实时交互。那么我们是否可以说,客观上它就成为了元宇宙的一部分?虽然或许人们对于元宇宙的需求,还需要更多内容的填充。这个例子也是 Omniverse+AI 的一个绝佳体现。 这两年我们常说以前以视频加速卡起家的一家企业,有没有想过未来某一天会要去考虑人工智能、基因测序、计算化学、数字孪生、自动驾驶、智能机器人、元宇宙这样宏大的议题。今年 GTC 上看到有关 Omniverse 和 AI 的更新,已经不像前两年那样是看各种琳琅满目的新词汇和新概念了,而是有更多的东西正在稳步更新、推进中。 不过从英伟达这些年在 HPC、AI、Omniverse 生态的努力上更能看到元宇宙构建的难度,这绝不是任何企业凭借一己之力就能轻松达成的。比如 Omniverse 的生态建设就尚在早期,Omniverse Cloud 也才刚刚发布测试版而已;而 FourCastNet 的达成,更是多方长时间合作的结果。
  • 热度 3
    2021-11-5 21:35
    3917 次阅读|
    10 个评论
    国产DPU,弯道超车?
    11月4日,芯片巨头英伟达股价周四大涨12.04%,收于298.01美元,创去年3月以来最大单日涨幅,市值首次突破7000亿美元,达到7450亿美元,超过伯克希尔哈撒韦公司,市值位居全美第七,,超过台积电的5921.4。英特尔和三星的市值分别“仅仅”为2010和4000 。11/8-11/11 芯片巨头英伟达即将举行GTC2021全球大会,当之无愧的AI和计算的全球盛会,英伟达在国内同行跟进GPU发展的时候,其已经推出的DPU概念已经在产业界和资本界火得一塌糊涂。无出左右,跟进GPU的资本也会大量继续跟进DPU的发展,而中科院计算所也最近推出了《专用数据处理器(DPU)白皮书》,正式阐述了中国科技界和产业界对于DPU的态度,综合国内和国外的产业形势,简单去分析DPU的发展状况. 国外篇: 一. GPU龙头大哥英伟达 英伟达推出的BlueField系列DPU,在支持网络处理、安全和存储功能的同时,实现网络虚拟化、硬件资源池化等基础设施层服务。BlueField DPU既是一个承担高带宽(100Gbs/200Gbs/400Gbs)的网络处理器,同时也是一个独立的嵌入式处理器,它管理着众多加速器引擎,比如加密解密、正则表达式匹配以及存储加速等等。BlueField DPU也可以通过ARM核运行嵌入式Linux系统,处理一定控制面的任务,具有一定的通用能力。英伟达 2020年推出BlueField-2系列 DPU,并计划在2022年推出性能更强的BlueField-3 DPU。 二. 传统CPU巨头英特尔 英特尔的IPU(Infrastructure Processing Unit)是一种具有强化加速和以太网连接的网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施。 IPU提供完整的基础设施卸载,并通过充当运行基础设施应用程序的主机的控制点来提供额外的安全层。通过使用IPU,可以从服务器卸载与运行基础设施任务相关的开销。云服务供应商(cloud service provider,CSP)软件在IPU本身上运行,而租户的应用程序在服务器CPU上运行。这不仅释放了服务器上的资源,同时优化了整体性能,而且为CSP提供了一个单独且安全的控制点。IPU将基于硬件的数据路径(包括 FPGA)与处理器内核相结合,使得基础设施以硬件的速度处理,能够跟上不断提高的网络速度和软件实现控制平面功能的灵活性。IPU具有以下三个优势:基础设施功能和租户工作负载物理分离允许用户完控制CPU;供应商可以将基础设施任务完全卸载给IPU,有助于提高CPU资源利用率,最大化收益;实现完全无磁盘服务器架构的云数据中心。 三. 网络芯片巨头博通/Marvell 2021年6月28日Marvell发布了基于5nm工艺的OCTEON 10系列DPU,搭载了算力强劲的ARM Neoverse N2核,并且配备了多种硬件加速模块,包括加解密、包处理及人工智能推理加速器。同时为了提供用户友好的可编程接口,提高应用开发效率,Marvell配套硬件设计了包括DPDK、Marvell ML toolchain等在内的软件开发平台。 博通NetXtreme-S BCM58800是一种单芯片SmartNIC解决方案,在板级生产方面的成本较低。然后,他们在集群配置中部署了主频为3GHz的8个Arm v8 A72核心,逻辑单元能够以高达90千兆/秒的速度卸载加密,同时卸载擦除编码和RAID等存储处理。最后,博通还采用了具有神秘色彩的TruFlow技术,这是一个可配置的流加速器,用于将常见的网络流过程转移到硬件中。博通的产品更多被视为智能网卡。 四.全新创新公司Fungible Fungible成立于2015年,目前拥有约200名员工,总筹资超过3亿美元。其他投资者包括Battery Ventures,Mayfield Fund,Redline Capital和Walden Riverwood Ventures。其新资本将用于加速产品开发。思科系统(Cisco Systems)四位资深工程师创办,前任总裁 John Chambers 担任董事长的Pensando,Juniper Networks CTO 兼联合创始人创办的 Fungible。 针对以数据为中心(data-centric)应用的处理,Fungible研发了F1 DPU处理器和TrueFabric互联技术。TrueFabric是由Fungible首先提出的新型大规模数据中心网络互联标准,这种Fabric互联协议基于标准的UDP/IP/Ethernet协议栈构建。RoCEv2是一种当前数据中心网络中主流的互联网络协议,该协议同样基于UDP/IP/Ethernet搭建,对终端提供高性能的RDMA Read/Write服务,而TrueFabric对接入点提供高性能Send/Receive服务。Fungible F1 DPU原生支持TrueFabric,因此F1 DPU可以用于大规模TrueFabric数据中心网络,不同类型的服务器都可以将Fungible DPU作为网络接入点。 从技术路线来源和传承来看,从事高性能计算计算加速的方案:基于GPU和FPGA的加速的技术经验,来实现数据处理器的方案,以英伟达,英特尔为主要的参与厂家,赛灵思则是被认为智能网卡的产品,基础的技术线路和方案比较接近。 另外一种技术线路来源则是从事数据交换,网络通信的厂家的方案:更多的方案是基于网络通信和数据交换/数据处理的经验和方案,以博通和Marvell厂家为主,未来基于ARM内核方案。 Fungible是思科的童鞋干的,更多倾向于网络技术方案,ARM内核方案。这两类厂家之前竞争是集中在网卡,也就是服务器网卡,英特尔网卡/博通网卡/迈络思网卡是市场上的主流网卡供应商。而AI计算,智能计算和算力的概念联系上以后,该产品被上升到计算架构的高度,并被媒体吹嘘到了突破摩尔定律的路径,究竟是这些国际大厂的忽悠赚钱的故事,还是真正的技术颠覆有待未来应用,但是热钱是不愿意放过这么好的故事概念的。 国内篇 一、 中科院系(中科驭数) 概述:所有的大芯片和计算芯片,都无法绕过中科院计算所,CPU有龙芯,DSP有中科本原,不过GPU好像是没有怎么参与。但是国内的DPU领先的厂家也就是数中科驭数,目前有自研的DPU架构,2019年第一代产品已经流片,第二代产品也是研发中待流片,支撑公司运行的也是智能网卡。技术方案和路线,并不是太清晰。 团队:中科驭数成立于2018/4/25日,创始了鄢贵海,北大到中科院计算所博士后,一直从事计算理论:专用计算架构、机器学习和金融计算;联合创始人兼CTO卢文岩及首席科学家李晓维也是中科院计算所,高级副总裁张宇是北大背景,在亚马逊等从事科研工作。 融资:2021年7月份A轮融资,上亿元,具体不详,由华泰创新领投、灵均投资以及国新思创跟投,本轮融资将主要用于第二代DPU芯片K2的流片以及后续的研发迭代。 二、 GPU企业加持(云脉芯联) 概述:GPU对于壁仞科技也是个新的赛道,但是考虑到高速计算和智能计算,DPU是无法绕开的赛道,就开始继续布局,一站式。壁仞科技要投资云脉芯联,技术路线无法确认。ARM,ASIC,FPGA还是GPU方案。 团队:云脉芯联成立于2021/5/23日,CEO刘永锋,创始团队由长期致力于数据中心网络领域技术和市场的领军人物以及来自世界名企的软硬件系统和芯片研发资深专家组成。 融资:10月22日,DPU初创企业云脉芯联宣布获得数亿元天使轮投资,由IDG资本、壁仞科技、字节跳动等共同投资。目前看,公司处于建立阶段,主要肯定用于人员组建和办公等研发费用。 三、IP企业(芯启源) 概述:IP企业也进入GPU赛道,因为有IP核的优势,所以IP企业比较多参与这类高热门的芯片。 团队:芯启源成立于2015年,其期初是从事IP和EDA的企业,创始人卢笙本科毕业于上海交通大学,并取得美国Lamar University工程科学硕士学位。20年来专注在半导体领域,先后在Broadcom、Marvell、ArtX等公司担任重要岗位,带领团队在芯片研发、管理等领域做出卓著业绩。公司其他核心团队成员均在芯片领域深耕多年,具有极其丰富的行业经验和广泛的产业资源。芯启源拥有一支世界一流的研发管理团队,在湖州、上海、南京、香港、美国硅谷等地均设有子公司和研发中心。据悉,芯启源研发团队中大多来自Marvell、Broadcom、Intel、中兴通讯、百度等国内外顶尖芯片厂商,在芯片设计、网络通讯、云数据中心有着成熟丰富的经验。目前已经推出商用智能网卡产品。 融资:近日,芯启源宣布完成数亿元的Pre-A4轮融资,本轮融资由 中国互联网投资基金 领投, 华润资本润科基金、兴旺投资、允泰资本、正海资本 跟投 ,老股东熠美投资(上海市北高新大数据基金) 继续跟投。据悉,此次融资将进一步支持芯启源在下一代DPU芯片的研发投入,加速在5G、云数据中心的生态布局,持续强化芯启源在国内这一领域的领跑地位。今年6月,芯启源刚宣布完成数亿元的Pre-A3轮融资。 四、全新初创企业(大禹智芯、云豹智能、星云智联) 1. 大禹智芯 团队:北京大禹智芯成立于2020/5/20,团队来自一流的互联网企业:Patrick,大禹智芯首席科学家。10年以上芯片及FPGA研发经历,硅谷一线芯片公司担任芯片架构师,先后任全球两家头部云计算公司智能网卡软硬件团队负责人。李爽,大禹智芯创始人兼CEO。曾任职美团云总经理、阿里巴巴集团网络部总监、百度系统技术委员会主席;曾主导参与云计算战略和互联网巨头技术平台搭建,多次正确预判了技术范式与业务形态的发展路径;王昕溥,大禹智芯CTO。曾任职美团云技术总监、阿里云和蚂蚁金服网络产品研发负责人、百度CDN平台研发负责人,云计算领域专家,拥有多年大型互联网/云基础设施技术领导经验;百度工作期间成功研发**代CDN系统;阿里巴巴工作期间自主研发负载均衡设备实现对F5替换,完成云VPC、云DDoS防火墙、SSLoffload加速卡定制集成,阿里云DNS产品等高性能网络组件研发工作。高亚滨,大禹智芯COO。曾任职思科XaaS与云协作业务大中华区总经理、阿里巴巴全球技术战略合作总监;具备多年ToB服务及技术战略合作经验;拥有担任多家企业的销售负责人、产品总经理、战略合作等市场核心岗位的经历。 融资:2021年7月,大禹智芯宣布完成数千万元Pre-A轮融资,由华义创投和奇绩创坛投资,本次融资金将用于 DPU 产品的研发、生产投入以及高端人才的引入。作为国内领先 DPU 创业公司,大禹智芯在成立之初就获得了天使轮融资,由中科创星和惟一资本联合投资。 2. 云豹智能 团队:深圳云豹智能有限公司成立2020/8/28日,由原RMI公司(后被Netlogic/Broadcom收购)co-founder Sunny Siu博士联合业界精英联合创立,核心团队来自阿里巴巴、海思、Broadcom、Intel和Arm等,拥有中国*有经验的DPU芯片和软件设计团队;云豹智能芯片和解决方案面向云计算服务商、新型互联网公司、5G运营商及大型企业,为解决云计算新技术需求,提供中国***款高性能云原生DPU SoC芯片和解决方案。 融资:云豹智能投资方包括红杉、腾讯、华业天成和耀途,深创投等,具体金额不详,目前应该处于天使轮融资,暂时无具体产品推出。 3.星云智联 团队:珠海星云智联有限公司成立于2021/3/22日,星云智联在业界首屈一指的技术团队带领下,汇集来自硅谷、以色列、加拿大的计算通信领域芯片和软件顶级专家,必将成为未来云计算和数据中心基础互联通信架构和DPU芯片的领导者。星云智联这支过往成功的实现了多领域通信与网络芯片开发的团队, 是目前国内唯一达到了全球领先水平,真正有能力开发出DPU及其生态系统的团队。 具体的创始人,技术领军人物不详细。暂时无产品,也无流片。 融资:2021年4月,DPU芯片研发商星云智联宣布完成数亿元天使轮融资,融资高瓴,鼎晖和华登国际零头,2021年7月,PRE-A轮由老股东鼎晖VGC(鼎晖创新与成长基金)领投;现有投资方高瓴创投(GL Ventures)、华登国际继续追加投资;BAI资本、复星(旗下复星锐正资本、复星创富)、华金投资、金浦投资(旗下金浦科创基金)、嘉御基金、松禾资本、沃赋资本等多家投资机构跟投。,目前看是天使轮融资。2021年8月30,A轮,美团战略投资部,数亿金额。 4.益思芯科 团队:益思芯科技(上海)有限公司 成立于2020/7/13日,技术团队由国内外网络、存储、系统领域的核心专业人员、研发人员组成,在网络、交换、存储及高性能CPU方面领域具有深厚的技术实力。益思芯科技的创办人黄益人先生是美国 CNEX Labs(曾获美国戴尔 Dell、思科 Cisco Systems、微软、Seagate、三星、Micron 等机构的战略投资)的联合创始人和 CTO;拥有近三十年芯片设计经验,毕业于上海交通大学,后留学美国密歇根理工大学,曾在思 科系统(Cisco Systems)、Sandforce 和华为美国研究所Futurewei负责交换机芯片、固态硬盘控制器、智能网 卡的架构与设计;拥有 几十 项美国专利发明,其中包括 NVMe over Ethernet、 Interlaken 等协议相关专利。 融资:8月25日消息,国内 DPU 芯片领军企业益思芯科技(上海)有限公司(以下简称“益思芯科技”)完成 Pre-A 轮融资。本轮融资由联想创投、栎芽资本(Oakseed Ventures)联合领投,励石创投、鼎心资本、东方富海、一旗力合强力跟投。 5.其他生态链 互联网厂家里面,腾讯,百度,字节,美团都有资本布局DPU,但是未来怎么应用DPU在数据中心,都没有确定方案。阿里自称神龙DPU,目前看算是布局的比较早的厂家。 深鉴科技把自己的产品定义成DPU,是数据处理单元,而非数据处理芯片,跟主流的DPU概念不一样。 ICT硬件厂家:华为有自己的智能网卡产品,仅限于智能网卡;浪潮也是基于英伟达bluefield推出智能网卡产品和加速产品,新华三和曙光都有基于英伟达bluefield的服务器整机产品,从理论上推测应该是小量产品,配合英伟达的合作行为。 国产GPU中已经有成熟商用和军用的产品,虽然比起英伟达有不少距离,但是国产DPU中暂时还没有拿得出手的产品,未来到底鹿死谁手还是未知数,也不清楚市场和客户对该类产品最终认可和应用结果,但是务实的研发和推出产品是对中国半导体和资本负责任的态度,才有可能取得成功。目前DPU也未像CPU和GPU那样受到生态强弱的影响,DPU厂家更多是考虑技术因素,您可以适配X86架构,ARM架构,MIPS架构,也可以适配美国巨头,也可以适配中国飞腾,龙芯,兆芯,海光,申威,从起跑线来看,同欧美厂商有5年左右的差距,追赶存在可能,中国科技界不希望这个盛会只是英伟达的独唱,中国人陪太子读书,创业成了资本圈钱的游戏和割韭菜的把戏,中国的半导体大芯片需要“长期主义”,需要有人“卧薪尝胆”。