nvidia-如何使用-有什么中文资料面包板社区

相关博文

听NV首席科学家谈英伟达内部的神秘团队，光追、AI都是他们做的

热度 8

欧阳洋葱

2024-5-13 12:52

1231 次阅读|

0 个评论

- 本文首发于我个人的知乎专栏，眼见面包板专栏万年未更新了，把这篇文章转载过来 - 不知各位同学是否了解，很多大型科技公司，除了做要直接在市场上卖的产品，另外也搞前沿技术研究——虽然这个前沿还没有前瞻到与量产产品完全不相干的程度，但也算是一种近未来的技术投资。比如之前我写过好些 Intel 在半导体制造方面的前瞻技术——其中的很多尚未真正走出实验室、成功量产。作为芯片、AI 领域的大热门，英伟达也有这样一个专门的团队或机构，名为 NVIDIA Research。出自 NVIDIA Research，最终走向产品化的东西典型如 OptiX、光线追踪算法和硬件、Volta 的 SM 架构、自动化 VLSI floorplan 工具、视频 Super Slow Motion、DLSS 和 DLAA 等等... 前不久英伟达 GTC 活动上，我也是第一次有机会听到英伟达首席科学家 Bill Dally 去谈 NVIDIA Research。虽然其实总体的干货也不算多，但起码是了解他们究竟在做什么的好机会，多少也算是增长见识吧；而且机会的确是很难得。很遗憾的是，主题演讲的 PPT 不能对外分享～所以我只能极尽所能地把我听到的东西，用文字记录下来。国内应该算是独此一家吧（独此一人？很嚣张）...另外因为是前瞻技术，有错误的地方请轻拍；毕竟人家是前沿技术专家，我肯定无法做到什么都懂... GTC 2024 现场堪称接踵摩肩承载 30 倍性能提升的 NVLink 在正式谈 NVIDIA Research 以前，先简单说两句 Blackwell GPU（不想看这个的，可以直接跳过这个小标题下的一整段）。这次 GTC 活动，最火的应该是 Blackwell GPU 芯片，及其构成的 B200、GB200、GB200 NVL72 等系统。这里面有道有趣的数学题。其实在面向媒体的 pre-briefing 上，英伟达就提到了相比于前代 Hopper 架构 GPU 的 30 倍性能提升。不过这个 30 倍究竟是怎么来的呢？即便是加速器，芯片隔代 30 倍性能提升，这事儿别说摩尔定律不答应，先进封装不答应，苹果也不答应啊... GB200 NVL72 我在当时的报道文章里写了，Blackwell GPU 本身作为一颗芯片，考虑第二代 Transformer 引擎，以及两颗几乎达到 reticle-limit 光刻机限制尺寸的 chiplet，芯片层面的推理性能提升 5 倍，听起来是很合理的。但是，到了系统层面，尤其是构成 GB200-NVL72 系统，也就是那个总共包含 72 颗 Blackwell GPU，及 36 颗 Grace CPU 的一整台设备，还有 NVSwitch 交换芯片的交换机，30 倍的推理性能提升就有意义了。那么芯片层面 5 倍性能提升，究竟是怎么在系统层面就做到 30 倍提升的呢？其实黄仁勋在主题演讲中有给出下面这张 PPT：这张折线图咋看呢？首先整个图表达的是 1.8 万亿参数的 GPT 模型推理。横坐标代表的是模型的可交互性，可以理解为 AI 模型和每个用户对话时，AI 模型的打字速度；纵坐标可以理解为数据中心的吞吐。我们总是期望这两个值越高越好。基于不同的优化，包括数据并行、tensor 并行、管线并行等等相关优化和配置，找到它们在坐标轴中的不同位置——基于不同的配置、软件分布，也就有了不同的 run time。（如图中 TP2 EP8 DP4 代表跨 2 颗 GPU 做 tensor 并行，8 颗 GPU 做 expert 并行, 4 颗 GPU 做数据并行）图中的蓝线表示的是 Hopper 架构的 H200 构成的相同 GPU 数量的系统（从 pre-briefing 给的资料来看，应该也是总共 72 颗 GPU，或者相似数量）在推理时的情况。而绿线表示的就是 GB200-NVL72，它相较蓝线的提升就有 30 倍。这里比较有趣的其实是中间那根紫线，它表示的是啥呢？就是如果不改变 Hopper 基础架构，只是单纯把这个上代架构的芯片做大，以及两片 die 封装在一起，则它也能带来提升，只不过提升是相对有限的。也就是说光扩大 GPU 芯片的规模，成效并不显著。这里黄仁勋的原话是“如果我们不改变 Hopper 架构，仅是造更大的芯片，用上 10TB/s 的片间互联，得到 2080 亿晶体管的巨大芯片”。这句话可能透露了 Blackwell 在处理器架构层面，相比上代 Hopper 的变动并不大：芯片层面着眼的主要应该就是 GPU 规模增大，以及增加先进封装（所以 PPT 上标注的紫线是 B200）。那么 30 倍性能提升主要来自哪儿呢？毫无疑问，包括 Transformer 引擎对于 FP4 的支持，以及更重要的最新一代的 NVLink——不光是带宽 1.8TB/s（似乎高了 10+ 倍？），还有 SHARPv4 什么的。而且我猜，对比的这张图里，看到的 H200 构成的系统，应该是更加传统的搭配了 x86，以及 PCIe 连接的方案。那么换用英伟达自己的 Grace CPU，搭配与 Blackwell GPU 之间的高速连接，处理器之间通信效率的显著提升，30 倍也就合情合理了。其实 GTC 期间面向分析师有个 AI Architecture 的 Q&A 活动，我就一直在尝试举手想问问这个 30 倍性能提升是不是主要来自 NVLink，也就跨芯片通信方面的提升和优势，无奈一直没有被轮到。一片 Grace CPU + 两片 Blackwell GPU 不过实际上英伟达的相关负责人在不同场合也做了一些解读，尤其是 Ian Buck（Hyperscale & HPC副总裁）在两场分析师 Q&A 会上明确提到了新一代 NVLink 是期望构建起更大的“NVLink domain”，我的理解就是一个高速互联的域内，容纳更多全连接（all-to-all）的 GPU（应该是 576 个），以适配现在的多模态、多 MoE 模型需求，像 GPT-4 这样的～换句话说，GB200-NVL72 作为一个系统，其实是这次英伟达推的重点。而且这也印证了，这个时代远不是靠摩尔定律就能支撑向前的了，甚至 more than Moore 也不行（你看不是用了先进封装么），系统层面的改良和优化也必须上才行......EDA、Foundry 厂普遍也都在倡导这样的观念～回过头来说 NVIDIA Research。上面说这一大堆的，和 NVIDIA Research 有啥关系呢？ NVIDIA Research 在干啥？其实 NVLink, NVSwitch 这类东西，都是出自 NVIDIA Research，而且是归总到“networks”这个大类中的。据 Bill Dally 所说，2011 年的时候，他去找老黄聊了聊要面向 HPC 开发 networking 技术的问题，老黄问他：“我们为什么要做 networking？我们不是一家开发 GPU 的公司吗。”不过最终黄仁勋还是做出了支持，而且是资金上 100% 的支持。感觉就我们所处的这个时代，尤其近两年听英伟达在数据中心 GPU 方面的投入，数据交换和互联也算得上是英伟达的核心技术要素之一了。但在当年，这件事却并不是理所应当的。是不是还挺惊讶于时代变迁的？现在有实力的芯片厂商们，普通从系统层面入手，也显得很有道理——不知道未来游戏显卡会不会也变这样... 从大方向来看，NVIDIA Research 切分成了供给侧（Supply）和需求侧（Demand）。供给侧这边的技术是直接为 GPU 服务的，包括存储系统、编程系统、网络（networks）、架构、VLSI、电路什么的。需求侧则是指针对 GPU 的需求，包括几个图形技术相关的团队，几个 AI 团队，还有一些垂直业务方向，包括机器人、自动驾驶汽车、气候模拟等。对英伟达现有业务熟悉的同学，应该很清楚图形、AI，以及上面提到的垂直领域小组研究，是非常清晰地反映到了英伟达现在发布的产品中的。除了这些以外，NVIDIA Research 似乎还包含了两个机动小组。比如一个团队做所谓的“Moonshots”，当然肯定不是说的登月，据说 Volta 架构就是来自这里；还有个例子是光线追踪核心，也就是图形卡上的 RT core——当时从架构和图形团队找来了一群人，就开始讨论说怎么才能做实时光追。研究之下就有了 TTU（tree traversal unit）树遍历单元，也就是用来做 BVH 遍历和三角形与光线相交测试加速的，“产品团队的人觉得这很好，它就变成了 RT core，用到了 Turing 这一代产品上。”Bill 说。除了 Moonshots，另有一个“Study Group”小组，研究的东西更具未来向。比如说量子模拟相关的研究，最初是 2017, 2018 年前后有人提出了其发展潜力，甚至“替代 GPU”，随后成立量子研究小组。“然后我就从 NVIDIA Research 团队找了一帮物理学方向的 PhD，大概 10 个人，一起去研究量子技术发展到哪儿了，我们能做到怎样的参与度，将来会怎么发展。我们还写了一份很不错的报告呈交给了董事会。” “我们当时发现，这项研究要投入商用，真正对财务产生正向影响，还比较遥远。”Bill谈到，“现在其实也还是这样。但这对人们来说是个巨大的市场”，“模拟量子计算机是个巨大的市场，我们就开发了构建相关软件的策略，也就是现在 CuQuantum。”“我们实际是为那些淘金者（指正在搞量子计算研究的那波人）提供工具。现在这其实也是个很成功的业务了。” 有关 NVIDIA Research 本身还有一点值得一提，Bill 在开场的时候特意强调了他们衡量自己的工作成绩，绝对不是发表 paper 的多少。“公关（PR）可能对这类事情比较热衷，但我们还是希望真正对技术产生影响。”在 Bill 看来，同类科技企业的前沿科学研究团队存在两种典型的错误，其一是发一堆 paper，看起来是很成功的研究实验室，团队内部有来自不同领域的人才。“但这种团队和公司是脱节的，对公司而言根本不发挥什么作用。” 还有一种错误是“内部的项目都是由产品团队给予的资金支持”，这决定了“他们距离实际产品并不会很远”，“这些人在做的实际上就是产品开发，而不是研究。”而 NVIDIA Research 期望做到的，一方面是要拉远和产品之间的距离，另一方面也要对公司切实地产生影响。换句话说就是找寻两者间的平衡点。所以 NVIDIA Research 有三条原则。我理解第一点是投资回报的合理性（这一条尚不能确定，现场没有听得很清楚）；其二是研究需要对产品产生影响，“我们也写很多 paper，平均到人头，和其他任何研究实验室的产量一样多。但这不是我们的目标。目标还是要影响英伟达的产品”；其三是要产品团队的人加入到研究项目中来。“我们以前将一项研究搞定，发表 paper，然后跟产品团队的人去聊。这时候就发现已经太晚了。如果我们真的要影响产品，还是需要他们在研究项目启动的第一天就加入进来。因为我们需要理解他们（产品开发）存在哪些限制，他们需要给产品加入些什么，以及还有兼容性相关的很多问题。” 谈两个技术转化，RTX 与 CuDNN 其实应该谈来自 NVIDIA Research 3 个典型的技术成果转化的，还有一个是 NVSwitch，文章第一部分已经先说了。所以这部分就谈另外俩 Bill 特别提到的技术转化吧，即 RTX 和 CuDNN。就英伟达的市场宣传，RTX 我个人理解应该是一系列技术的集合。不过一般人将其定义窄化到了光线追踪，毕竟什么 GeForce RTX 2080 这类产品名称，最先强调的不就是光线追踪特性么。 Bill 说光线追踪的源起是一个小团队（好像原本是一家独立的公司），当时这个团队的负责人在开发能够在 GPU 上跑光线追踪的软件。英伟达发现以后就把这公司给收了，然后很快把负责人拉到了 Research 团队。软件成果最终是转化成了 OptiX 的，而且“重构（re-form）了我们的专业图形核心”。 “几年以后，我们纠集了一批光线追踪的专家。我们需要在当下去理解什么是好的光线追踪渲染。”即要把实时光追做到何种程度（听到似乎项目名称叫 100x Ray Tracing），“究竟该怎么做？我们最终发现需要几样不同的东西，首先就是转化成了 RT core 的 TTU（树遍历单元）”，“另外我们也增加了光线三角形相交单元”。 “但其实这还不够，可能让我们做到了 10x 吧。我们还是需要其他东西。所以接下来我们就决定，需要一种超采样技术，现在就叫 DLSS，只需要对低分辨率做光线追踪即可，超分以后得到 4 倍像素。”“不过我们真正需要的关键一环，现在是真的做到了”，“此前随 Turing 架构一起到来的 RT core 还是用于特效的（was used for effects），包括反射、阴影之类的东西。它还不是完整实时的 path trace（路径追踪）。 “《赛博朋克 2077》是首个完全路径追踪的 3A 游戏。如果你们没见过的话，真的应该去看一下，效果非常好。”相信关注 PC 和游戏的同学，对这部分应该如数家珍了。不过这里传递的一点是，RT core, DLSS, path trace 其实是来自 NVIDIA Research 的组合拳。 “最终，真正把我们带到那儿的，还是对于 Importance Sampling 这种方法的理解。如果一个场景内有百万条光线，你是不可能对每条光线做投射的。所以你需要决策对哪些做采样。”“我们做出了一种名为 ReSTIR 的新算法，最后以 RTXDI 技术名称落地，真正以高效的方式对光线的采样，投射更少的光线就能达成很高的画质。” “RT core，超采样（DLSS），以及有效的 Importance Sampiling，才让我们真正做到了 100x，真正做到了游戏中的实时光追。” 说完光追，再来谈 CuDNN，也就是 CUDA Deep Neural Network，当然就是用来做深度神经网络加速的库。了解 AI 的同学应该不陌生。Bill 说 2010 年前后，他跟一名同事一起吃早饭，当时就提到在互联网上找（识别）猫的事情。那个时候还需要 16000 颗 CPU 来做这件事。 “我就说 CPU 不行啊，我们应该让这样的东西跑在 GPU 上。”Bill 说道，“当时我们团队内的一名编程系统研究员也鼓励我这么做。最后出来的软件就是 CuDNN。”“其实这比 AlexNet 还早了 2 年。”“我们当时就意识到 AI 会是个影响深远的东西。我们就真的开始着手构建软件栈了。” “那个时间点放在 Kepler 架构上已经有点太晚了，所以我们着眼的是 Pascal、Maxwell，加入了一些特性；真正严肃对待是在 Volta 这一代上；到 Ada 平台，就是我们期望看到的了。”看看这个演进，要不怎么说英伟达现在股价的高涨不是一朝一夕之功呢。再谈几个有趣的技术：硅光、用 AI 设计芯片、AIPC 上面这些其实还是更为普罗大众所知的东西，Bill 当天谈了 NVIDIA Research 旗下各小组的一些研究。受限于篇幅，无法一一介绍。这里给一些我个人觉得还挺有趣的技术研究。首先聊聊电路方面的研究吧：因为我见识浅薄，之前一直以为 fabless 企业是不需要把投入放在半导体的电路层面的。不过 NVIDIA Research 还真是有个 Circuit Research 的团队，“让我们的 GPU 更好”。比如说 short reach links（短距离连接）——很遗憾无法给你们看图，Grace Hopper 整颗芯片上，连接 Grace CPU 和 Hopper GPU 的就是这个 short reach links，也包括 HBM 内存连接。目前基于 TSV 做 die 堆叠的方案，已经实现了 0.1-0.5mm 距离内 0.1pJ/bit 的能耗水平。这次新发布的 Blackwell，连接两片 die 的技术名称完全没听清（好像是 ISNRP，Incredibly Short Reach NP），能耗量级是 1-2mm 0.2pJ/bit。基于先进封装的片内通信能耗，和要走 PCIe 5 这种通道互联的量级差异起码有 20 倍以上。 Grace Hopper 和 Grace Blackwell 的 CPU 到 GPU 通信连接是多年前就完成的，能耗量级 10-15mm 1pJ/bit——这应该是一种走基板的通信了，虽然和 Blackwell 片内两片 die 互联不能比，但还是比 PCIe 5 要节能了 5 倍以上。所以实际上，英伟达常年来也坚持给自家芯片的互联命名，还是有道理的。似乎这种事，在 fabless 企业内也只有英伟达、苹果这类企业做得到，互联的某些层级还是有自家的标准和技术在里头的。组成自有成套、成规模的生态就是任性啊... 还有 long reach links（长距离连接）——至少是芯片与芯片间（封装与封装之间）的传输了，这部分据说英伟达在考虑光通信（photonics），只不过现在成本和功耗都还不理想。但 Bill 认为让硅光成本降下来，降到可比肩铜（电传输）的程度还是有戏的，毕竟“铜差不多发展到头了”。 “目前我们正在努力去尝试波分复用（dense wavelength division multiplexing）技术”，“在传输芯片里用锥形激光源”，“对不同色光做调制，以每种色光较低的 bit 率做密集波分”，“达到每根 fiber 最高 TeraBits 带宽”；“接收端的芯片也有个环形谐振器（ring resonator），对色光做检测。”（这一段如果有描述错误的轻拍啊，我已经尽力把我听到的做我能理解的还原了） “这些现在已经在我们实验室里了，只不过还没准备好量产。”“不过我们有信心，最终可以把能耗降到 2pJ/bit 的量级，能耗和成本都能比肩电传输。” 这部分的第二个技术，我想谈一下借助生成式 AI 来做芯片设计的 ChipNeMo。黄仁勋在主题演讲里也提了一下。应该是去年 GPT 和生成式 AI 大火以后，下半年好像就陆续有研究团队说，借助于 ChatGPT 来设计芯片的，全程自己不需要写一行代码，单纯就是跟 GPT 各种聊，让它写，最后的芯片就能跑起来。我个人是相信这类新闻的，因为我自己去年数据库概念这门课，最后交给老师的 project，几乎所有代码都是 ChatGPT 写的，虽然程序框架和设计肯定是我自己做的，而且也花了大量时间 debug。芯片设计，如果不是那么复杂的话，也是类似的——只不过和 ChatGPT 聊的人自己还是要具备相应的业务能力的。去年我采访的一些 EDA 企业认为，做复杂芯片设计的话，这种方式还是异想天开。但起码协助芯片设计是能做到的嘛。ChipNeMo 是英伟达内部的一个，用于芯片设计辅助的生成式 AI，也是 NVIDIA Research 做的。预训练互联网数据得到 70b/130b 参数规模的 Llama 2 基础模型；然后进行芯片设计专门的训练，据说给到了 48GB 的设计文档、RTL 代码之类的数据，都喂进去；最后再进行监督 fine-tune——得到 ChipNeMo 聊天模型。在英伟达内部，ChipNeMo 的一部分职责是给一些初级水平的芯片设计者用，他们有问题就可以直接问 ChipNeMo 了。另外一个职责是，对 bug 报告做总结——硅工们发现了 bug 会记录下来，这类报告可能会非常复杂、也很长，对旁人来说也很难理解，ChipNeMo 是可以给出容易理解的总结的。另外 ChipNeMo 自己也能生成 Verilog，不过这就只供参考了。再介绍个所谓的 Efficient AI 研究，据说是 NVIDIA Research 最近才成立的研究团队，致力于让 AI 跑得更高效。当然其中涵盖很多不同的技术，比如说剪枝、稀疏化什么的。其中一项研究成果是 AWQ（Activation-aware Weight Quantization）权重量化，某些网络权重甚至可以降到 2bit，“某些权重会比其他权重更重要；有时需要表达高分辨率，有时则只需要很低的分辨率...”，而这些优化会“让你的网络跑起来更高效”。 “我们也会主动去发现神经网络，去找到最高效的模型。”说得还是挺泛的啊，但总体要表达的都是让 AI 更为高效，这应该也是现在很多 GPU/AI 芯片公司在做的事情。其中一个例子就是基于 AWQ，让 LLM 跑在边缘或者端侧设备上——对英伟达来说，现阶段最重要的主题，其实还不是 LLM 跑在 PC 上，而是跑在 Jetson Nano 这样的边缘平台上。不过 AI PC 肯定也是这其中的一个重要议题。好像过去大半年 Intel 中国研究院也在搞这个东西吧，毕竟大家都要推 AI PC。最后再聊一个基于 DaaS（Data as a Service）的快速 GPU 存储访问的项目吧。对某些场景、某些系统来说，比如说电商的推荐系统，请求大量数据可能没办法一下都塞进主内存里。所以 NVIDIA Research 有个项目是把存储系统，直接挂到 GPU 上。一般的传统方法是文件系统请求要通过 CPU，即便是 GPU Direct 也如此。GPU Direct 的数据路径是直接走往 GPU 内存的，但 IO 操作最后还是 CPU 来给存储设备发信号，让存储设备直接把数据给到 GPU。这里的问题还是 CPU 太慢，100 万 IOPS 量级。英伟达已经有了个原型方案，似乎产品化已经很快了，用 DaaS 方法。在 CPU 初始化安全认证访问以后，CPU 好像就不在数据请求的回路中了，GPU 可以“directly queue”，请求 IO 设备，达成 50 倍的存储带宽。“它能让你进行细粒度的存储操作，这很关键。”“你可能不需要 4k block 数据获取，而是小块的数据，需求更高频的 IOPS，在不需要大量 over fetch 的情况下就能做到。” 篇幅太长了，更多的就不说了——从芯片聊到软件了（软件还是大篇幅）。其实还是有很多可以去谈的东西，比如说 Bill 提到最近在搞 Automatic Fusion，针对 DNN 程序的 kernel fusion，提高推理的效率——据说自动 kernel fusion 的效果远优于程序员手动 fuse。还有各类编程系统研究——其实也就是把各种原本只能 CPU 跑的东西，实现 GPU 的加速计算；以及内部的多 die 实验研究，像 Grace Hopper, Grace Blackwell 之类就是 NVIDIA Research 大量研究迭代后的产物；更多 AI 视觉生成类应用；地球数字孪生 Earth-2，以及气候、天气相关的高精度研究；汽车 ADAS 相关动态驾驶场景“自监督重构”的研究，在做名为 PARA-drive 的感知基础模型；以及用强化学习来设计 GPU 上的 NV-ENC 视频编码器等等等等... 可能对很多日常就一直在关注英伟达的同学来说，上面很多内容也不能算多新鲜。这里还有一些内容是我没写的，比如机器人、汽车的部分我基本都没写，一方面是我自己也不大感兴趣，另一方面是今年 GTC 其实机器人相关的更新是个重点——所以机器人后面我是打算另外写文章的。期望这些东西大家还感兴趣吧。说再多 AI 要改变世界的废话都是无用功，这些东西都是在潜移默化中发生的。不知各位发现没有，英伟达自己内部就在大量应用 AI 技术，包括生成式 AI，用 AI 来做产品。自家芯片和系统驱动着 AI，然后 AI 应用又在推动芯片和系统设计与结构进步。还挺有趣的吧...
硬件工程中的RMA是什么意思？

热度 6

启芯硬件笔记

2023-3-16 23:12

3689 次阅读|

1 个评论

RMA 是 Return Material Authorization 的英文缩写，即退料审查。是处理用户不良产品退货、换货的主要流程。当用户所使用某产品或 dao 部件不能正常工作时，将发起一个 RMA 流程，首先用户必须填写 RMA 申请单，然后 RMA 的处理人员将对该 RMA 申请进行审查，例如是否在保修期内等，然后分配一个 RMA 号给该申请单。 RMA 在业务上有三种处理方式： repair 退回修理、 replace 退换、 return 退回。一般都要求退到暂存仓，进行检验。一种是换货，通知用户寄回 RMA 件，确认收到后寄出新的产品或部件（有时，也可能先寄出新货品），同时寄出发票（有金额或无金额，红字发票冲账，新开发票按再销售处理），新品发货走正常订单处理流程，退回的 RMA 件做入库处理；第二种方式是退货，退回货物后付钱或增加信用余额，同时走红字发票冲账；第三种方式是维修，收到 RMA 件入库后，开出维修通知单或服务通知单，在维修完成、服务确认后，发货或用户取货时，再做收款和财务处理。以英伟达为例： RMA 是出货产品经过客户使用后发现问题（软件硬件功能，外观等质量）而退回给生产商的产品工序，这个工序包括产品维修，产品的升级，产品的维修报告和记录，还有当前状态指示和整体流程。
聊聊元宇宙的建设进度

热度 5

欧阳洋葱

2022-4-2 14:28

3712 次阅读|

2 个评论

今年英伟达 GTC ，Toy Jensen 又出场了。就是在去年 GTC 走红的、以黄仁勋本人为基础定制的一个虚拟人物形象——去年这个角色似乎还叫 Toy-Me。这是个可以进行实时对话的人物形象，能做眼神接触、对话，而且有全套的动画动作。宣传中，英伟达提到 Toy Jensen 是建立在 Omniverse Avatar 框架的基础之上。就是这么个看起来简单的东西，实则浓缩了很多现代技术。初见此等技术，很多人可能会想：它很高端吗？能对话的智能语音助手不都一抓一大把？事实上，即便抛开对话式 AI 的质量不谈，Toy Jensen 也有很多技术点，或者说在造 Toy Jensen 过程中遇到的实际工程问题。因为这毕竟不是个简单预渲染的动画，而是你跟他说话，他立马做动作、表情、回应的虚拟角色。首先是 Toy Jensen 的声音——是基于 Riva 语音 AI 的 Text-to-Speech RAD-TTS 语音合成。而面部表情则是用 Omniverse Audio2Face。去年其实我在谈元宇宙的文章里谈到过 Audio2Face，这个应用的神奇之处是在只有人声的情况下就能生成 3D 面部表达，嘴型都能和输入的音频完美匹配。而支配 Toy Jensen 身体动作的是 Omniverse Animation 的 Animation Graph——这是应用于骨骼动画合成、回放和控制的一个 runtime 框架。Toy Jensen 的手、胳膊、头部和其他肢体动作都依托于此。至于黄仁勋标志性的黑色皮衣，为了凸显 Toy Jensen 身上皮衣本身的皮革质感，令其看起来不像是塑料，需要用到英伟达开源的 MDL（Material Definition Language）。去年的 SIGGRAPH 上，英伟达宣布推出一个叫 Omnisurface 的东西，就是 MDL 的一部分，大约与此是相关的。此外，要让 Toy Jensen 与人对话又需要动用到对话式 AI，也就是 Riva 和英伟达的 Megatron 530B NLP 模型……所以这称得上是现阶段集 AI 大成的作品了。当涉足具体应用时，其关联的技术点还会更多。比如在今年 GTC 的 Omniverse Cloud 演示中，Toy Jensen 和另外三名设计师一起远程协作，也就是和真人一起完成设计工作：则其中涉及的 AI 和图形技术还会更多。 Toy Jensen 现阶段还只能说是英伟达用于炫技的一个虚拟角色，但同样建基于 Omniverse Avatar 的 Tokkio 虚拟机器人却是着眼于应用的，包括零售店、快餐店的服务 AI；今年英伟达也演示了 Tokkio 在智能驾驶汽车上直接与乘客对话并完成指定工作的过程。当我们谈元宇宙这个话题时，图形计算、AI 一定是避不开的。而 Toy Jensen、Tokkio 必然成为元宇宙形成初期的某种示例和构成元素，即便我们现在离构建完整的元宇宙还略有些遥远。这几件事让我感觉元宇宙有眉目参加今年的英伟达 GTC，有三件事让我印象非常深刻——让我感觉我们离元宇宙并没有很遥远，或者我们周遭原本就有了越来越多虚拟的东西。第一就是 Toy Jensen。第二是黄仁勋在亚太区答记者问时，有个记者提问像 Omniverse 这样一个虚拟世界和技术，未来是否将模糊虚拟和现实的界限。“比如可能现在接受我们采访的 Jensen 就不是个真人。这会给世界带来混乱还是希望呢？”近两年受到疫情影响，GTC 活动的答记者问都是从线上接入的。黄仁勋在画面那头是这么作答的：“其实现在我眼前的你，并不是真正的你。你经过了 H.264 编码、你数字化了，然后经过传输又以 H.264 解码，然后我才看到了这样的你——这已经不是你本人了，而是你的一个重构版本。” “如果我用 CV（计算机视觉）来对你进行检测感知，实际上检测的并不只是构成你的那一堆像素，还在于这背后的很多东西。比如说，能算出如果你现在要是站着，会是什么样子（因为采访时大家都坐着）。CV 所做的不只是‘所见’还在于‘所想’。然后再用计算机图形学来对‘想象中’你的样子（比如站着的你）进行重构。我就能以我期望的任何方式与你进行交互了。” “比如说可以 VR 的方式和你交互，我们可以在同一个房间里走来走去。”黄仁勋说，“这就不光是数字化、编解码的问题了。这是我们所做的工作，改变通信过程的一个例子。” “而 Omniverse 是我们的一个平台，用于模拟现实世界。我们的首个应用就是机器人——要是没有 Omniverse 的话，机器人的编程、测试就只能放到真实的环境里去进行。但机器人很笨重，测试过程会存在各种危险。那我们就需要一个虚拟的版本，机器人的数字孪生版本，把它放到 Omniverse 世界里——在这样的环境下对机器人进行编程测试。而且在该环境下，机器人的运作也是符合各种物理学定律的，就像真实世界一样。” 这是现在已经达成且在高速发展中的技术。说更近一点的，Zoom、腾讯视频之类的远程会议 app 如今都有“虚拟背景”功能。这大概就是最初级和简单的虚拟世界存在我们身边的佐证了吧。第三，是黄仁勋在主题演讲过程中展示了某个虚拟人物（如上图，点击看动图，或者叫 AI-powered character）。黄仁勋说：“我们用强化学习来开发更贴近真实生活，和能够进行真实响应的模拟角色。这些角色基于人类动作数据——比如说走路、跑步、挥剑——来学习各种人类真实动作。” 据说这些角色训练机制是要求 10 年期的模拟的，而基于英伟达大规模并行 GPU 模拟，只需要现实世界中花 3 天时间就能训练完成。随后这些角色还能掌握各种技能，执行更复杂的任务。比如说撞倒某个东西、往不同方向前进，甚至我们可以随便输入一句话来控制角色。从演示来看，其动作流畅、自然程度与人类基本无异。 “我们希望这项技术最终能让虚拟人物的交互，就像和真人对话一样简单、流畅。”这项演示因为是基于模拟出的人形角色（而不是机械臂、物流机器人），所以第一次让我感觉“AI”是如此生动和真实的存在，仿佛随算法与算力堆砌，这些人形角色总有一天会有科幻电影呈现出的行动力。将其复制一份到现实世界，是否就是真正的生化人？以上这三者都与虚拟世界、AI 有着莫大关联。在英伟达的生态帝国里，NVIDIA Omniverse 和 NVIDIA AI 是平台层的两个支柱，下面这张图展示了其间关系。感觉这张图的梳理，对于理解英伟达涉足的业务，有着相当大的帮助——否则，这公司的市场概念如此之多，而且有些隔年还改名，我们这些普通人实在很难记得住… 总结一下，今年 GTC 有关 Omniverse 和 AI 的发布内容主要有以下这些： • 发布 Nvidia Omniverse Cloud； • 发布 Nvidia OVX 与 OVX SuperPOD； • 发布 Spectrum-4 交换机； • 发布面向桌面 PC 的 RTX A5500 GPU；面向笔记本的更多绘图专业 GPU； • Omniverse 平台与生态的相关发展与更新（如 Connector 增加到 82 个；有更多新的客户；Omniverse Kit、Nucleus、XR、Replicator、DeepSearch 等应用和组件更新）； • 发布 Nvidia AI Accelerated 项目； • 发布 Nvidia AI Enterprise 2.0； • Nvidia AI 部分库、软件和工具的更新（如 Triton、Riva 2.0、Maxine SDK、Merlin 1.0、Nemo Megatron） • 发布代理气候模型 FourCastNet；用于 6G 通信研究的 Sionna 框架；还有一些公布的信息是往届 GTC 有过介绍的（或者这些内容有新的更新），比如说用 Modulus 打造 Earth-2 地球的数字孪生，再度介绍用于网络安全的深度学习模型 Morpheus 等。机器人、汽车原本也属于 Omniverse 和 AI 的组成部分——如前文提到将机器人放进虚拟世界中训练，其中关乎到合成数据生成、训练模型、模型部署测试之类的问题，这些也都在英伟达的射程范围内。不过因为机器人和汽车风头正劲，所以这两年英伟达都是单独将其拿出来谈的。今年事实上也有一些关键更新，比如说面向 AMR（自主移动机器人）发布了专门的 Isaac SDK，还有面向汽车的 Hyperion 9 发布等等。但这些不成为本文探讨元宇宙的组成部分。元宇宙的雏形，数字孪生虽说把 Omniverse 叫做元宇宙是不对的，但私以为 Omniverse 是现阶段最接近元宇宙、且更能落地的东西。如果你不知道什么是 Omniverse 的话，建议你看看这篇文章。 Omniverse 现阶段在做的是两件事：设计协作与模拟仿真。设计协作比较类似于我们用云共享文档，直接合作编辑 word 一样。但 Omniverse 的设计协作是面向 3D 设计、建筑及更多专业视觉向的工作。创作者可能位于全球不同位置，而设计流程则可能涉及到各种不同的软件工具。而模拟仿真，主要体现在数字孪生（digital twin）上。比如这次 GTC 上列举的一个例子，是 Siemens Gamesa 公司用 Omniverse 和 Modulus 搞风力发电厂的数字孪生。为了让风力发电厂输出电力最大化，可在虚拟世界先做各种环境、配置模拟。据说速度比成本高昂的涡轮仿真要快 4000 倍。最大规模的数字孪生，则是去年英伟达就宣布要搞的 Earth-2 超算，作为实体地球的数字孪生。而且是可以实时交互的数字版地球。 3D 的数字孪生世界有一个基本前提，就是这个世界是必须符合物理学定律的，包括粒子、液体、材料、弹簧、线缆等等的物理特性模拟。游戏中我们常说的光线追踪就属于这样的模拟。有没有感觉这稍微有点元宇宙的样子了？我始终认为，数字孪生的精度提高、规模扩大，终极版本就是元宇宙。而模拟仿真、数字孪生本身，又可认为是设计协作的高级阶段。今年针对 Omniverse 世界的搭建，英伟达发布的硬件主要包括了 Nvidia OVX 服务器、OVX SuperPOD 集群。其配置特点就是满足工业数字孪生需求，处理延迟敏感、更要求实时性的工作——包括 32 台 OVX 服务器组成的 OVX SuperPOD 集群。英伟达说 OVX 要覆盖从汽车、工厂，到城市、地球各个级别的数字孪生项目。另外这次发布的 Spectrum-4 交换机（用于这类 SuperPOD 集群的互联）也可认为是未来元宇宙发展的某一类基础设施，或者基础设施雏形吧。今年 GTC 的媒体沟通会上，英伟达技术专家提到 Spectrum-4 与那些一般处理 mouse flow 流量（大量用户、但 flow 数没那么多）的交换机不同，偏重在处理 elephant flow 流量（比如模拟整个地球所需的流量）。所以 Spectrum-4 是为 RocE（RDMA over Converged Ethernet）打造的，数据共享会更快，比如可以实现 GPU direct storage。与此同时“相比一般数据中心毫秒级的抖动，Spectrum-4 可实现纳秒级计时精度，有 5-6 个量级的提升。” 另一个有关 Omniverse 比较值得一提的新发布是 Omniverse Cloud。其本质就是完全云化的 Omniverse。如果打比方的话，它和云游戏是近亲。在本世纪初云游戏概念出现以前，上世纪 80 年代就曾出现过用远程服务器做 3D 图形绘制，并将结果以图像形式回传给客户端的设计思路。在 Omniverse Cloud 服务下，终端设备不需要 RTX GPU，可以是平板、手机、轻薄本、Mac 电脑，通过 GeForce Now 接入到 Omniverse Cloud。黄仁勋形容“一键设计协作”，就是只需要给你的同事发个 URL 链接，他在任何算力的终端设备上，点击链接就能进入到 Omniverse 的设计协作项目中。（似乎也有部分算力下放到本地的选择）这在 3D 设计、数字孪生领域应该是挺举颠覆性的。只不过 Omniverse Cloud 目前还处在测试阶段，正式发布时间尚未知。而且以我对云游戏的了解，这种追求实时交互的云计算基础设施的建设和运维成本会是非常高的，尤其要达成比较好的体验，有大量工程问题要解决。但我想，英伟达这么做主要应该也是为了扩大 Omniverse 的覆盖范围，让任何设备，即便是算力比较弱的设备也能用上 Omniverse。而且一键设计协作，以及通过 Omniverse Cloud 在数字孪生环境里测试新软件，都非常像是元宇宙的必要组成了。在元宇宙构成中，大家也是这么看云游戏的。元宇宙发展要素，A I 原本谈元宇宙的基础设施应该去聊一聊底层芯片的。英伟达的芯片，尤其是 CPU、GPU 是今年 GTC 的重头戏。不过这部分我已经写了一篇7000字文章。对于 Hopper GPU，和 Grace CPU 感兴趣的同学可以移步看一看。虽说英伟达常年强调，自己不只是一家芯片公司，这仍是其赚钱和各项业务开展的基础。而英伟达 GPU 架构迭代，越来越有 DSA 的样子；类似 Grace 超级芯片这样的 CPU，也有特别的场景针对性。对未来需求海量算力和芯片资源的元宇宙而言，这些可为此奠定基础。而且 Hopper GPU 更新今年强调的就是 AI 算力，反倒没那么在意 HPC。不管是因为英伟达在 AI 市场吃下了多少红利，所以在堆料方面有了偏向性，还是英伟达在数据中心方面有别的发展思路，AI 作为元宇宙的必然要素是毋庸置疑的。从前文英伟达的那张四层图就能看出 Omniverse 和 AI 之间有着错综复杂的关系。包括前面举的例子，虚拟角色走路、跑步、挥剑训练本身就是在一个符合物理学原理的虚拟图形世界里，与此同时这种训练必须借助 AI 技术。而机器人、汽车的模拟测试就更是如此了，像 DRIVE Sim，可以理解为把汽车的数字孪生，放在虚拟世界里路测，甚至可以搞一些 AI 生成的对抗场景（Adversarial Scenarios），以训练自动驾驶应对各类极端突发状况的能力。（汽车本身就是一种特殊的机器人）英伟达是从 AI 基础设施硬件，到上层应用框架，提供全栈支持的企业——包括很多现成的预训练模型和迁移学习工具，还有合成数据之类。我采访过很多 AI 芯片公司，他们对于英伟达的态度普遍是 PPT 吊打，但私下很明了市场覆盖和生态搭建上，相比英伟达难以望其项背，所以只考虑一些竞争没那么激烈的市场——包括一些你们现在所知的顶尖的独角兽 AI 芯片公司。今年 GTC，英伟达宣布开启 AI Accelerated 计划。英伟达给的数字是现在已经有超过 100 名成员加入。这个计划似乎是英伟达会帮助开发者来解决部署问题；或者说应该是加速 AI 发展，以及加速自家 AI 技术覆盖的计划。 Nvidia AI 这次的几个主要更新包括了 Nvidia AI Enterprise 2.0 发布。Nvidia AI Enterprise 本身是面向企业可应用 AI 技术的套装和服务。英伟达的说法是，让那些没有 AI 专家的企业，也能用上 AI；让 AI 开发部署流线化；企业自身可以专注在 AI 创造的价值上，而不必在意基础设施管理之类的问题。除了企业级支持，更新到 2.0 版本的重点在于，可以跑在 vmware 和 Red Hat 认证平台上，包括裸金属虚拟化或者 container；以及获得 AWS、Azure、Google Cloud 支持；基于英伟达认证的服务器配置。另外两个比较重要的更新是 Riva 语音 AI SDK 更新至 2.0 版，以及 Merlin 推荐系统框架发布 1.0 版——就是互联网公司现在普遍会给用户搞各类推荐服务（如推荐商品）的实现基础。 Riva 在前面谈 Toy Jensen 的时候就提到过，是个可用于语音识别、text-to-speech 的套件，里面也包括了模型——可以用迁移学习工具来做个性化的模型精调。2.0 版这次总算是宣布面向大众了。另外还有新发布的 Riva Enterprise，面向大规模部署，其中当然也有 Nvidia 的企业级支持服务。而 Merlin 是面向数据科学家、ML 工程师的推荐框架。英伟达说只需要少很多的代码就能扩展出一个 recommender。这次 1.0 版的发布，也是让 Merlin 正式面向大众开放了。限于篇幅，更多有关 AI 的发布不再做介绍。黄仁勋说现在很多公司都开始出现一个名叫 MLOps 的部门，职能就是把手里掌握的数据转为可预测的模型，实现智能化，最终转化为利润。这可能就是未来诸多企业的发展归属吧。像这样的发展，本身就是在为元宇宙添砖加瓦。推进再推进今年英伟达发布了一个叫做 FourCastNet 的模型，全拼 Fourier Forecasting Neural Network，是好几所高校的研究人员，外加英伟达一起打造的气候预测模型，可以预测飓风、大气河流、极端降水等灾难性事件。而且据说精度、准确度非常高。 “这是我们第一次能够用深度学习的方式去实现，相较于传统数值模型有着更高的精度和能力。”英伟达的工程师说相比传统的数值模型，速度快 45000 倍，而且能效高出 12000 倍。以前一年才模拟出来，现在只需要几分钟。另外还强调这个模型是所谓 physics-informed 的。与此同时，英伟达再度谈到了 Modulus，这是个用于开发物理学机器学习神经网络模型的框架，以符合物理原理为准则，构建 AI 模型。FourCastNet 就是基于 Modulus，融入 Omniverse，辅以 10TB 的 Earth 系统数据，以数字孪生的方式打造的模型。这应该是英伟达构建地球数字孪生的一个组成部分，部分达成与地球数字孪生的实时交互。那么我们是否可以说，客观上它就成为了元宇宙的一部分？虽然或许人们对于元宇宙的需求，还需要更多内容的填充。这个例子也是 Omniverse+AI 的一个绝佳体现。这两年我们常说以前以视频加速卡起家的一家企业，有没有想过未来某一天会要去考虑人工智能、基因测序、计算化学、数字孪生、自动驾驶、智能机器人、元宇宙这样宏大的议题。今年 GTC 上看到有关 Omniverse 和 AI 的更新，已经不像前两年那样是看各种琳琅满目的新词汇和新概念了，而是有更多的东西正在稳步更新、推进中。不过从英伟达这些年在 HPC、AI、Omniverse 生态的努力上更能看到元宇宙构建的难度，这绝不是任何企业凭借一己之力就能轻松达成的。比如 Omniverse 的生态建设就尚在早期，Omniverse Cloud 也才刚刚发布测试版而已；而 FourCastNet 的达成，更是多方长时间合作的结果。
PS5游戏机：AMD秒杀英伟达的开始

热度 7

欧阳洋葱

2020-8-8 03:04

7243 次阅读|

1 个评论

这篇文章主要是给大家推荐一个视频，提供一个思路——视频在本文末尾，不过看我的这篇文章也够了。这则视频的很多内容，其实是值得商榷的（尤其制作视频的这位 Coreteks 大嘴真的是什么都说得出来）。这个视频的信息量巨大，我觉得非常有意思，所以这里分享给各位。只不过看的时候，注意很多内容别当真。这则视频的主题是：从 PlayStation 5 游戏机，看索尼和 AMD 改变游戏行业的杀招，以及英伟达的水深火热（我瞎说的）... Coreteks 这个人我关注已经两周了，他大部分视频都体现了同一个思路，就是将来的处理器都要融合到一起，一切都要融合到一起，CPU、GPU、内存什么乱七八糟的全部都可能放到同一颗芯片上。（而且不是异构那么简单，而是彻底从架构上去颠覆，对这一点我就已经很不同意了，不过这是背景）不过他在近一年的视频里，都讲对了数字芯片的一个共识。那就是处理器现在性能提不上去了，所以需要依赖各种专用硬件单元（或专用核心、专用处理器）来提升性能和效率——靠 CPU 或者 GPU 的通用单元是不行的，因为通用单元发展到现在已经极限了。所以我们要做专用单元，一个专用单元就只能做一件事情（或某几件事），虽然可能有浪费，但执行这一件事的时候效率奇高啊。这一点是本身现在就在发生的过程，不管是哪个层面的专用。而且历史上一直就存在的，比如 CPU 的扩展指令集——或 GPU 早年就是一种极为专用的 ASIC 图形处理器——只不过这些年的这个趋势越来越激进。比如 Intel 对于 CPU 在机器学习算力上的执著（其实 Arm 也在搞）...比如英伟达在光线追踪方面 RT 专用核心的执著...比如谷歌为 Pixel 手机开发的专用影像处理核心...比如谷歌用脉动阵列做的 TPU... 对于这种“专用”的理念转变，可能是多层级多方位的...在提升性能以外，它势必造成一定程度的浪费，比如你买 Pixel 手机可能根本就不拍照，那这个专用影像处理器对你而言就多花了钱；比如你买来 Intel 处理器的 PC，就只用来上上网，那显然像 AVX512 这种指令对你来说没有半毛钱用处。这是一定的...但你不能说这种趋势不对。 Coreteks 的这则视频是从 PS5 的整体架构着手的...网上对 PS5 的骂声一大片，主要是觉得其用力的点完全不对，包括对于变频这种设计在游戏主机上的应用感到匪夷所思；包括 SSD 可能带来昂贵的售价，以及算力参数上不及 Xbox...我觉得，这可能表现出，索尼在实现目标过程中，具体实施方案可能做得没有那么理想（或者无法那么理想）... 如果撇开 CPU 不谈（两台游戏机都是 Zen 2，频率略有差别）。GPU 部分，（似）已公开数据显示，PS5 是 36CU（2.25GHz，可变频），标称 10.28 TeraFLOPs 算力；而 Xbox 这边是 52CU（1.825GHz），12 TeraFLOPs。同 GDDR6，Xbox 在其中 10GB 有带宽上的一定优势。Coreteks 认为，这些在最终游戏上，基本不会带来什么大差距。（其实我也这么觉得）先说个结论，Coreteks 认为，PS5（以及 AMD）将带来的游戏革命，是其他任何平台，包括 PC 都给不了的。下面解释： 1. Coreteks 认为，Xbox 和 PS5 的主要差别在 I/O 层面（指数据与通信）：Xbox 的数据压缩速率在 4.8GB/s，PS5 则为 8-9GB/s——"In my opinion, Sony has won the console war right here." SSD 与存储子系统的低延迟、高带宽，是 PS5 的主要特性（这原本也算是 RDNA 着眼的，以及 RDNA2 要加强的，虽然我觉得怎么看都是一个普通理念啊喂）... 2. 事实上，英伟达 Turing 架构的主要优势之一，也是低延迟、高带宽。英伟达的 RTX 显卡有两种加速器用于加速光追——这是现在大部分人都知道的了，RT core 和 tensor core；另外针对高带宽，还有两个比较重要的专用单元，一个用于压缩内存中的数据，一个用于解压——以此，数据可以更快地访问到。这一次 PS5 也是类似的增带宽思路... 当代处理器的很大一部分瓶颈就是带宽或者通信，而非单纯的计算部分；计算单元数量并不能反映实际性能。英伟达去年在莱斯大学的一次演讲中提到： Accelerator Design is Guided by Cost. Arithmetic is Free (particularly low-precision) Memory is expensive. Communication is prohibitively expensive. 这里的"cost"指的主要是芯片功耗上的开销，"free"和"expensive"也是这个意思。即算术是极低开销，存储代价很大，通信代价非常大... 我自己觉得，这的确是现在不少专用处理器（如 GPU、AI 处理器）的一个现状。所以 Graphcore 造的 IPU（一种 AI 处理器），就是在疯狂堆片上 SRAM，大量提升本地存储容量（IPU 二代是 900MB 的片上 SRAM），以及百倍提升带宽。至于真正到执行单元，低精度的数学运算，真的都不是个事儿：算术的功耗，跟通信的功耗，那就不是一个数量级。（如上图，这个数据可能是有问题的，但各操作间的比例应该是这么回事吧，用以表现从 DRAM 读取 32bit 数据耗费远高于运算的能量）英伟达首席科学家 William Dally 在 2019 年曾经说过，"Accessing even a small memory array costs way more than doing an operation. And a lot of what we think of memory cost today is really communication cost." 3. 索尼 PS5 践行的就是上述思路，即一方面用专用计算单元，另一方面大幅提升数据传输带宽（虽然如很多知乎大佬所说，在具体实现上可能是很不理想的），包括高速 SSD（下图）。Coreteks 特别提到，PC 平台难以大规模推行这类方案，因为 PC 毕竟是个开放的平台（PC 平台的游戏需要迁就大众，不能像 PS5 那样搞高带宽需求）。 PS5 本身用了一些专用处理器，专门针对主机，以及游戏负载，某些技术未来也是不会进入 PC 领域的。比如说这次很多人在谈的 DMA 控制器，12 个通道——也是知乎上很多人认为索尼错误决策的一部分，因为这部分可能极大增加成本（上图）。显然 Coreteks 认为，这是加速“通信”与带宽的重要组成部分。（注：Coreteks 似乎是当年 PS3 的 CELL 处理器的支持者，所以上述表达也不难理解吧。我近期有打算写一篇当年 CELL 处理器的文章...） PS5 专用压缩单元 Kraken，也包含在 SoC 里面，也是专用单元且提升内存带宽的一部分（Xbox 实际上也有，而且 RDNA2 和 Turing 什么的其实都有）。 4. 下图给出了 PS5 完整的 I/O 思路，而且随着时代的推进，越来越多的专用单元会加入进来。（就像苹果的 A 系列 SoC 那样，加入越来越多的专用处理器，分别解决专门的问题——Coreteks 的表达是，A13 Bionic 有超过 40 个专用加速器；在客观数字上我没去了解过，不过其实这一点原本就是趋势）这张图左下角出现了一个 Coherency Engines（一致性引擎），也算是 PS5 游戏机的 I/O 群体中的另一个重要的专用处理器（或者加速器）了，专门负责跨 CPU 与 GPU 的存储一致性（memory coherency）——这也是 AMD 下一代 APU 的一个重要特性。 Jim Keller 曾经说过这样一段话： "What Graphics need is a really high bandwidth memory system. In the past graphics had its own memory system, and for the CPU and GPU to talk to each other you'd use PCIexpress." "With HSA, we made a memory architecture where CPU and GPU share the memory. So graphics sees memory, CPU sees memory and we can pass pointers between them, we have a common address space." 简单翻译，就是图形计算，需要高带宽的存储系统，以前图形计算有专门的内存系统，CPU 与 GPU 对话用 PCIexpress...而“我们搞了个存储架构，让 CPU 和 GPU 共享存储，两者都能看到内存，我们就能在两者间传递 pointer 了，我们有共同的地址空间。”这是 2014 年 Jim Keller 还在 AMD 构建 Zen 的时候说的。其中提到的 HSA，也就是 heterogeneous system architecture，异构系统架构...HSA 应该是一套规格，让不同的处理器部分做融合的... HSA 规格的首个践行者就是 PS3 的那个“传奇”CELL 处理器，苏妈（Lisa Su）还在 IBM 的时候，也是这规格的重要缔造者。所以 Coreteks 认为，AMD 现在的思路其实和苏妈早年在 IBM 和 Freescale 嵌入式系统和异构计算方面的经历，是有很大关系的。这种异构融合的思路，则是未来几年 PC 发展首先在游戏机上的一种尝试（虽然我个人真心觉得，难道现在的笔记本和手机处理器不就是这样吗？）——Coreteks 表达比较重要的一点，应该就是一颗芯片解决多种问题...这样一来，PS5 也可以不用过于 bulky（已公布的索尼 PS5 算是 bulky 吗？）...因为索尼在设计上还比较有追求，同时还要控制发热之类的问题。其实我看 Coreteks 的很多视频，并没有搞清楚他是支持类似 AMD 这样 chiplet 异构的方案，还是颠覆架构去做 monolithic 单 die 方案，因为他似乎对于富士通 A64FX 超算处理器是非常赞赏的；或者他可能最在意的是“通信”部分的高效。 5. 甚至可以认为（coreteks 认为的），AMD 未来的 CPU 很可能会越来越轻 CU 数量，而偏重于频率以及固定功能单元（也就是专用加速单元）... 6. 那么以上这种思路，在游戏机上带来的体验，为什么是将来 PC 给不了呢？（1）前面我们说到了高带宽的这种诉求，不过知乎上蛮多人提到索尼有“带宽过剩，算力不行”的传统。存储子系统的这种提升，对于开发者而言意味着什么呢？去年网上出现过一个开发者 demo，用以"showing instantaneous asset streaming"，如果没有前文提到的存储一致性（memory coherency）支持，以及超快的 SSD，还有数据解压专用加速器，则完全不可能做到 demo 中演示的样子（具体为什么，我不清楚，各位可以去找一下这个 demo）。这些，正是前面这么多内容提到的 PS5 所专注的方向。这个 demo“可以实现无缝的开放战争游戏体验，游戏中不会有加载等待画面；画面角色移动速度，甚至可以用来创造一些新的游戏类型，包括开放世界环境的竞速游戏——而且游戏内容元素的数量级可以远超过去的那些游戏；还有过去我们没看到过的游戏类型——比如可能是'画面频繁缩放'的游戏，比如可能是从银河系大画面，极速放大到某个星球，甚至再快速放大到分子级别的画面——在任何一个画面级别，都会有非常牛逼的细节”。这一点，PC 平台就几乎不大可能实现，起码 PC 平台的 SSD 大部分都不会做到 PS5 的程度。（2） AMD 去年在 Computex 上做过一个 demo 演示（现在是 3DMarks PCIe 特性测试场景之一），对比的是 Intel Core i9-9900K + 英伟达 RTX 2080 Ti，以及自家的 AMD Ryzen 7 3800X + AMD Radeon RX 5700 Series，如下图。当时的这个演示其实引起了比较大的争议，因为这个演示本质上偏向于高带宽测试，而大家普遍觉得，没有哪个游戏会需要这种场景。这次 Computex 展会上，AMD 还特别提到了和索尼之间的合作，以及期望革新未来 10 年的游戏。这可能就是索尼游戏主机所真正着力的方向，和未来游戏将要出现的画面——PS5 的带宽也就真正有了用武之地。 PC 享受不到这些游戏，原因同上，毕竟绝大部分 PC 都不会在架构上像 PS5 那样做。（3）还有一个 demo，是原本要在 PS4 上发布的一个游戏《觉醒计划（Project Awakening）》，现在放出了一个预告片。预告中的画面可能是即时演算的，比 PS4 游戏画面要好多了。Coreteks 认为，这可能是索尼早前提到的加入了光线追踪效果的一个游戏。番外. 从微软演示的 Xbox Series X《战争机器 5》来看，4K 60fps 效果基本和 RTX2080 Super + R7 3700X 差不多。但算一下一台游戏机多少钱，而后者光一个英伟达的显卡就多少钱，两者加起来 1040 美元...英伟达这种策略怎么还没有翻车？ Coreteks 认为，未来的 APU 可以扫清中低端市场的那些独立 GPU，至于那些硬核玩家，普遍都会转向游戏主机，因为如前文所述，未来很多游戏将是 PC 根本应付不了的，根源在专用处理单元以及带宽差异上。 Coreteks 另外认定，英伟达在这个战局中显得非常被动（说起来英伟达收购 Arm 的话，按照 Coreteks 的说法，做架构变更岂不是可以改变战局？）。Coreteks 为英伟达提了三个建议，其一是“使用硬件加速降低渲染精度”，其二“加强数据本地性·”，其三“加强视觉真实度”。这部分 Coreteks 其实谈的还是挺悬的，比如第一部分，用硬件加速来降低渲染精度（以节约功耗），而光追也可以用这种方案去做，增加某种类型的硬件，考虑将 FP32 转为 Int8（？？有这种操作吗？）... VRS（variable rate shading）就是在精度方面的一项举措，游戏画面背景可以以明显更低的精度去渲染，前景则用高精度渲染，人眼看起来，整体画面其实也没太大差别。还有 advanced culling（前些年有个针对 Turing 架构 Mesh Shaders 的 demo 演示，就提到过这种 advanced bulling）——coreteks 认为会有专用单元来加速这项技术，如果有 3 个固定单元来渲染画面中，不同远近的对象，则针对主要注意力的部分做高精度渲染，而某些部分则完全可以用低精度去搞，又完全不会影响到游戏体验（当然估计会对跑分有影响）。另外，英伟达还有一个强项，就是 AI 部分，也可以用来降低精度。早前英伟达曾经放出过，把画面中缺失的部分给自动补上的技术，靠的就是 AI（下图）。这种技术或许就可以应用到游戏中去，用以渲染游戏画面中一些无关紧要的对象。前面提到第二点，“加强数据本地化”，其实就没什么要多说的了。现在的专用芯片制造商，恨不得把片内存储堆到可以把一大堆模型放下的程度，这主要还是个成本的问题。第三点，“加强视觉真实度”。Coreteks 针对这一点有特别提到，英伟达现在应该再引入一项类似实时光线追踪这样的技术点，但要足够吸引人，实现对竞争对手的绝对技术领先——比如 AMD GPU 的游戏机也实现不了，那就真的炸裂了。可能还是跟 AI 机器学习相关的技术——毕竟这是英伟达投入了很多年、花了很多钱的优势项。英伟达今年的 GTC2020 有演示在网上放出来，部分内容其实跟游戏关系并没有那么大，但也是图形计算相关的。好像是迪士尼的一个什么电视节目场景，采用虚幻引擎去录制——或者说是一个 AR 现实增强实现，生成虚拟的背景，前景还是拍摄的真人，类似于实时特效，而且随时都可以切换！好像完全看不出破绽，完全高保真，让人觉得，主持人或者演员就是在现场。类似这样的技术，也就可以拍死 AMD 企图构建的上面提到的世界了。好了，以上大部分内容都出自 Coreteks，有兴趣的去看看这个视频吧，我觉得我基本上已经把他要说的东西传达到位了。这则视频的意淫成分颇多（而且 Coreteks 的绝大部分视频都是在意淫）。如果有事实错误，也欢迎各位指出。事实上，即便存在非常多相当夸张的想法，但我总体上觉得，数字芯片往“专用”化发展，以及企图解决数据与通信问题的方向，可能都是值得思考借鉴的。仅供各位娱乐。资料来源： Coreteks 推荐阅读：如何评价现在全网黑PS5的现象? 深度学习的兴起，是通用计算的挽歌？
其实，NVIDIA才是无人驾驶汽车的“幕后功臣”

热度 2

用户1700732

2016-3-8 13:29

1378 次阅读|

0 个评论

在美国家喻户晓的苏斯博士（Dr.Seuss）曾有句名言：“脑袋在自己脖子上，脚在自己鞋子里，未来怎么走把握在你自己的手里。”我很喜欢这句话，不过如果自动驾驶汽车未来成为主流，我们就无需自己做抉择了，这些汽车将利用自己的人工智能大脑找到正确的方向，而驱动这些AI大脑的核心则是机器学习软件和处理器。提起自动驾驶汽车，恐怕你最先想到的就是搜索巨人谷歌，确实，眼下它在业界保持着绝对领先的地位，谷歌的自动驾驶汽车累计行驶里程已经突破100万英里。不过仅凭谷歌一己之力，想要实现人类驾驶方式的大变革还是有些困难，其幕后还有一家至关重要的公司，它就是我们熟悉的芯片制造商英伟达（NVIDIA）。在过去几年中，谷歌的自动驾驶汽车一直都在使用英伟达的Tegra处理器，最近，这家芯片厂商又推出了自动驾驶汽车专用的第二代产品——全新Drive PX 2无人驾驶平台。英伟达CEO黄仁勋英伟达称其为“世界第一台车载人工智能超级电脑”。该平台到底有多强呢？据称它可以每秒执行24万亿次深度学习任务。 Drive PX 2将英伟达的处理器和传感器平台有机融合了在一起，其中包括相机，激光雷达和负责态势感知的雷达，而态势感知是无人驾驶汽车最重要的技能之一。一切尽在掌控那么到底什么是态势感知呢？举例来说，当你驾车行驶在路上，突然一个篮球从路边跑过来，看到篮球后你的大脑会下意识提醒你后面可能还会有飞奔而来的小孩，此时你就会踩下刹车来减速。对路况和行人等情形的提前判断就是态势感知。谷歌无人驾驶汽车其实这种态势感知能力会随着你驾车熟练程度的提高而提高，电脑想要掌握这项技能也需要不断学习。虽然人们可以事先为其编入许多情景，但它也需要深度学习能力来归纳自己的经验，并将其用在未来的行车任务中，此外，自动驾驶车辆之间还可互相分享这种经验，以便提高各自的态势感知能力。这也正是我们必须提到英伟达这家幕后公司的原因。该公司认为未来Drive PX系统将会拥有超人级的态势感知能力，让自动驾驶车辆比有人驾驶车辆更加安全。英伟达的野心英伟达的合作对象可不止谷歌一家公司，此前它的第一代Drive PX系统就帮助一辆奥迪A7从旧金山开到了拉斯维加斯（全程550英里，采用无人驾驶形式）。眼下，全球共有50多家汽车制造商和供应商在使用或测试英伟达的Drive PX平台，其中不乏宝马，戴姆勒和福特等大牌公司。美国汽车专业调查公司IHS Automotive称，2035年销售的车辆中，有10%会采用全自动驾驶，而科技公司开发的自动驾驶软硬件解决方案将会成为各家车厂的香饽饽，英伟达是该领域当之无愧的先行者，该公司的产品将成为未来汽车的大脑。

更多...

标签: nvidia