tag 标签: gpu

相关帖子
相关博文
  • 热度 3
    2024-5-13 12:52
    588 次阅读|
    0 个评论
    听NV首席科学家谈英伟达内部的神秘团队,光追、AI都是他们做的
    - 本文首发于我个人的知乎专栏,眼见面包板专栏万年未更新了,把这篇文章转载过来 - 不知各位同学是否了解,很多大型科技公司,除了做要直接在市场上卖的产品,另外也搞前沿技术研究——虽然这个前沿还没有前瞻到与量产产品完全不相干的程度,但也算是一种近未来的技术投资。 比如之前我写过好些 Intel 在半导体制造方面的前瞻技术——其中的很多尚未真正走出实验室、成功量产。作为芯片、AI 领域的大热门,英伟达也有这样一个专门的团队或机构,名为 NVIDIA Research。出自 NVIDIA Research,最终走向产品化的东西典型如 OptiX、光线追踪算法和硬件、Volta 的 SM 架构、自动化 VLSI floorplan 工具、视频 Super Slow Motion、DLSS 和 DLAA 等等... 前不久英伟达 GTC 活动上,我也是第一次有机会听到英伟达首席科学家 Bill Dally 去谈 NVIDIA Research。虽然其实总体的干货也不算多,但起码是了解他们究竟在做什么的好机会,多少也算是增长见识吧;而且机会的确是很难得。 很遗憾的是,主题演讲的 PPT 不能对外分享~所以我只能极尽所能地把我听到的东西,用文字记录下来。国内应该算是独此一家吧(独此一人?很嚣张)...另外因为是前瞻技术,有错误的地方请轻拍;毕竟人家是前沿技术专家,我肯定无法做到什么都懂... GTC 2024 现场堪称接踵摩肩 承载 30 倍性能提升的 NVLink 在正式谈 NVIDIA Research 以前,先简单说两句 Blackwell GPU(不想看这个的,可以直接跳过这个小标题下的一整段)。这次 GTC 活动,最火的应该是 Blackwell GPU 芯片,及其构成的 B200、GB200、GB200 NVL72 等系统。这里面有道有趣的数学题。 其实在面向媒体的 pre-briefing 上,英伟达就提到了相比于前代 Hopper 架构 GPU 的 30 倍性能提升。不过这个 30 倍究竟是怎么来的呢?即便是加速器,芯片隔代 30 倍性能提升,这事儿别说摩尔定律不答应,先进封装不答应,苹果也不答应啊... GB200 NVL72 我在当时的报道文章里写了,Blackwell GPU 本身作为一颗芯片,考虑第二代 Transformer 引擎,以及两颗几乎达到 reticle-limit 光刻机限制尺寸的 chiplet,芯片层面的推理性能提升 5 倍,听起来是很合理的。 但是,到了系统层面,尤其是构成 GB200-NVL72 系统,也就是那个总共包含 72 颗 Blackwell GPU,及 36 颗 Grace CPU 的一整台设备,还有 NVSwitch 交换芯片的交换机,30 倍的推理性能提升就有意义了。那么芯片层面 5 倍性能提升,究竟是怎么在系统层面就做到 30 倍提升的呢? 其实黄仁勋在主题演讲中有给出下面这张 PPT: 这张折线图咋看呢?首先整个图表达的是 1.8 万亿参数的 GPT 模型推理。横坐标代表的是模型的可交互性,可以理解为 AI 模型和每个用户对话时,AI 模型的打字速度;纵坐标可以理解为数据中心的吞吐。我们总是期望这两个值越高越好。 基于不同的优化,包括数据并行、tensor 并行、管线并行等等相关优化和配置,找到它们在坐标轴中的不同位置——基于不同的配置、软件分布,也就有了不同的 run time。(如图中 TP2 EP8 DP4 代表跨 2 颗 GPU 做 tensor 并行,8 颗 GPU 做 expert 并行, 4 颗 GPU 做数据并行) 图中的蓝线表示的是 Hopper 架构的 H200 构成的相同 GPU 数量的系统(从 pre-briefing 给的资料来看,应该也是总共 72 颗 GPU,或者相似数量)在推理时的情况。 而绿线表示的就是 GB200-NVL72,它相较蓝线的提升就有 30 倍。这里比较有趣的其实是中间那根紫线,它表示的是啥呢?就是如果不改变 Hopper 基础架构,只是单纯把这个上代架构的芯片做大,以及两片 die 封装在一起,则它也能带来提升,只不过提升是相对有限的。也就是说光扩大 GPU 芯片的规模,成效并不显著。 这里黄仁勋的原话是“如果我们不改变 Hopper 架构,仅是造更大的芯片,用上 10TB/s 的片间互联,得到 2080 亿晶体管的巨大芯片”。这句话可能透露了 Blackwell 在处理器架构层面,相比上代 Hopper 的变动并不大:芯片层面着眼的主要应该就是 GPU 规模增大,以及增加先进封装(所以 PPT 上标注的紫线是 B200)。 那么 30 倍性能提升主要来自哪儿呢?毫无疑问,包括 Transformer 引擎对于 FP4 的支持,以及更重要的最新一代的 NVLink——不光是带宽 1.8TB/s(似乎高了 10+ 倍?),还有 SHARPv4 什么的。 而且我猜,对比的这张图里,看到的 H200 构成的系统,应该是更加传统的搭配了 x86,以及 PCIe 连接的方案。那么换用英伟达自己的 Grace CPU,搭配与 Blackwell GPU 之间的高速连接,处理器之间通信效率的显著提升,30 倍也就合情合理了。 其实 GTC 期间面向分析师有个 AI Architecture 的 Q&A 活动,我就一直在尝试举手想问问这个 30 倍性能提升是不是主要来自 NVLink,也就跨芯片通信方面的提升和优势,无奈一直没有被轮到。 一片 Grace CPU + 两片 Blackwell GPU 不过实际上英伟达的相关负责人在不同场合也做了一些解读,尤其是 Ian Buck(Hyperscale & HPC副总裁)在两场分析师 Q&A 会上明确提到了新一代 NVLink 是期望构建起更大的“NVLink domain”,我的理解就是一个高速互联的域内,容纳更多全连接(all-to-all)的 GPU(应该是 576 个),以适配现在的多模态、多 MoE 模型需求,像 GPT-4 这样的~ 换句话说,GB200-NVL72 作为一个系统,其实是这次英伟达推的重点。而且这也印证了,这个时代远不是靠摩尔定律就能支撑向前的了,甚至 more than Moore 也不行(你看不是用了先进封装么),系统层面的改良和优化也必须上才行......EDA、Foundry 厂普遍也都在倡导这样的观念~ 回过头来说 NVIDIA Research。上面说这一大堆的,和 NVIDIA Research 有啥关系呢? NVIDIA Research 在干啥? 其实 NVLink, NVSwitch 这类东西,都是出自 NVIDIA Research,而且是归总到“networks”这个大类中的。据 Bill Dally 所说,2011 年的时候,他去找老黄聊了聊要面向 HPC 开发 networking 技术的问题,老黄问他:“我们为什么要做 networking?我们不是一家开发 GPU 的公司吗。”不过最终黄仁勋还是做出了支持,而且是资金上 100% 的支持。 感觉就我们所处的这个时代,尤其近两年听英伟达在数据中心 GPU 方面的投入,数据交换和互联也算得上是英伟达的核心技术要素之一了。但在当年,这件事却并不是理所应当的。是不是还挺惊讶于时代变迁的?现在有实力的芯片厂商们,普通从系统层面入手,也显得很有道理——不知道未来游戏显卡会不会也变这样... 从大方向来看,NVIDIA Research 切分成了供给侧(Supply)和需求侧(Demand)。供给侧这边的技术是直接为 GPU 服务的,包括存储系统、编程系统、网络(networks)、架构、VLSI、电路什么的。需求侧则是指针对 GPU 的需求,包括几个图形技术相关的团队,几个 AI 团队,还有一些垂直业务方向,包括机器人、自动驾驶汽车、气候模拟等。 对英伟达现有业务熟悉的同学,应该很清楚图形、AI,以及上面提到的垂直领域小组研究,是非常清晰地反映到了英伟达现在发布的产品中的。 除了这些以外,NVIDIA Research 似乎还包含了两个机动小组。比如一个团队做所谓的“Moonshots”,当然肯定不是说的登月,据说 Volta 架构就是来自这里;还有个例子是光线追踪核心,也就是图形卡上的 RT core——当时从架构和图形团队找来了一群人,就开始讨论说怎么才能做实时光追。 研究之下就有了 TTU(tree traversal unit)树遍历单元,也就是用来做 BVH 遍历和三角形与光线相交测试加速的,“产品团队的人觉得这很好,它就变成了 RT core,用到了 Turing 这一代产品上。”Bill 说。 除了 Moonshots,另有一个“Study Group”小组,研究的东西更具未来向。比如说量子模拟相关的研究,最初是 2017, 2018 年前后有人提出了其发展潜力,甚至“替代 GPU”,随后成立量子研究小组。“然后我就从 NVIDIA Research 团队找了一帮物理学方向的 PhD,大概 10 个人,一起去研究量子技术发展到哪儿了,我们能做到怎样的参与度,将来会怎么发展。我们还写了一份很不错的报告呈交给了董事会。” “我们当时发现,这项研究要投入商用,真正对财务产生正向影响,还比较遥远。”Bill谈到,“现在其实也还是这样。但这对人们来说是个巨大的市场”,“模拟量子计算机是个巨大的市场,我们就开发了构建相关软件的策略,也就是现在 CuQuantum。”“我们实际是为那些淘金者(指正在搞量子计算研究的那波人)提供工具。现在这其实也是个很成功的业务了。” 有关 NVIDIA Research 本身还有一点值得一提,Bill 在开场的时候特意强调了他们衡量自己的工作成绩,绝对不是发表 paper 的多少。“公关(PR)可能对这类事情比较热衷,但我们还是希望真正对技术产生影响。”在 Bill 看来,同类科技企业的前沿科学研究团队存在两种典型的错误,其一是发一堆 paper,看起来是很成功的研究实验室,团队内部有来自不同领域的人才。“但这种团队和公司是脱节的,对公司而言根本不发挥什么作用。” 还有一种错误是“内部的项目都是由产品团队给予的资金支持”,这决定了“他们距离实际产品并不会很远”,“这些人在做的实际上就是产品开发,而不是研究。”而 NVIDIA Research 期望做到的,一方面是要拉远和产品之间的距离,另一方面也要对公司切实地产生影响。换句话说就是找寻两者间的平衡点。 所以 NVIDIA Research 有三条原则。我理解第一点是投资回报的合理性(这一条尚不能确定,现场没有听得很清楚);其二是研究需要对产品产生影响,“我们也写很多 paper,平均到人头,和其他任何研究实验室的产量一样多。但这不是我们的目标。目标还是要影响英伟达的产品”; 其三是要产品团队的人加入到研究项目中来。“我们以前将一项研究搞定,发表 paper,然后跟产品团队的人去聊。这时候就发现已经太晚了。如果我们真的要影响产品,还是需要他们在研究项目启动的第一天就加入进来。因为我们需要理解他们(产品开发)存在哪些限制,他们需要给产品加入些什么,以及还有兼容性相关的很多问题。” 谈两个技术转化,RTX 与 CuDNN 其实应该谈来自 NVIDIA Research 3 个典型的技术成果转化的,还有一个是 NVSwitch,文章第一部分已经先说了。所以这部分就谈另外俩 Bill 特别提到的技术转化吧,即 RTX 和 CuDNN。 就英伟达的市场宣传,RTX 我个人理解应该是一系列技术的集合。不过一般人将其定义窄化到了光线追踪,毕竟什么 GeForce RTX 2080 这类产品名称,最先强调的不就是光线追踪特性么。 Bill 说光线追踪的源起是一个小团队(好像原本是一家独立的公司),当时这个团队的负责人在开发能够在 GPU 上跑光线追踪的软件。英伟达发现以后就把这公司给收了,然后很快把负责人拉到了 Research 团队。软件成果最终是转化成了 OptiX 的,而且“重构(re-form)了我们的专业图形核心”。 “几年以后,我们纠集了一批光线追踪的专家。我们需要在当下去理解什么是好的光线追踪渲染。”即要把实时光追做到何种程度(听到似乎项目名称叫 100x Ray Tracing),“究竟该怎么做?我们最终发现需要几样不同的东西,首先就是转化成了 RT core 的 TTU(树遍历单元)”,“另外我们也增加了光线三角形相交单元”。 “但其实这还不够,可能让我们做到了 10x 吧。我们还是需要其他东西。所以接下来我们就决定,需要一种超采样技术,现在就叫 DLSS,只需要对低分辨率做光线追踪即可,超分以后得到 4 倍像素。”“不过我们真正需要的关键一环,现在是真的做到了”,“此前随 Turing 架构一起到来的 RT core 还是用于特效的(was used for effects),包括反射、阴影之类的东西。它还不是完整实时的 path trace(路径追踪)。 “《赛博朋克 2077》是首个完全路径追踪的 3A 游戏。如果你们没见过的话,真的应该去看一下,效果非常好。”相信关注 PC 和游戏的同学,对这部分应该如数家珍了。不过这里传递的一点是,RT core, DLSS, path trace 其实是来自 NVIDIA Research 的组合拳。 “最终,真正把我们带到那儿的,还是对于 Importance Sampling 这种方法的理解。如果一个场景内有百万条光线,你是不可能对每条光线做投射的。所以你需要决策对哪些做采样。”“我们做出了一种名为 ReSTIR 的新算法,最后以 RTXDI 技术名称落地,真正以高效的方式对光线的采样,投射更少的光线就能达成很高的画质。” “RT core,超采样(DLSS),以及有效的 Importance Sampiling,才让我们真正做到了 100x,真正做到了游戏中的实时光追。” 说完光追,再来谈 CuDNN,也就是 CUDA Deep Neural Network,当然就是用来做深度神经网络加速的库。了解 AI 的同学应该不陌生。Bill 说 2010 年前后,他跟一名同事一起吃早饭,当时就提到在互联网上找(识别)猫的事情。那个时候还需要 16000 颗 CPU 来做这件事。 “我就说 CPU 不行啊,我们应该让这样的东西跑在 GPU 上。”Bill 说道,“当时我们团队内的一名编程系统研究员也鼓励我这么做。最后出来的软件就是 CuDNN。”“其实这比 AlexNet 还早了 2 年。”“我们当时就意识到 AI 会是个影响深远的东西。我们就真的开始着手构建软件栈了。” “那个时间点放在 Kepler 架构上已经有点太晚了,所以我们着眼的是 Pascal、Maxwell,加入了一些特性;真正严肃对待是在 Volta 这一代上;到 Ada 平台,就是我们期望看到的了。”看看这个演进,要不怎么说英伟达现在股价的高涨不是一朝一夕之功呢。 再谈几个有趣的技术:硅光、用 AI 设计芯片、AIPC 上面这些其实还是更为普罗大众所知的东西,Bill 当天谈了 NVIDIA Research 旗下各小组的一些研究。受限于篇幅,无法一一介绍。这里给一些我个人觉得还挺有趣的技术研究。 首先聊聊电路方面的研究吧:因为我见识浅薄,之前一直以为 fabless 企业是不需要把投入放在半导体的电路层面的。不过 NVIDIA Research 还真是有个 Circuit Research 的团队,“让我们的 GPU 更好”。 比如说 short reach links(短距离连接)——很遗憾无法给你们看图,Grace Hopper 整颗芯片上,连接 Grace CPU 和 Hopper GPU 的就是这个 short reach links,也包括 HBM 内存连接。目前基于 TSV 做 die 堆叠的方案,已经实现了 0.1-0.5mm 距离内 0.1pJ/bit 的能耗水平。 这次新发布的 Blackwell,连接两片 die 的技术名称完全没听清(好像是 ISNRP,Incredibly Short Reach NP),能耗量级是 1-2mm 0.2pJ/bit。基于先进封装的片内通信能耗,和要走 PCIe 5 这种通道互联的量级差异起码有 20 倍以上。 Grace Hopper 和 Grace Blackwell 的 CPU 到 GPU 通信连接是多年前就完成的,能耗量级 10-15mm 1pJ/bit——这应该是一种走基板的通信了,虽然和 Blackwell 片内两片 die 互联不能比,但还是比 PCIe 5 要节能了 5 倍以上。 所以实际上,英伟达常年来也坚持给自家芯片的互联命名,还是有道理的。似乎这种事,在 fabless 企业内也只有英伟达、苹果这类企业做得到,互联的某些层级还是有自家的标准和技术在里头的。组成自有成套、成规模的生态就是任性啊... 还有 long reach links(长距离连接)——至少是芯片与芯片间(封装与封装之间)的传输了,这部分据说英伟达在考虑光通信(photonics),只不过现在成本和功耗都还不理想。但 Bill 认为让硅光成本降下来,降到可比肩铜(电传输)的程度还是有戏的,毕竟“铜差不多发展到头了”。 “目前我们正在努力去尝试波分复用(dense wavelength division multiplexing)技术”,“在传输芯片里用锥形激光源”,“对不同色光做调制,以每种色光较低的 bit 率做密集波分”,“达到每根 fiber 最高 TeraBits 带宽”;“接收端的芯片也有个环形谐振器(ring resonator),对色光做检测。”(这一段如果有描述错误的轻拍啊,我已经尽力把我听到的做我能理解的还原了) “这些现在已经在我们实验室里了,只不过还没准备好量产。”“不过我们有信心,最终可以把能耗降到 2pJ/bit 的量级,能耗和成本都能比肩电传输。” 这部分的第二个技术,我想谈一下借助生成式 AI 来做芯片设计的 ChipNeMo。黄仁勋在主题演讲里也提了一下。应该是去年 GPT 和生成式 AI 大火以后,下半年好像就陆续有研究团队说,借助于 ChatGPT 来设计芯片的,全程自己不需要写一行代码,单纯就是跟 GPT 各种聊,让它写,最后的芯片就能跑起来。 我个人是相信这类新闻的,因为我自己去年数据库概念这门课,最后交给老师的 project,几乎所有代码都是 ChatGPT 写的,虽然程序框架和设计肯定是我自己做的,而且也花了大量时间 debug。芯片设计,如果不是那么复杂的话,也是类似的——只不过和 ChatGPT 聊的人自己还是要具备相应的业务能力的。 去年我采访的一些 EDA 企业认为,做复杂芯片设计的话,这种方式还是异想天开。但起码协助芯片设计是能做到的嘛。ChipNeMo 是英伟达内部的一个,用于芯片设计辅助的生成式 AI,也是 NVIDIA Research 做的。 预训练互联网数据得到 70b/130b 参数规模的 Llama 2 基础模型;然后进行芯片设计专门的训练,据说给到了 48GB 的设计文档、RTL 代码之类的数据,都喂进去;最后再进行监督 fine-tune——得到 ChipNeMo 聊天模型。 在英伟达内部,ChipNeMo 的一部分职责是给一些初级水平的芯片设计者用,他们有问题就可以直接问 ChipNeMo 了。另外一个职责是,对 bug 报告做总结——硅工们发现了 bug 会记录下来,这类报告可能会非常复杂、也很长,对旁人来说也很难理解,ChipNeMo 是可以给出容易理解的总结的。另外 ChipNeMo 自己也能生成 Verilog,不过这就只供参考了。 再介绍个所谓的 Efficient AI 研究,据说是 NVIDIA Research 最近才成立的研究团队,致力于让 AI 跑得更高效。当然其中涵盖很多不同的技术,比如说剪枝、稀疏化什么的。其中一项研究成果是 AWQ(Activation-aware Weight Quantization)权重量化,某些网络权重甚至可以降到 2bit,“某些权重会比其他权重更重要;有时需要表达高分辨率,有时则只需要很低的分辨率...”,而这些优化会“让你的网络跑起来更高效”。 “我们也会主动去发现神经网络,去找到最高效的模型。”说得还是挺泛的啊,但总体要表达的都是让 AI 更为高效,这应该也是现在很多 GPU/AI 芯片公司在做的事情。 其中一个例子就是基于 AWQ,让 LLM 跑在边缘或者端侧设备上——对英伟达来说,现阶段最重要的主题,其实还不是 LLM 跑在 PC 上,而是跑在 Jetson Nano 这样的边缘平台上。不过 AI PC 肯定也是这其中的一个重要议题。好像过去大半年 Intel 中国研究院也在搞这个东西吧,毕竟大家都要推 AI PC。 最后再聊一个基于 DaaS(Data as a Service)的快速 GPU 存储访问的项目吧。对某些场景、某些系统来说,比如说电商的推荐系统,请求大量数据可能没办法一下都塞进主内存里。所以 NVIDIA Research 有个项目是把存储系统,直接挂到 GPU 上。 一般的传统方法是文件系统请求要通过 CPU,即便是 GPU Direct 也如此。GPU Direct 的数据路径是直接走往 GPU 内存的,但 IO 操作最后还是 CPU 来给存储设备发信号,让存储设备直接把数据给到 GPU。这里的问题还是 CPU 太慢,100 万 IOPS 量级。 英伟达已经有了个原型方案,似乎产品化已经很快了,用 DaaS 方法。在 CPU 初始化安全认证访问以后,CPU 好像就不在数据请求的回路中了,GPU 可以“directly queue”,请求 IO 设备,达成 50 倍的存储带宽。“它能让你进行细粒度的存储操作,这很关键。”“你可能不需要 4k block 数据获取,而是小块的数据,需求更高频的 IOPS,在不需要大量 over fetch 的情况下就能做到。” 篇幅太长了,更多的就不说了——从芯片聊到软件了(软件还是大篇幅)。其实还是有很多可以去谈的东西,比如说 Bill 提到最近在搞 Automatic Fusion,针对 DNN 程序的 kernel fusion,提高推理的效率——据说自动 kernel fusion 的效果远优于程序员手动 fuse。 还有各类编程系统研究——其实也就是把各种原本只能 CPU 跑的东西,实现 GPU 的加速计算;以及内部的多 die 实验研究,像 Grace Hopper, Grace Blackwell 之类就是 NVIDIA Research 大量研究迭代后的产物; 更多 AI 视觉生成类应用;地球数字孪生 Earth-2,以及气候、天气相关的高精度研究;汽车 ADAS 相关动态驾驶场景“自监督重构”的研究,在做名为 PARA-drive 的感知基础模型;以及用强化学习来设计 GPU 上的 NV-ENC 视频编码器等等等等... 可能对很多日常就一直在关注英伟达的同学来说,上面很多内容也不能算多新鲜。这里还有一些内容是我没写的,比如机器人、汽车的部分我基本都没写,一方面是我自己也不大感兴趣,另一方面是今年 GTC 其实机器人相关的更新是个重点——所以机器人后面我是打算另外写文章的。 期望这些东西大家还感兴趣吧。说再多 AI 要改变世界的废话都是无用功,这些东西都是在潜移默化中发生的。不知各位发现没有,英伟达自己内部就在大量应用 AI 技术,包括生成式 AI,用 AI 来做产品。自家芯片和系统驱动着 AI,然后 AI 应用又在推动芯片和系统设计与结构进步。还挺有趣的吧...
  • 热度 5
    2024-3-31 00:26
    201 次阅读|
    0 个评论
    第一篇转一个GPU的知识扫盲文 主要内容如下,具体内容是英文。 什么是GPU GPU(图形处理单元)是专为复杂和并行计算而设计的专用处理器,对于渲染图形和图像等任务至关重要。 与CPU(中央处理单元)不同,GPU针对高度并行的任务进行了优化,并与CPU一起工作以实现最佳性能。 GPU的历史 在1990年代末由NVIDIA和ATI(现为AMD)等公司主要为了游戏和娱乐而开发。 从渲染3D图形发展到支持可编程着色器,随后随着通用图形处理单元(GPGPU)的出现而用于科学研究。 GPU的工作原理 高度并行处理器,具有针对不同类型计算进行优化的标量和矢量核心。 利用专门的内存架构进行高吞吐量和低延迟处理。 GPU的常见组件和结构 核心组件包括图形处理集群(GPC)、流处理多处理器(SM)、CUDA核心和内存子系统。 用于射线追踪和机器学习等任务的专用单元。 GPU的应用 用于游戏、科学研究、机器学习、加密货币挖矿以及虚拟/增强现实应用。 GPU的价格 与其他计算机组件相比,GPU可能相对昂贵,这是由于它们在性能方面的关键作用。 二手市场价值根据品牌、型号、规格和市场需求等因素而变化。 概念澄清 GPU、图形卡和视频卡之间的区别。 集成GPU和独立GPU之间的区别。 CPU和GPU针对不同任务的不同优化。 CPU和GPU内存架构的对比。 GPU的挑战和未来 在性能和功耗之间平衡是一个关键挑战。 预计GPU将继续发展并变得更加专业化,在各种行业和应用中发挥关键作用。 Clearing Up the Confusion: Understanding GPUs and Their Role in Modern Computing What are GPUs Graphics Processing Units (GPUs) have become an essential part of modern computing, powering everything from gaming and entertainment to scientific research and artificial intelligence. A graphics processing unit (GPU) is a specialized type of processor that is designed to handle the complex and highly parallel computations required for rendering images and graphics. Originally developed for use in computer games and other visual applications, GPUs have evolved to become an essential tool for a wide range of industries, including artificial intelligence (AI), machine learning (ML), scientific research, and more. But GPU is not CPU. CPUs (central processing units) are general-purpose processors that are optimized for handling a wide range of tasks, such as running applications, managing the operating system, and handling input/output operations. The CPU is responsible for managing the system’s resources and executing instructions, including those required to boot the computer and start the operating system. Without a CPU, the computer would not be able to carry out these basic tasks and would be unable to function. GPUs, on the other hand, are optimized for highly parallel tasks such as rendering graphics, performing scientific simulations, and training neural networks for machine learning. While GPUs are powerful processing units, they are designed to work in tandem with CPUs to provide optimal performance. History of GPUs The first GPUs were developed in the late 1990s by companies such as NVIDIA and ATI (now part of AMD). These early GPUs were primarily designed for gaming and entertainment applications and were used to render complex 3D graphics and special effects in video games and movies. As the demand for high-quality graphics and video processing increased, so did the capabilities of GPUs. In the early 2000s, NVIDIA introduced its GeForce 3 series of GPUs, which were among the first to support programmable shaders. This allowed developers to create more realistic lighting and shadow effects in games and other applications. In the mid-2000s, GPUs began to be used for scientific research and other non-graphics applications. This was made possible by the introduction of General-Purpose Graphics Processing Units (GPGPUs), which allowed programmers to use the parallel processing capabilities of GPUs for a wide range of computational tasks. How GPUs Work At their core, GPUs are highly parallel processors that are optimized for performing many calculations at once. This is achieved through the use of thousands of small processing units called cores, which work together to perform complex calculations. In a typical GPU, there are two main types of cores: scalar cores and vector cores. Scalar cores are designed for performing simple arithmetic operations, while vector cores are optimized for performing more complex matrix operations, which are used in many scientific and engineering applications. To achieve high levels of parallelism, GPUs also use specialized memory architectures that are designed to deliver high bandwidth and low latency. This is important for applications that require large amounts of data to be processed quickly, such as video rendering or machine learning. Common GPUs Components and Structures The heart of the GPU is the graphics processing cluster (GPC). A GPU can contain multiple GPCs, each of which contains multiple streaming multiprocessors (SMs). Each SM consists of a number of CUDA cores, which are responsible for carrying out the GPU’s processing tasks. The GPCs are connected to the memory subsystem, which consists of high-speed memory chips and a memory controller. This memory is used to store data that is being processed by the GPU, such as textures and frames. The memory is typically accessed using a wide memory bus to ensure fast data transfer rates. In addition to the memory subsystem, the GPU contains a number of specialized processing units. For example, modern GPUs often include dedicated units for handling ray tracing, machine learning, and other specialized tasks. These units can be customized or reprogrammed to handle different types of processing tasks, depending on the needs of the application. The internal structure of a GPU is designed to provide high throughput and parallel processing capabilities, allowing it to handle complex graphics rendering, scientific simulations, and other tasks that require large amounts of processing power. As technology continues to evolve, the internal structure of GPUs is likely to become even more complex, with new features and components designed to handle increasingly sophisticated processing tasks. Applications of GPUs Gaming and Entertainment: GPUs are used to render high-quality graphics and special effects in video games, movies, and other entertainment applications. Scientific Research: GPUs are used for a wide range of scientific and engineering applications, including weather forecasting, molecular dynamics simulations, and more. Machine Learning and Artificial Intelligence: GPUs are essential for training and running complex neural networks, which are used in applications such as image and speech recognition, natural language processing, and more. Cryptocurrency Mining: GPUs are often used for mining cryptocurrencies such as Bitcoin and Ethereum, which require large amounts of computing power to perform complex calculations. Virtual and Augmented Reality: GPUs are used to render high-quality graphics and video in virtual and augmented reality applications, allowing users to immerse themselves in virtual environments. GPU Prices Compared to other components of a computer, GPUs can be relatively expensive. While the price of a GPU can vary widely depending on the specific model and brand, it is not uncommon for a high-end GPU to cost more than other components such as the CPU (Central Processing Unit), RAM (Random Access Memory), or storage drives. For gaming or professional computing like AI and cryptocurrency mining, the GPU is a critical component for performance and productivity, so their GPUs are high-end ones. Hence, the used high-end GPUs can have resale value, depending on the specific model, condition, and market demand. The value of a used GPU will generally depend on the same factors that affect the price of a new GPU, such as the brand, model, specifications, and age.Some high-end GPUs, such as those designed for gaming or professional use, may retain their value relatively well even after being used for a certain period. However, older or lower-end GPUs may have less resale value, especially if they are several generations old or have outdated specifications. It’s worth noting that the resale value of a used GPU can fluctuate based on market demand and other factors, so it’s important to research the current market prices and conditions before selling a used GPU. Anyway, it is always good to sell GPUs online than dump them as e-waste. Concept Clarifications GPU, Graphics Cards, and Video Cards are often used interchangeably, but there are some subtle differences. A GPU is the processing unit itself, while a graphics card or video card refers to the physical card that contains the GPU and its associated memory and other components. In other words, a graphics card or video card is the hardware that houses the GPU. Integrated GPU and discrete GPU refer to different types of GPUs. An integrated GPU is built into the processor (CPU) itself and shares the same memory as the CPU. It is generally less powerful than a discrete GPU, but can still handle basic graphics tasks such as video playback. A discrete GPU, on the other hand, is a separate card that is plugged into the computer’s motherboard and has its own dedicated memory. It is more powerful than an integrated GPU and is necessary for more demanding graphics tasks such as gaming, video editing, and scientific simulations. While GPUs and CPUs are both processors, they are optimized for different types of tasks. CPUs are designed to handle a wide range of general-purpose tasks, such as running applications, managing the operating system, and handling input/output operations. GPUs, on the other hand, are optimized for highly parallel tasks such as rendering graphics, performing scientific simulations, and training neural networks for machine learning. The main difference between computer (CPU) memory and GPU memory is their architecture. CPU memory is typically based on a hierarchical architecture with a small amount of fast cache memory closest to the CPU and larger, slower memory further away. This is designed to minimize the time it takes for the CPU to access frequently-used data. GPU memory, on the other hand, is designed to handle large amounts of data simultaneously and is based on a flat architecture with a large amount of memory that can be accessed quickly in parallel. This is necessary for applications such as video rendering and machine learning that require large amounts of data to be processed quickly. Challenges and Future of GPUs One of the main challenges facing GPU developers is the need to balance performance with power consumption. While GPUs are highly efficient at processing large amounts of data, they also consume a lot of power, which can be a limiting factor for applications that require low power consumption. To address this challenge, GPU manufacturers are developing new technologies such as low-power architectures, specialized circuits for specific applications, and more efficient memory architectures. Looking to the future, GPUs are expected to play an increasingly important role in a wide range of industries and applications. As the demand for high-performance computing continues to grow, it is likely that GPUs will continue to evolve and become even more specialized, making them an essential tool for the development and advancement of technology.
  • 热度 2
    2023-8-21 10:49
    1695 次阅读|
    0 个评论
    我体验了《黑神话:悟空》,告诉你什么配置能畅玩~
    周末在杭州云栖小镇体验了一把《黑神话:悟空》——就是那个受关注度极高,而且也算是在前期宣发就走出了国门的国产游戏。虽然咱也不是专业玩游戏的(毕竟年纪大了),但既然跟图形、AI、GPU 沾边,那还是有的聊...... 好不容易申请到 45 分钟的现场试玩,《黑神话:悟空》还是给我留下了非常深刻的印象:主要是画面方面的——玩法部分,咱也就是看个热闹。我这两年对游戏,包括这次试玩的《黑神话:悟空》感到格外惊叹的是,实时计算——或者叫即时演算的游戏画面,直观感受已经比多年前延后渲染(不是 TBR 那个延后 GPU 架构,而是像 Pixar 动画那种一帧就渲染一整天的延后...)的 CG 动画要好了。 恰好前不久结束的 SIGGRAPH 上, Jensen 黄虽然主要说生成式 AI,但在 SIGGRAPH 这种图形顶会上,势必是要谈一谈图形的(...)。他说 2018 年英伟达展示 Turing 架构 GPU,演示星球大战光追 demo,“这个演示可能大约包含了 50 万多边形,每像素 2 条光线(2 rays/pixel),每条光线几次少量折射。” “我们为之加入了环境光遮蔽、区域光源、镜面反射,整体是光栅化与光线追踪混合的一个 demo。以 720p 30fps 渲染,再用 DLSS 超分到 4K。这个演示在当时看来是非常惊艳的。”而今年英伟达 GTC 开发者大会上展示的 Racer RTX——就是那个玩具赛车 demo,已经包含“2.5 亿多边形、10 光线/像素,每条光线大约 10 次反射”,“整个场景是完完全全的光线路径追踪(path trace),没有用光栅化。以 1080p 30fps 渲染,再借助 DLSS 技术——每 8 个像素,就只有 1 个是渲染出来的,输出 4K 30fps。” 真就这 5 年间的事情。其实如果把时间拉长到 10 年,就《黑神话:悟空》跟《上古卷轴 5:天际》比比,就会发现人类半导体与图形技术的进步有多快——尤其看看《黑神话:悟空》游戏里的毛发、角色与光影的互动(或者也可以说,现在某些国产 3D 动画,比起 3D 游戏来是真的拉胯... 先聊聊游戏玩法 这次试玩总共给了 4 个场景,主要对应 4 场 BOSS 战,分别是百足虫、赤尻马猴、虎先锋、紫云山;应该也是为了展示 4 种不同风格的场景。比如说虎先锋场景,主战场是在怪石嶙峋围绕的露天血池里,对应白日青天那种炫目日光,搭配血池水面的反射——逆光和顺光看到的角色效果差别都很大;而赤尻马猴则是在雪地场景下;紫云山场景对应了落英缤纷的秋日,漫山枫叶红... 试玩中的紫云山场景 不过这几个场景也并非全然是 BOSS 战——在进入 BOSS 战前亦有其他扩展的地图与互动元素。比如紫云山场景前段就有个大概是刻意展示画质的路径,包括过吊桥、进山门之类的完整场景,最后才在一处空旷地遇见 BOSS。似乎紫云山场景有个简单的故事背景,路上也有对话的妖精——体验时间短,也没来得及细品;而赤尻马猴 BOSS 战前,也会遇见雪地里山路上的小怪,三两下敲死一个。 场景内的元素互动并不算多,花草树木随角色动作而摇摆、还有经过会飞起的鸟儿都算是常规,偶有一些对象(比如紫云山场景中的一个缸)可以被打碎——但是完全预设好的,没有做特定角度或力度的物理计算;虎先锋战斗在血池里,液体因激烈战斗而流动、溅起,以及成片飞溅到 camera 上,引发画面形变、折射都是绝对的 3A 质量。 另外,每个场景内都有一处上香的佛龛——类似战斗场景中的回复点(或可能的存档点),可在此处补充装备,并做法术技能的调整。 上香画面(注:图片为屏幕翻拍) 当然了,4 个限定场景的地图都有边界——所以试玩的版本当然谈不上“自由世界“——很多高处也去不了。 输入设备同时支持手柄和键鼠——试玩现场用手柄和键鼠的人,看起来是一半一半的。我只玩键鼠,就谈谈键鼠。常规玩法很多同学应该已经在此前的先导试玩视频里见过了,角色控制孙悟空(不知道后续会不会增加其他角色):鼠标左键多段棍术攻击——平 A 会积攒能量(似乎叫棍势段数,类似怒气槽),右键重击,以及长按右键蓄力释放能量。 Shift 按键是疾行,不过就我的体验来看,疾行无法加速到达目的地(好像由于后摇的存在,日常跑图不如普通行进速度),好像也无法连续使用;Ctrl 跳跃;空格键是闪避(应该没有受身);V, C, Z, X 对应不同的棍法......还有使用道具、补血之类的快捷按键就不多说了。 1,2,3,4 数字按键对应了不同的法术——前面谈到了,法术是需要到佛龛上香才能改变设定的,在习得的法术多的时候,选择快捷使用的那 4 个法术。 从设置法术的界面来看,4 个法术对应着“奇术”“身法”“毫毛”“变身”。除了消耗技能点,每个技能也有冷却时间。 举个例子,这次试玩准备的奇术包括了“定身术”,命中后可以让对方在短时间内无法行动;而“身法”如“聚形散气”,类似于脱离原躯壳并短时间无敌(替身术?),还有个“铜头铁臂”,是令角色石化——石化期间,若对手攻击,则会受到反震伤害...;“毫毛”这个法术孔位,试玩过程里好像是不可用的,可能我错过了(隐约记得有个分身术?);“变身”有个变身为狼妖的选项,按下以后,更像是换了一个角色上场,技能都不同了... 这些操作,就我这种手残党,做到娴熟战斗还是需要时间适应的。好在试玩流程前段,还给了几个简单的新手任务,加速上手。不过因为时间短,我又忙着拍照片和视频,来不及掌握连段和对应特定招式——有一些炫酷招式,是需要组合键触发的,包括多段平 A + 重击之类的。 角色装备界面,有头冠、衣甲、臂甲、腿甲、武器等项目(没错!不是只有金箍棒),感觉反馈到孙悟空身上,变化细节还是相当丰富的。比如说“百戏衬钱衣”这件衣甲,上面缀满铜板,这些铜板跟人物骨骼应该都不是连着的,角色做动作的时候还会往不同方向摆动;而“昆蚑戗金甲”则又是一身截然不同的行头...绝对不是换身皮肤这么简单。 装备选择画面(注:图片为屏幕翻拍) 连上香都有一个拔毫毛、插香的动作,我觉得这次开诚布公的试玩,还是相当有诚意的。而且限定场景内,我没发现如明显穿模之类的 BUG(去试玩之前还问了身边爱玩游戏的朋友,到底该怎么试玩,朋友说:你就拍穿模的画面下来...)。 再谈谈试玩体验 因为这次试玩主打的就是个 BOSS 战,所以其实也就是体验打起来如何。这方面说实话,我玩的游戏不算多,没什么发言权,下面的内容权当是小白谈主观感受,你们看看就好。 我觉得虽说当天到场排队准备试玩的人一波接一波的,但真正能把四个场景玩通关的应该不会很多,感觉试玩是设定了一定的强度的——如果你和 BOSS 纯粹硬杠,那肯定很快血槽空。然后一个倒地动画、一粒金色闪光从身体里飞出、大侠重来。尤其虎先锋场景是在血池里战斗,被拍死了,也是浮在血水上,死相凄惨。 所以起码试玩的难度,是略微考验微操作、走位之类的。因为技能有冷却时间,加上闪避、技能施放、棍术攻击都有明确的硬直时间,无敌时间又似乎很短,很多操作都考验执行时机。尤其空格键闪避,后摇期间无法再来一次空格键取消,那么乱按闪避也会很快被妖怪抓走... 试玩过程里,有个“喝酒”的补血操作。这个补血也不是随便按一下,血槽就立刻上涨的。它需要在没有攻击、也没有被攻击的时候,“抽空”“喝酒”(可以边走边喝)。喝酒也有个动画,期间也会被打断。加总在一起,其实是需要熟练操作以后,静下心来对抗的。我觉得有耐心的话,其实也没那么难——定身术、铜头铁臂这类技能设定还是很好。 (要问我有没有通关?我一个场景也没通关...还要被活动现场那么多人围观... 吐舌头... 现场都有人因为终于在 N 次尝试过后,终于挥棒打死了 BOSS 而欢呼的。期待正式版出个 Kid Mode 让我们这种小白享受纯硬杠的快感吧。(打击感这种玄学我就不说了,我觉得挺好,有你们所说“拳拳到肉”(棍棍到肉)的感觉... 过目难忘的游戏画面 《黑神话:悟空》最初有讨论度,甚至预告片在 YouTube 都那么高的点击量,很大程度都是画面具备国际水准所致。虽说最早放预告到现在隔了也算很久,今年初唱衰《黑神话:悟空》的声音不断,说它是动画版《三体》接班人的嘲讽都不少;但至少从我个人的角度来说,自己真正上手《黑神话:悟空》,还是感觉到画面的惊艳(可能我没见过什么世面吧,虚幻 5 引擎开发游戏大概都素质普遍很高... 我说几个给我印象比较深刻的点。首先是光影互动,我不确定试玩版《黑神话:悟空》是否应用了光线追踪(我猜应该有),但据我所知正式版是一定支持光线追踪的,毕竟不是说英伟达在游戏开发过程中,就和游戏科学紧密合作么?“RTX”里面的一大亮点就是光线追踪(另一大亮点是DLSS 3)。 光线追踪带来很重要的价值,就是和场景中环境光线的极强互动,阴影、高亮位置的变化。虎先锋场景下,进入血池和 BOSS 开打之前,孙悟空是站在暗处的,而虎先锋站在烈日下,这时候从 camera 视角看过去,孙悟空明显是个剪影,而 BOSS 所在位置亮度极高。 我觉得水面反射、丛林中的丁达尔效应什么的都还是其次。在进行战斗时,随着孙悟空与虎先锋的反复换位,它们在画面中呈现出的样貌,也在不停发生明暗变化。这种变化,应该是去除以前游戏在白昼下战斗时存在“塑料感”的关键。(当然精制的建模也非常重要,但我觉得这个是当代 3A 游戏的基本功) 另外,试玩的每个场景在初次进入时都有一段即时演算的过场。你们知道,过场动画一般都有明确的景深变化,主要是交代人物关系,和做画面局部内容的强调的,也加强了画面的质感,就像演电影一样。在这段过场结束,把画面控制权交给玩家时是无缝衔接。这种无缝衔接很重要的一点是景深的调整。 我注意到,在进入第三视角画面,要开始控制角色时,会有一小段时间,孙悟空作为 camera 所摄画面内的前景,会有个稍稍的虚化——然后渐渐锐化,后景远处略有虚化。这种景深的调整,是给人相当真实、沉浸的体验的。不像前些年的 3A 游戏,景深计算和最终效果呈现感觉都很假... 然后就是俗称“海飞丝”效果(好像具体是 NVIDIA Hairworks 毛发增强技术,似乎最早是 DirectX 11 做出支持的),体现在虎先锋这种毛发丰沛的妖怪身上,运镜时都觉得这一身柔顺的毛毛“纤毫毕现”,而且是软的,不是那种一坨一坨黏在一起又假又硬的毛发。遥想我学生时期玩《最终幻想 X》,都已经觉得提达的头发做挺好的了,和现如今真是天壤之别啊。这大概就是图形技术这么多年的推进吧。 别的就不多说了,什么雪地里的脚印、积雪深度;吊桥配合秋日里的落英缤纷,加上中国古典建筑韵味,美不胜收(而且貌似落下来的叶子真有几片掉在了地上,这在游戏里应该是绝少见的,不知道是不是我眼花);迎风飘动的野草、石头和建筑的纹理细节之类之类... 有关配置 我们试玩全程看不了机器配置(起码我没找到看的选项,试玩程序也无法简单切出),主机也是以黑盒子的形式放在地上的——虽然风扇有 RGB 灯能透出来,但咱也没有透视眼,看不见配置(后来听说可以看?)...我起初觉得这种官方试玩,怎么也得配上至少 GeForce RTX 4080 才像话。 而且试玩过程的确是丝般顺滑的,我感知上就是很流畅。虽然我知道 DLSS 3 有补帧能力,但也总觉得得 4080 才对得起这个画面吧。后来打听了一下,发现全场设备都是 GeForce RTX 4070 或 4070 Ti开DLSS 3稳定在4K 60fps,感觉现在的技术还是有点牛的(再说一遍,可能是我没见过世面... 其实我前一阵写 SIGGRAPH 的文章提过,老黄在这种图形顶会上,公然用大把时间去聊 AI 也还是有道理的。因为人家聊的就是 AI 如何帮助图形技术发展,或者用他的话来说,是 Turing 架构就首次实现了 AI 和图形的 unified。 DLSS 3 的本质,一方面是画面的 AI 超分——比如把 1080p 超分成 4K;另一方面是帧生成——不是渲染,而是在图形渲染流程后,来生成帧;当然还包括 NVIDIA Reflex,降低输入输出延迟的。 一个是静态画面升格(分辨率提高);一个是动态画面补足(比如 30fps 提升到 60fps)~是为 DLSS 3 完全体,而且是基于 AI 的。想想还真的很有趣,现在玩游戏,75% 的像素都是生成的,以及一半的帧都是生成的——所以老黄说,现在每 8 个像素,只有 1 个像素是渲染出来的,就这个理... 我觉得这个时代下,大家真的要拥抱 AI。不要停留在 Tensor core 不算图形算力堆料的古板思维上。这个逻辑其实很简单,如果靠堆晶体管,来暴力提升图形渲染能力,半导体技术进步真的赶不上人类的需求——就算做出来了,那种显卡你也买不起;这种时候,转换思路,堆 AI 算力,仰仗“生成”的像素和帧来提升实际游戏体验,对玩家、对英伟达、对游戏厂商来说,都是很划得来的生意。 起码我这种普通用户,就感知不出《黑神话:悟空》试玩过程里,那些 DLSS 3 生成的帧带来过什么“出戏”的观感影响,那这种技术就是值得去推广的。 最后总结一下吧,我个人对《黑神话:悟空》给出“强烈推荐”评级(最后说一遍,可能是我没见过世面...虽说现在对这游戏的质疑声浪还是挺大的,毕竟那么久之前出的预告,现在都还没上架。其实这次办这样一个活动,应该也是为了稳住市场信心吧。那作为一个非游戏区常规网民,我觉得《黑神话:悟空》值得等一等。 我还拍了些视频,打算做个小片子,但估计也要等很久...最后援引试玩时,屏幕上方一句话,“您体验的是本次试玩定制的内容,不代表产品发售时的最终内容与品质”,也作为本文的免责声明...(逃
  • 热度 4
    2023-7-19 13:52
    618 次阅读|
    0 个评论
    CoWoS是什么?
    真正的瓶颈 -CoWoS 《下一个风口?》 尽管 Nvidia 试图大幅增加产量,最高端的 Nvidia GPU H100 将一直售罄到明年第一季度。 真正的瓶颈是 CoWoS 容量。 CoWoS 是台积电的一种“ 2.5D ”封装技术,其中多个有源硅芯片 ( 通常的配置是逻辑和 HBM 堆栈)集成在无源硅中介层上。中介层充当顶部有源芯片的通信层。然后将内插器和有源硅连接到包含要放置在系统 PCB 上的 I/O 的封装基板。 HBM 和 CoWoS 是相辅相成的。 HBM 的高焊盘数和短迹线长度要求需要 2.5D 先进封装技术,如 CoWoS ,以实现这种密集的短连接,这在 PCB 甚至封装基板上是无法实现的。 CoWoS 是主流封装技术,以合理的成本提供最高的互连密度和最大的封装尺寸。由于目前几乎所有的 HBM 系统都封装在 Co Wos 上,所有先进的人工智能加速器都使用 HBM ,因此几乎所有领先的数据中心 GPU 都是台积电封装在 Co Wos 上的。 虽然 3D 封装技术,如台积电的 SoIC 可以直接在逻辑上堆叠芯片,但由于热量和成本,它对 HBM 没有意义。 SoIC 在互连密度方面处于不同的数量级,更适合用芯片堆叠来扩展片内缓存,这一点可以从 AMD 的 3D V-Cache 解决方案中看出。 AMD 的 Xilinx 也是多年前将多个 FPGA 芯片组合在一起的第一批 CoWoS 用户。 虽然还有一些其他应用程序使用 CoWoS ,例如网络 ( 其中一些用于网络 GPU 集群,如 Broadcom 的 Jericho3-AI) 、超级计算和 FPGA ,但绝大多数 CoWoS 需求来自人工智能。与半导体供应链的其他部分不同,其他主要终端市场的疲软意味着有足够的闲置空间来吸收 GPU 需求的巨大增长, CoWoS 和 HBM 已经是大多数面向人工智能的技术,因此所有闲置空间已在第一季度被吸收。随着 GPU 需求的爆炸式增长,供应链中的这些部分无法跟上并成为 GPU 供应的瓶颈。 台积电首席执行官魏哲家表示: “就在最近这两天,我接到一个客户的电话,要求大幅增加后端容量,特别是在 CoWoS 中。我们仍在评估这一点。” 台积电一直在为更多的封装需求做好准备,但可能没想到这一波生成式人工智能需求来得如此之快。 6 月,台积电宣布在竹南开设先进后端晶圆厂 6 。该晶圆厂占地 14.3 公顷足以容纳每年 100 万片晶圆的 3DFabric 产能。这不仅包括 CoWoS ,还包括 SoIC 和 InFO 技术。 有趣的是,该工厂比台积电其他封装工厂的总和还要大。虽然这只是洁净室空间,远未配备齐全的工具来实际提供如此大的容量,但很明显,台积电正在做好准备,预计对其先进封装解决方案的需求会增加。 确实有点帮助的是,在 Wafer 级别的扇出封装能力 ( 主要用于智能手机 SoC) 方面存在不足,其中一些可以在 CoWoS 过程中重新使用。特别是有一些重叠的过程,如沉积,电镀,反磨,成型,放置,和 RDL 形成。我们将通过 CoWoS 流程和所有的公司谁看到了积极的需求,因为它在一个后续部分。设备供应链中存在着有意义的转变。 还有来自英特尔、三星和 OSAT 的其他 2.5D 封装技术 ( 如 ASE 的 FOEB) , CoWoS 是唯一在大容量中使用的技术,因为 TSMC 是人工智能加速器的最主要的晶圆厂。甚至英特尔哈巴纳的加速器都是由台积电制造和封装的。 图片 CoWoS 变体 CoWoS 有几种变体,但原始 CoWoS-S 仍然是大批量生产中的唯一配置。这是如上所述的经典配置 : 逻辑芯片 +HBM 芯片通过带有 TSV 的硅基中介层连接。然后将中介层放置在有机封装基板上。 硅中介层的一项支持技术是一种称为 “掩模版缝合”的技术。由于光刻工具狭缝 / 扫描最大尺寸,芯片的最大尺寸通常为 26mmx33mm 。随着 GPU 芯片本身接近这一极限,并且还需要在其周围安装 HBM ,中介层需要很大,并且将远远超出这一标线极限。台积电解决了这与网线拼接,这使他们的模式插入式多次的刻线限制 ( 目前最高 3.5 倍与 AMD MI 300) 。 CoWOS-R 使用在具有再分布层( RDL )的有机衬底上,而不是硅中间层。这是一个成本较低的变体,牺牲的 I/O 密度,由于使用有机 RDL ,而不是基于硅的插入物。正如我们已经详细介绍的, AMD 的 MI300 最初是在 CoWoS-R 上设计的,但我们认为,由于翘曲和热稳定性问题, AMD 不得不使用 CoWoS-S 。 CoWoS-L 预计将在今年晚些时候推出,它采用 RDL 内插器,但包含有源和 / 或无源硅桥,用于嵌入内插器中的管芯到管芯互连。这是台积电的相当于英特尔的 EMIB 封装技术。这将允许更大的封装尺寸,因为硅插入物越来越难以扩展。 MI300 Co WO S-S 可能是一个单一的硅插入器的限制附近。 这将是更经济的更大的设计去与 CoWoS-L 台积电正在研究一个 CoWoS-L 的超级载波内插器在 6 倍分划板的大小。对于 CoWOS-S ,他们没有提到 4x reticle 之外的任何内容。这是因为硅插入物的脆弱性。这种硅中间层只有 100 微米厚,在工艺流程中,随着中间层尺寸的增大,存在分层或开裂的风险。 据 DigiTimes 报道,台积电正在加快与后端设备供应商的合作,因为它开始了晶圆基板上芯片( CoWoS )封装产能的扩张计划。英伟达在人工智能和高性能计算领域占据主导地位的计算 GPU 短缺,主要归因于台积电有限的 CoWoS 封装生产能力。 有报道称,台积电计划到 2023 年底将其目前的 CoWoS 产能从每月 8,000 片晶圆增加到每月 11,000 片晶圆,然后到 2024 年底增加到每月 14,500 至 16,600 片晶圆左右。此前有传言称英伟达将提高 CoWoS 产能到 2024 年底,每月生产 20,000 片晶圆。请记住,这些信息来自非官方来源,可能不准确。 Nvidia 、亚马逊、博通、思科和赛灵思等主要科技巨头都增加了对台积电先进 CoWoS 封装的需求,并消耗了他们能获得的每一片晶圆。据 DigiTimes 报道,台积电因此被迫重新订购必要的设备和材料。人工智能服务器的产量显着增加,刺激了对这些先进封装服务本已强烈的需求。 Nvidia 已经预订了台积电明年可用 CoWoS 产能的 40% 。然而,报告称,由于严重短缺, Nvidia 已开始探索与其二级供应商的选择,向 Amkor Technology 和联华电子 (UMC) 下订单,尽管这些订单相对较小。 台积电还开始实施战略变革,例如将其部分 InFO 产能从台湾北部龙潭工厂重新分配到台湾南部科学园区 (STSP) 。它还在快速推进龙潭基地的扩建。此外,台积电正在增加其内部 CoWoS 产量,同时将部分 OS 制造外包给其他封装和测试 (OSAT) 公司。例如, Siliconware Precision Industries (SPIL) 就是这一外包计划的受益者之一。 台积电前段时间开设了先进后端 Fab 6 工厂。它将扩大其前端 3D 堆叠 SoIC ( CoW 、 WoW )技术和后端 3D 封装方法( InFO 、 CoWoS )的先进封装产能。目前,该晶圆厂已为 SoIC 做好准备。先进后端 Fab 6 每年可处理约 100 万片 300 毫米晶圆,每年进行超过 1000 万小时的测试,其洁净室空间大于台积电所有其他先进封装设施的洁净室空间总和。 Advanced Backend Fab 6 最令人印象深刻的功能之一是广泛的五合一智能自动化物料搬运系统。该系统控制生产流程并立即检测缺陷,从而提高良率。这对于 AMD MI300 等复杂的多小芯片组件至关重要,因为封装缺陷会立即导致所有小芯片无法使用,从而导致重大损失。该工厂的数据处理能力比平均速度快 500 倍,可以维护全面的生产记录并跟踪其处理的每个芯片。 Nvidia 将 CoWoS 用于其非常成功的 A100 、 A30 、 A800 、 H100 和 H800 计算 GPU 。 AMD 的 Instinct MI100 、 Instinct MI200/MI200/MI250X 以及即将推出的 Instinct MI300 也使用 CoWoS 。 关注公众号“优特美尔商城”,获取更多电子元器件知识、电路讲解、型号资料、电子资讯,欢迎留言讨论。
  • 热度 5
    2023-6-9 10:15
    704 次阅读|
    0 个评论
    一文读懂汽车控制芯片(MCU)
    控制类芯片介绍 控制类芯片主要就是指 MCU ( Microcontroller Unit ),即微控制器,又叫单片机,是把 CPU 的主频与规格做适当缩减,并将存储器、定时器、 A/D 转换、时钟、 I/O 端口及串行通讯等多种功能模块和接口集成在单个芯片上,实现终端控制的功能,具有性能高、功耗低、可编程、灵活度高等优点。 车规级 MCU 示意图 汽车是 MCU 的一个非常重要的应用领域,据 IC Insights 数据, 2019 年全球 MCU 应用于汽车电子的占比约为 33% 。高端车型中每辆车用到的 MCU 数量接近 100 个,从行车电脑、液晶仪表,到发动机、底盘,汽车中大大小小的组件都需要 MCU 进行把控。早期,汽车中应用的主要是 8 位和 16 位 MCU ,但随着汽车电子化和智能化不断加强,所需要的 MCU 数量与质量也不断提高。当前, 32 位 MCU 在汽车 MCU 中的占比已经达到了约 60% ,其中 ARM 公司的 Cortex 系列内核,因其成本低廉,功耗控制优异,是各汽车 MCU 厂商的主流选择。 汽车 MCU 的主要参数包括工作电压、运行主频、 Flash 和 RAM 容量、定时器模块和通道数量、 ADC 模块和通道数量、串行通讯接口种类和数量、输入输出 I/O 口数量、工作温度、封装形式及功能安全等级等。 按 CPU 位数划分,汽车 MCU 主要可分为 8 位、 16 位和 32 位。随着工艺升级, 32 位 MCU 成本不断下降,目前已经成为主流,正在逐渐替代过去由 8/16 位 MCU 主导的应用和市场。 如果按应用领域划分,汽车 MCU 又可以分为车身域、动力域、底盘域、座舱域和智驾域。其中对于座舱域和智驾域来说, MCU 需要有较高的运算能力,并具有高速的外部通讯接口,比如 CAN FD 和以太网,车身域同样要求有较多的外部通讯接口数量,但对 MCU 的算力要求相对较低,而动力域和底盘域则要求更高的工作温度和功能安全等级。 底盘域控制芯片 底盘域是与汽车行驶相关,由传动系统、行驶系统、转向系统和制动系统共同构成,有五大子系统构成,分别为转向、制动、换挡、油门、悬挂系统,随着汽车智能化发展,智能汽车的感知识别、决策规划、控制执行为底盘域核心系统,线控转向和线控制动是面向自动驾驶执行端的核心零部件。 ( 1 )工作要求 底盘域 ECU 采用高性能、可升级的功能安全性平台,并支持传感器群集及多轴惯性传感器。基于这种应用场景,对底盘域 MCU 提出如下需求: · 高主频和高算力要求,主频不低于 200MHz 且算力不低于 300DMIPS · Flash 存储空间不低于 2MB ,具有代码 Flash 和数据 Flash 物理分区; · RAM 不低于 512KB ; · 高功能安全等级要求,可以达到 ASIL-D 等级; · 支持 12 位精度 ADC ; · 支持 32 位高精度,高同步性定时器; · 支持多通道 CAN-FD ; · 支持不低于 100M 以太网; · 可靠性不低于 AEC-Q100 Grade1 ; · 支持在线升级( OTA ); · 支持固件验证功能(国密算法); ( 2 )性能要求 · 内核部分: I. 内核主频:即内核工作时的时钟频率,用于表示内核数字脉冲信号震荡的速度,主频不能直接代表内核的运算速度。内核的运算速度还和内核的流水线、缓存、指令集等有关系; II. 算力:通常可以使用 DMIPS 来进行评估。 DMIPS 是指测量 MCU 综合的基准程序的测试程序时表现出来的相对性能高低的一个单位。 · 存储器参数: I. 代码存储器:用于存放代码的存储器; II. 数据存储器:用于存放数据的存储器; III.RAM :用于存放临时数据和代码的存储器。 · 通信总线:包括汽车专用总线和常规通信总线; · 高精度外设; · 工作温度; ( 3 )产业格局 由于不同车厂采用的电子电气架构会有所区别,对底盘域的零部件需求会有所不同。同一车厂的不同车型由于高低配置不同,对底盘域的 ECU 选择也会不一样。这些区分都会造成对底盘域的 MCU 需求量会有所不同。例如本田雅阁的底盘域 MCU 芯片使用了 3 颗,奥迪 Q7 采用了大约 11 颗底盘域的 MCU 芯片。 2021 年中国品牌乘用车产量约为 1000 万辆,其中单车底盘域 MCU 平均需求量为 5 颗,整个市场总量就达到了约 5000 万颗。整个底盘域 MCU 的主要供货商为英飞凌、恩智浦、瑞萨、 Microchip 、 TI 和 ST 。这五家国际半导体厂商在底盘域 MCU 的市场占比超过了 99% 。 ( 4 )行业壁垒 关键技术角度, EPS 、 EPB 、 ESC 等底盘域的零部件均与驾驶员的生命安全息息相关,因此对底盘域 MCU 的功能安全等级要求非常高,基本上都是 ASIL-D 等级的要求。这个功能安全等级的 MCU 国内属于空白。除了功能安全等级,底盘域零部件的应用场景对 MCU 的主频、算力、存储器容量、外设性能、外设精度等方面均有非常高的要求。底盘域 MCU 形成了非常高的行业壁垒,需要国产 MCU 厂商去挑战和攻破。 供应链方面,由于底盘域零部件需要控制芯片具有高主频、高算力的要求,这对晶圆生产的工艺和制程方面提出了比较高的要求。目前看来至少需要 55nm 以上的工艺才能满足 200MHz 以上的 MCU 主频要求。在这个方面国内的车规 MCU 产线尚不完备,没有达到量产级别。国际半导体厂商基本上都采用了 IDM 模式,在晶圆代工厂方面,目前只有台积电、联华电子和格芯具备相应能力。国内芯片厂商均为 Fabless 公司,在晶圆制造和产能保证上面具有挑战和一定的风险。 在自动驾驶等核心计算场景中,传统通用 CPU 由于计算效率低,难以适应 AI 计算要求, GPU 、 FPGA 以及 ASIC 等 AI 芯片凭借着自身特点,在边缘端和云端有着优异表现,应用更广。从技术趋势看,短期内 GPU 仍将是 AI 芯片主导,长期来看, ASIC 是终极方向。从市场趋势看,全球 AI 芯片需求将保持较快增长势头,云端、边缘芯片均具备较大增长潜力,预计未来 5 年市场增速将接近 50% ;国内芯片技术虽然基础较弱,但随着 AI 应用的快速落地, AI 芯片需求快速放量为本土芯片企业技术和能力成长创造机遇。自动驾驶对算力、时延和可靠性要求严苛,目前多使用 GPU+FPGA 的解决方案,后续随着算法的稳定以及数据驱动, ASIC 有望获得市场空间。 CPU 芯片上需要很多空间来进行分支预测与优化,保存各种状态以降低任务切换时的延时。这也使得其更适合逻辑控制、串行运算与通用类型数据运算。以 GPU 与 CPU 进行比较为例,与 CPU 相比, GPU 采用了数量众多的计算单元和超长的流水线,只有非常简单的控制逻辑并省去了 Cache 。而 CPU 不仅被 Cache 占据了大量空间,而且还有复杂的控制逻辑和诸多优化电路,相比之下计算能力只是很小的一部分。 动力域控制芯片 动力域控制器是一种智能化的动力总成管理单元。借助 CAN/FLEXRAY 实现变速器管理,电池管理,监控交流发电机调节,主要用于动力总成的优化与控制,同时兼具电气智能故障诊断智能节电、总线通信等功能。 ( 1 )工作要求 动力域控制 MCU 可支持 BMS 等动力方面的主要应用,其要求如下: · 高主频,主频 600MHz~800MHz · RAM 4MB · 高功能安全等级要求,可以达到 ASIL-D 等级; · 支持多通道 CAN-FD ; · 支持 2G 以太网; · 可靠性不低于 AEC-Q100 Grade1 ; · 支持固件验证功能(国密算法); ( 2 )性能要求 高性能:产品集成了 ARM Cortex R5 双核锁步 CPU 和 4MB 片内 SRAM 以支撑汽车应用对于算力和内存日益增长的需求。 ARM Cortex-R5F CPU 主频高达 800MHz 。高安全:车规可靠性标准 AEC-Q100 达到 Grade 1 级别, ISO26262 功能安全等级达到 ASIL D 。采用的双核锁步 CPU ,可以实现高达 99% 的诊断覆盖率。内置的信息安全模块集成真随机数生成器、 AES 、 RSA 、 ECC 、 SHA 以及符合国密商密相关标准的硬件加速器。这些信息安全功能的集成可以满足安全启动、安全通信、安全固件更新升级等应用的需求。 车身域控制芯片 车身域主要负责车身各种功能的控制。随着整车发展,车身域控制器也越来越多,为了降低控制器成本,降低整车重量,集成化需要把所有的功能器件,从车头的部分、车中间的部分和车尾部的部分如后刹车灯、后位置灯、尾门锁、甚至双撑杆统一集成到一个总的控制器里面。 车身域控制器一般集成 BCM 、 PEPS 、 TPMS 、 Gateway 等功能,也可拓展增加座椅调节、后视镜控制、空调控制等功能,综合统一管理各执行器,合理有效地分配系统资源。车身域控制器的功能众多,如下图所示,但不限于在此列举的功能。 车身域控制器功能表 ( 1 )工作要求 汽车电子对 MCU 控制芯片的主要诉求为更好的稳定性、可靠性、安全性、实时性等技术特性要求,以及更高的计算性能和存储容量,更低的功耗指标要求。车身域控制器从分散化的功能部署,逐渐过渡到集成所有车身电子的基础驱动、钥匙功能、车灯、车门、车窗等的大控制器,车身域控制系统设计综合了灯光、雨刮洗涤、中控门锁、车窗等控制, PEPS 智能钥匙、电源管理等,以及网关 CAN 、可扩展 CANFD 和 FLEXRAY 、 LIN 网络、以太网等接口和模块等多方面的开发设计技术。 在总体上讲,车身域上述各种控制功能对 MCU 主控芯片的工作要求主要体现在运算处理性能、功能集成度和通信接口,以及可靠性等方面。具体要求方面由于车身域不同功能应用场景的功能差异性较大,例如电动车窗、自动座椅、电动尾门等车身应用还存在高效电机控制方面的需求,这类车身应用要求 MCU 集成有 FOC 电控算法等功能。此外,车身域不同应用场景对芯片的接口配置需求也不尽相同。因此,通常需要根据具体应用场景的功能和性能要求,并在此基础上综合衡量产品性价比、供货能力与技术服务等因素进行车身域 MCU 选型。 ( 2 )性能要求 车身域控制类 MCU 芯片主要参考指标如下: · 性能: ARM Cortex-M4F @144MHz , 180DMIPS ,内置 8KB 指令 Cache 缓存,支持 Flash 加速单元执行程序 0 等待。 · 大容量加密存储器:高达 512K Bytes eFlash ,支持加密存储、分区管理及数据保护,支持 ECC 校验, 10 万次擦写次数, 10 年数据保持; 144K Bytes SRAM ,支持硬件奇偶校验。 · 集成丰富的通信接口:支持多路 GPIO 、 USART 、 UART 、 SPI 、 QSPI 、 I2C 、 SDIO 、 USB2.0 、 CAN 2.0B 、 EMAC 、 DVP 等接口。 · 集成高性能模拟器件:支持 12bit 5Msps 高速 ADC 、轨到轨独立运算放大器、高速模拟比较器、 12bit 1Msps DAC ;支持外部输入独立参考电压源,多通道电容式触摸按键;高速 DMA 控制器。 · 支持内部 RC 或外部晶体时钟输入、高可靠性复位。 · 内置可校准的 RTC 实时时钟,支持闰年万年历,闹钟事件,周期性唤醒。 · 支持高精度定时计数器。 · 硬件级安全特性:密码算法硬件加速引擎,支持 AES 、 DES 、 TDES 、 SHA1/224/256 , SM1 、 SM3 、 SM4 、 SM7 、 MD5 算法; Flash 存储加密,多用户分区管理( MMU ), TRNG 真随机数发生器, CRC16/32 运算;支持写保护( WRP ),多种读保护( RDP )等级( L0/L1/L2 );支持安全启动,程序加密下载,安全更新。 · 支持时钟失效监测,防拆监测。 · 具有 96 位 UID 及 128 位 UCID 。 · 高可靠工作环境: 1.8V ~ 3.6V/-40 ℃~ 105 ℃。 ( 3 )产业格局 车身域电子系统不论是对国外企业还是国内企业都处于成长初期。国外企业在如 BCM 、 PEPS 、门窗、座椅控制器等单功能产品上有深厚的技术积累,同时各大外企的产品线覆盖面较广,为他们做系统集成产品奠定了基础。而国内企业新能源车车身应用上具有一定优势。以 BYD 为例,在 BYD 的新能源车上,将车身域分为左右后三个域,重新布局和定义系统集成的产品。但是在车身域控制芯片方面, MCU 的主要供货商为仍然为英飞凌、恩智浦、瑞萨、 Microchip 、 ST 等国际芯片厂商,国产芯片厂商目前市场占有率低。 ( 4 )行业壁垒 从通信角度来看,存在传统架构 - 混合架构 - 最终的 Vehicle Computer Platform 的演变过程。这里面通信速度的变化,还有带高功能安全的基础算力的价格降低是关键,未来有可能逐步实现在基础控制器的电子层面兼容不同的功能。例如车身域控制器能够集成传统 BCM 、 PEPS 、纹波防夹等功能。相对来说,车身域控制芯片的技术壁垒要低于动力域、驾舱域等,国产芯片有望率先在车身域取得较大突破并逐步实现国产替代。近年来,国产 MCU 在车身域前后装市场已经有了非常良好的发展势头。 座舱域控制芯片 电动化、智能化、网联化加快了汽车电子电气架构向域控方向发展,座舱域也在从车载影音娱乐系统到智能座舱快速发展。座舱以人机交互界面呈现出来,但不管是之前的信息娱乐系统还是现在的智能座舱,除了有一颗运算速度强大的 SOC ,还需要一颗实时性高的 MCU 来处理与整车的数据交互。软件定义汽车、 OTA 、 Autosar 在智能座舱域的逐渐普及,使得对座舱域 MCU 资源要求也越来越高。具体体现在 FLASH 、 RAM 容量需求越来越大, PIN Count 需求也在增多,更复杂的功能需要更强的程序执行能力,同时还要有更丰富的总线接口。 ( 1 )工作要求 MCU 在座舱域主要实现系统电源管理、上电时序管理、网络管理、诊断、整车数据交互、按键、背光管理、音频 DSP/FM 模块管理、系统时间管理等功能。 MCU 资源要求: · 对主频和算力有一定要求,主频不低于 100MHz 且算力不低于 200DMIPS ; · Flash 存储空间不低于 1MB ,具有代码 Flash 和数据 Flash 物理分区; · RAM 不低于 128KB ; · 高功能安全等级要求,可以达到 ASIL-B 等级; · 支持多路 ADC ; · 支持多路 CAN-FD ; · 车规等级 AEC-Q100 Grade1 ; · 支持在线升级( OTA ), Flash 支持双 Bank ; · 需要有 SHE/HSM-light 等级及以上信息加密引擎,支持安全启动; · Pin Count 不低于 100PIN ; ( 2 )性能要求 · IO 支持宽电压供电( 5.5v~2.7v ), IO 口支持过压使用; 很多信号输入根据供电电池电压波动,存在过压输入情况, IO 口支持过压使用能提升系统稳定、可靠性。 · 存储器寿命: 汽车生命周期长达 10 年以上,因此汽车 MCU 程序存储、数据存储需要有更长的寿命。程序存储和数据存储需要有单独物理分区,其中程序存储擦写次数较少,因此 10K 即可,数据存储需要频繁擦写,需要有更大的擦写次数,参考 data flash 指标 100K, 15 年 (<1K) , 10 年 (<100K) 。 · 通信总线接口; 汽车上总线通信负荷量越来越高,因此传统 CAN 已不能满足通信需求,高速 CAN-FD 总线需求越来越高,支持 CAN-FD 逐渐成为 MCU 标配。 ( 3 )产业格局 目前国产智能座舱 MCU 占比还很低,主要供应商仍然是 NXP 、 Renesas 、 Infineon 、 ST 、 Microchip 等国际 MCU 厂商。国内有多家 MCU 厂商已在布局,市场表现还有待观察。 ( 4 )行业壁垒 智能座舱车规等级、功能安全等级相对不算太高,主要是 know how 方面的积累,需要不断的产品迭代和完善。同时由于国内晶圆厂有车规 MCU 产线的不多,制程也相对落后一些,若要实现全国产供应链需要一段时间的磨合,同时可能还存在成本更高的情况,与国际厂商竞争压力更大。 国产控制芯片应用情况 车载控制类芯片主要以车载 MCU 为主,国产龙头企业如紫光国微、华大半导体、上海芯钛、兆易创新、杰发科技、芯驰科技、北京君正、深圳曦华、上海琪埔维、国民技术等,均有车规级 MCU 产品序列,对标海外巨头产品,目前以 ARM 架构为主,也有部分企业开展了 RISC-V 架构的研发。 目前国产车载控制域芯片主要应用于汽车前装市场,在车身域、信息娱乐域实现了上车应用,而在底盘、动力域等领域,仍以海外意法半导体、恩智浦、德州仪器、微芯半导体等芯片巨头为主,国内仅有少数几家企业已实现量产应用。目前国内芯片厂商芯驰在 2022 年 4 月发布高性能控制芯片 E3 系列产品基于 ARM Cortex-R5F ,功能安全等级达到 ASIL D ,温度等级支持 AEC-Q100 Grade 1 , CPU 主频高达 800MHz ,具有高达 6 个 CPU 内核,是现有量产车规 MCU 中性能最高的产品,填补国内高端高安全级别车规 MCU 市场的空白,凭借高性能和高可靠性,可以用于 BMS 、 ADAS 、 VCU 、线控底盘、仪表、 HUD 、智能后视镜等核心车控领域。采用 E3 进行产品设计的客户已经超过 100 多家,包含广汽、吉利等。 关注公众号“优特美尔商城”,获取更多电子元器件知识、电路讲解、型号资料、电子资讯,欢迎留言讨论。
相关资源
  • 所需E币: 1
    时间: 2023-6-1 10:51
    大小: 48.27MB
    GPU与MATLAB混合编程-(国际信息工程先进技术译丛)-[韩]郑郁旭JungW.Suh&金英民Youngminkim
  • 所需E币: 1
    时间: 2023-4-4 09:41
    大小: 60.76MB
    GPU精粹-实时图形编程的技术、技巧和技艺
  • 所需E币: 1
    时间: 2023-4-4 09:41
    大小: 105.2MB
    GPU精粹2-高性能图形芯片和通用计算编程技巧
  • 所需E币: 1
    时间: 2023-4-4 09:47
    大小: 140.87MB
    GPU精粹3,HubertNguyen,清华大学出版社
  • 所需E币: 1
    时间: 2022-5-5 16:25
    大小: 2.98MB
    上传者: 西风瘦马
    GPU编程与CG语言之阳春白雪下里巴人.pdf
  • 所需E币: 5
    时间: 2021-9-19 10:42
    大小: 2.91MB
    上传者: ZHUANG
    VIS中电路模拟算法的GPU实现
  • 所需E币: 1
    时间: 2021-4-10 20:37
    大小: 11.3MB
    上传者: ZHUANG
    DSP和GPU在Android中的应用与研究
  • 所需E币: 3
    时间: 2020-12-14 15:29
    大小: 747.78KB
    上传者: sense1999
    深度学习中GPU和显存分析
  • 所需E币: 0
    时间: 2020-11-4 09:19
    大小: 1.88MB
    上传者: czd886
    一种基于可编程GPU的实时烟雾模拟算法研究
  • 所需E币: 5
    时间: 2020-8-9 18:50
    大小: 32.19MB
    上传者: VinayKIngle
    Nvidia如虎添翼
  • 所需E币: 2
    时间: 2020-5-8 18:18
    大小: 19KB
    上传者: 十次方
    当今汽车行业最受关注的话题之一是先进的驾驶辅助系统(ADAS),该系统可以多种方式帮助驾驶员处理潜在问题。它们可以为驾驶员提供视觉和听觉警告,也可以控制制动器、加速器和转向装置,使汽车远离危险。
  • 所需E币: 2
    时间: 2020-4-26 18:39
    大小: 394KB
    上传者: 十次方
    近几十年来,图形处理器(GPU)已从最初作为大型电玩的视频显示适配器演进为一个强大的计算中心,并且正在推动人工智能和机器学习的发展,包括从石油和天然气勘探到自然语言处理等众多领域的计算工作。如今,GPU正在自动驾驶和先进驾驶辅助系统(ADAS)技术的发展中扮演着越来越重要的作用。
  • 所需E币: 2
    时间: 2020-4-21 15:38
    大小: 28KB
    上传者: 十次方
    汽车行业是推动人工智能(AI)发展的重要行业之一,这是因为该行业致力于自动驾驶汽车和高级驾驶员辅助系统(ADAS)的泛在利益。汽车正在变得越来越智能,但是如果汽车行业要实现完全自动驾驶的目标,他们还有很长的路要走。尽管业界还在讨论实现全自动化所需的理想技术组合,但是有一点是明确的,那就是人工智能,尤其是神经网络将发挥重要作用。
  • 所需E币: 2
    时间: 2020-4-1 16:05
    大小: 67.5KB
    上传者: 十次方
    支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过
  • 所需E币: 4
    时间: 2019-12-24 11:02
    大小: 469KB
    上传者: 2iot
    现阶段平板电脑所采用的芯片组(SoC)与智能手机所采用的芯片并没有拉开太大的距离,也就是说在运算性能上平板电脑并不比主流的智能手机强多少。在操作系统大同的情况下,平板电脑除了拥有较大的屏幕,与智能手机间的硬件差距并不十分明显。平板电脑作为介于手机与笔记本之间的一种产物,也应该拥有介于手机与笔记本之间的硬件配置,这样才能使平板电脑持续稳定地发展下去,不然平板电脑将有可能被体积更小功能更为全面的智能手机所代替。在本页阅读全文(共7页)一、平板电脑ARM芯片概况   平板电脑大致上可以分为两种类型:传统型平板电脑和以iPad为代表的新一代平板电脑。传统“平板电脑”概念是由微软提出的,是指能够安装x86版本的Windows系统、Linux系统或MacOS系统的PC。由于X86架构功耗较高,势必造成了传统型平板电脑在续航及散热方面的表现不尽人意。2010年1月,苹果发布了iPad这款平板产品,掀起了新一代平板电脑的热潮,以iPad为代表的第二代平板产品虽然不属于微软提出的平板电脑概念范畴,但是这个名字已经广泛为大家所采用,因此我们可以将它们总结为新一代的平板电脑。[pic]平板电脑概念图   与传统平板电脑不同的是,新一代平板电脑大多采用ARM架构,这样就可避开能耗高的问题,在续航和散热方面有了很大改进。同时新一代平板电脑大部分搭载iOS、Android、webOS或者BlackBerryTabletOS系统,在界面交互性上优化不少,增加了用户的体验感。   在传统电脑领域,英特尔和AMD作为两大处理器巨头,统治了整个产业链多达数十年的时间。2010年新一代平板电脑出现以后,一定程度上对传统电脑产业造成了影响,使x86处理器的主导地位发生动摇。而整个平板电脑最核心最本质的硬件通用处理器部分,则是由一家较为低调的公司来设计并执行授权,它就是英国的ARM公司。[pic]ARM——AdvancedRISCMachines   ARM(AdvancedRI……