tag 标签: 生成式AI

相关帖子
相关博文
  • 热度 6
    2024-5-13 12:52
    974 次阅读|
    0 个评论
    听NV首席科学家谈英伟达内部的神秘团队,光追、AI都是他们做的
    - 本文首发于我个人的知乎专栏,眼见面包板专栏万年未更新了,把这篇文章转载过来 - 不知各位同学是否了解,很多大型科技公司,除了做要直接在市场上卖的产品,另外也搞前沿技术研究——虽然这个前沿还没有前瞻到与量产产品完全不相干的程度,但也算是一种近未来的技术投资。 比如之前我写过好些 Intel 在半导体制造方面的前瞻技术——其中的很多尚未真正走出实验室、成功量产。作为芯片、AI 领域的大热门,英伟达也有这样一个专门的团队或机构,名为 NVIDIA Research。出自 NVIDIA Research,最终走向产品化的东西典型如 OptiX、光线追踪算法和硬件、Volta 的 SM 架构、自动化 VLSI floorplan 工具、视频 Super Slow Motion、DLSS 和 DLAA 等等... 前不久英伟达 GTC 活动上,我也是第一次有机会听到英伟达首席科学家 Bill Dally 去谈 NVIDIA Research。虽然其实总体的干货也不算多,但起码是了解他们究竟在做什么的好机会,多少也算是增长见识吧;而且机会的确是很难得。 很遗憾的是,主题演讲的 PPT 不能对外分享~所以我只能极尽所能地把我听到的东西,用文字记录下来。国内应该算是独此一家吧(独此一人?很嚣张)...另外因为是前瞻技术,有错误的地方请轻拍;毕竟人家是前沿技术专家,我肯定无法做到什么都懂... GTC 2024 现场堪称接踵摩肩 承载 30 倍性能提升的 NVLink 在正式谈 NVIDIA Research 以前,先简单说两句 Blackwell GPU(不想看这个的,可以直接跳过这个小标题下的一整段)。这次 GTC 活动,最火的应该是 Blackwell GPU 芯片,及其构成的 B200、GB200、GB200 NVL72 等系统。这里面有道有趣的数学题。 其实在面向媒体的 pre-briefing 上,英伟达就提到了相比于前代 Hopper 架构 GPU 的 30 倍性能提升。不过这个 30 倍究竟是怎么来的呢?即便是加速器,芯片隔代 30 倍性能提升,这事儿别说摩尔定律不答应,先进封装不答应,苹果也不答应啊... GB200 NVL72 我在当时的报道文章里写了,Blackwell GPU 本身作为一颗芯片,考虑第二代 Transformer 引擎,以及两颗几乎达到 reticle-limit 光刻机限制尺寸的 chiplet,芯片层面的推理性能提升 5 倍,听起来是很合理的。 但是,到了系统层面,尤其是构成 GB200-NVL72 系统,也就是那个总共包含 72 颗 Blackwell GPU,及 36 颗 Grace CPU 的一整台设备,还有 NVSwitch 交换芯片的交换机,30 倍的推理性能提升就有意义了。那么芯片层面 5 倍性能提升,究竟是怎么在系统层面就做到 30 倍提升的呢? 其实黄仁勋在主题演讲中有给出下面这张 PPT: 这张折线图咋看呢?首先整个图表达的是 1.8 万亿参数的 GPT 模型推理。横坐标代表的是模型的可交互性,可以理解为 AI 模型和每个用户对话时,AI 模型的打字速度;纵坐标可以理解为数据中心的吞吐。我们总是期望这两个值越高越好。 基于不同的优化,包括数据并行、tensor 并行、管线并行等等相关优化和配置,找到它们在坐标轴中的不同位置——基于不同的配置、软件分布,也就有了不同的 run time。(如图中 TP2 EP8 DP4 代表跨 2 颗 GPU 做 tensor 并行,8 颗 GPU 做 expert 并行, 4 颗 GPU 做数据并行) 图中的蓝线表示的是 Hopper 架构的 H200 构成的相同 GPU 数量的系统(从 pre-briefing 给的资料来看,应该也是总共 72 颗 GPU,或者相似数量)在推理时的情况。 而绿线表示的就是 GB200-NVL72,它相较蓝线的提升就有 30 倍。这里比较有趣的其实是中间那根紫线,它表示的是啥呢?就是如果不改变 Hopper 基础架构,只是单纯把这个上代架构的芯片做大,以及两片 die 封装在一起,则它也能带来提升,只不过提升是相对有限的。也就是说光扩大 GPU 芯片的规模,成效并不显著。 这里黄仁勋的原话是“如果我们不改变 Hopper 架构,仅是造更大的芯片,用上 10TB/s 的片间互联,得到 2080 亿晶体管的巨大芯片”。这句话可能透露了 Blackwell 在处理器架构层面,相比上代 Hopper 的变动并不大:芯片层面着眼的主要应该就是 GPU 规模增大,以及增加先进封装(所以 PPT 上标注的紫线是 B200)。 那么 30 倍性能提升主要来自哪儿呢?毫无疑问,包括 Transformer 引擎对于 FP4 的支持,以及更重要的最新一代的 NVLink——不光是带宽 1.8TB/s(似乎高了 10+ 倍?),还有 SHARPv4 什么的。 而且我猜,对比的这张图里,看到的 H200 构成的系统,应该是更加传统的搭配了 x86,以及 PCIe 连接的方案。那么换用英伟达自己的 Grace CPU,搭配与 Blackwell GPU 之间的高速连接,处理器之间通信效率的显著提升,30 倍也就合情合理了。 其实 GTC 期间面向分析师有个 AI Architecture 的 Q&A 活动,我就一直在尝试举手想问问这个 30 倍性能提升是不是主要来自 NVLink,也就跨芯片通信方面的提升和优势,无奈一直没有被轮到。 一片 Grace CPU + 两片 Blackwell GPU 不过实际上英伟达的相关负责人在不同场合也做了一些解读,尤其是 Ian Buck(Hyperscale & HPC副总裁)在两场分析师 Q&A 会上明确提到了新一代 NVLink 是期望构建起更大的“NVLink domain”,我的理解就是一个高速互联的域内,容纳更多全连接(all-to-all)的 GPU(应该是 576 个),以适配现在的多模态、多 MoE 模型需求,像 GPT-4 这样的~ 换句话说,GB200-NVL72 作为一个系统,其实是这次英伟达推的重点。而且这也印证了,这个时代远不是靠摩尔定律就能支撑向前的了,甚至 more than Moore 也不行(你看不是用了先进封装么),系统层面的改良和优化也必须上才行......EDA、Foundry 厂普遍也都在倡导这样的观念~ 回过头来说 NVIDIA Research。上面说这一大堆的,和 NVIDIA Research 有啥关系呢? NVIDIA Research 在干啥? 其实 NVLink, NVSwitch 这类东西,都是出自 NVIDIA Research,而且是归总到“networks”这个大类中的。据 Bill Dally 所说,2011 年的时候,他去找老黄聊了聊要面向 HPC 开发 networking 技术的问题,老黄问他:“我们为什么要做 networking?我们不是一家开发 GPU 的公司吗。”不过最终黄仁勋还是做出了支持,而且是资金上 100% 的支持。 感觉就我们所处的这个时代,尤其近两年听英伟达在数据中心 GPU 方面的投入,数据交换和互联也算得上是英伟达的核心技术要素之一了。但在当年,这件事却并不是理所应当的。是不是还挺惊讶于时代变迁的?现在有实力的芯片厂商们,普通从系统层面入手,也显得很有道理——不知道未来游戏显卡会不会也变这样... 从大方向来看,NVIDIA Research 切分成了供给侧(Supply)和需求侧(Demand)。供给侧这边的技术是直接为 GPU 服务的,包括存储系统、编程系统、网络(networks)、架构、VLSI、电路什么的。需求侧则是指针对 GPU 的需求,包括几个图形技术相关的团队,几个 AI 团队,还有一些垂直业务方向,包括机器人、自动驾驶汽车、气候模拟等。 对英伟达现有业务熟悉的同学,应该很清楚图形、AI,以及上面提到的垂直领域小组研究,是非常清晰地反映到了英伟达现在发布的产品中的。 除了这些以外,NVIDIA Research 似乎还包含了两个机动小组。比如一个团队做所谓的“Moonshots”,当然肯定不是说的登月,据说 Volta 架构就是来自这里;还有个例子是光线追踪核心,也就是图形卡上的 RT core——当时从架构和图形团队找来了一群人,就开始讨论说怎么才能做实时光追。 研究之下就有了 TTU(tree traversal unit)树遍历单元,也就是用来做 BVH 遍历和三角形与光线相交测试加速的,“产品团队的人觉得这很好,它就变成了 RT core,用到了 Turing 这一代产品上。”Bill 说。 除了 Moonshots,另有一个“Study Group”小组,研究的东西更具未来向。比如说量子模拟相关的研究,最初是 2017, 2018 年前后有人提出了其发展潜力,甚至“替代 GPU”,随后成立量子研究小组。“然后我就从 NVIDIA Research 团队找了一帮物理学方向的 PhD,大概 10 个人,一起去研究量子技术发展到哪儿了,我们能做到怎样的参与度,将来会怎么发展。我们还写了一份很不错的报告呈交给了董事会。” “我们当时发现,这项研究要投入商用,真正对财务产生正向影响,还比较遥远。”Bill谈到,“现在其实也还是这样。但这对人们来说是个巨大的市场”,“模拟量子计算机是个巨大的市场,我们就开发了构建相关软件的策略,也就是现在 CuQuantum。”“我们实际是为那些淘金者(指正在搞量子计算研究的那波人)提供工具。现在这其实也是个很成功的业务了。” 有关 NVIDIA Research 本身还有一点值得一提,Bill 在开场的时候特意强调了他们衡量自己的工作成绩,绝对不是发表 paper 的多少。“公关(PR)可能对这类事情比较热衷,但我们还是希望真正对技术产生影响。”在 Bill 看来,同类科技企业的前沿科学研究团队存在两种典型的错误,其一是发一堆 paper,看起来是很成功的研究实验室,团队内部有来自不同领域的人才。“但这种团队和公司是脱节的,对公司而言根本不发挥什么作用。” 还有一种错误是“内部的项目都是由产品团队给予的资金支持”,这决定了“他们距离实际产品并不会很远”,“这些人在做的实际上就是产品开发,而不是研究。”而 NVIDIA Research 期望做到的,一方面是要拉远和产品之间的距离,另一方面也要对公司切实地产生影响。换句话说就是找寻两者间的平衡点。 所以 NVIDIA Research 有三条原则。我理解第一点是投资回报的合理性(这一条尚不能确定,现场没有听得很清楚);其二是研究需要对产品产生影响,“我们也写很多 paper,平均到人头,和其他任何研究实验室的产量一样多。但这不是我们的目标。目标还是要影响英伟达的产品”; 其三是要产品团队的人加入到研究项目中来。“我们以前将一项研究搞定,发表 paper,然后跟产品团队的人去聊。这时候就发现已经太晚了。如果我们真的要影响产品,还是需要他们在研究项目启动的第一天就加入进来。因为我们需要理解他们(产品开发)存在哪些限制,他们需要给产品加入些什么,以及还有兼容性相关的很多问题。” 谈两个技术转化,RTX 与 CuDNN 其实应该谈来自 NVIDIA Research 3 个典型的技术成果转化的,还有一个是 NVSwitch,文章第一部分已经先说了。所以这部分就谈另外俩 Bill 特别提到的技术转化吧,即 RTX 和 CuDNN。 就英伟达的市场宣传,RTX 我个人理解应该是一系列技术的集合。不过一般人将其定义窄化到了光线追踪,毕竟什么 GeForce RTX 2080 这类产品名称,最先强调的不就是光线追踪特性么。 Bill 说光线追踪的源起是一个小团队(好像原本是一家独立的公司),当时这个团队的负责人在开发能够在 GPU 上跑光线追踪的软件。英伟达发现以后就把这公司给收了,然后很快把负责人拉到了 Research 团队。软件成果最终是转化成了 OptiX 的,而且“重构(re-form)了我们的专业图形核心”。 “几年以后,我们纠集了一批光线追踪的专家。我们需要在当下去理解什么是好的光线追踪渲染。”即要把实时光追做到何种程度(听到似乎项目名称叫 100x Ray Tracing),“究竟该怎么做?我们最终发现需要几样不同的东西,首先就是转化成了 RT core 的 TTU(树遍历单元)”,“另外我们也增加了光线三角形相交单元”。 “但其实这还不够,可能让我们做到了 10x 吧。我们还是需要其他东西。所以接下来我们就决定,需要一种超采样技术,现在就叫 DLSS,只需要对低分辨率做光线追踪即可,超分以后得到 4 倍像素。”“不过我们真正需要的关键一环,现在是真的做到了”,“此前随 Turing 架构一起到来的 RT core 还是用于特效的(was used for effects),包括反射、阴影之类的东西。它还不是完整实时的 path trace(路径追踪)。 “《赛博朋克 2077》是首个完全路径追踪的 3A 游戏。如果你们没见过的话,真的应该去看一下,效果非常好。”相信关注 PC 和游戏的同学,对这部分应该如数家珍了。不过这里传递的一点是,RT core, DLSS, path trace 其实是来自 NVIDIA Research 的组合拳。 “最终,真正把我们带到那儿的,还是对于 Importance Sampling 这种方法的理解。如果一个场景内有百万条光线,你是不可能对每条光线做投射的。所以你需要决策对哪些做采样。”“我们做出了一种名为 ReSTIR 的新算法,最后以 RTXDI 技术名称落地,真正以高效的方式对光线的采样,投射更少的光线就能达成很高的画质。” “RT core,超采样(DLSS),以及有效的 Importance Sampiling,才让我们真正做到了 100x,真正做到了游戏中的实时光追。” 说完光追,再来谈 CuDNN,也就是 CUDA Deep Neural Network,当然就是用来做深度神经网络加速的库。了解 AI 的同学应该不陌生。Bill 说 2010 年前后,他跟一名同事一起吃早饭,当时就提到在互联网上找(识别)猫的事情。那个时候还需要 16000 颗 CPU 来做这件事。 “我就说 CPU 不行啊,我们应该让这样的东西跑在 GPU 上。”Bill 说道,“当时我们团队内的一名编程系统研究员也鼓励我这么做。最后出来的软件就是 CuDNN。”“其实这比 AlexNet 还早了 2 年。”“我们当时就意识到 AI 会是个影响深远的东西。我们就真的开始着手构建软件栈了。” “那个时间点放在 Kepler 架构上已经有点太晚了,所以我们着眼的是 Pascal、Maxwell,加入了一些特性;真正严肃对待是在 Volta 这一代上;到 Ada 平台,就是我们期望看到的了。”看看这个演进,要不怎么说英伟达现在股价的高涨不是一朝一夕之功呢。 再谈几个有趣的技术:硅光、用 AI 设计芯片、AIPC 上面这些其实还是更为普罗大众所知的东西,Bill 当天谈了 NVIDIA Research 旗下各小组的一些研究。受限于篇幅,无法一一介绍。这里给一些我个人觉得还挺有趣的技术研究。 首先聊聊电路方面的研究吧:因为我见识浅薄,之前一直以为 fabless 企业是不需要把投入放在半导体的电路层面的。不过 NVIDIA Research 还真是有个 Circuit Research 的团队,“让我们的 GPU 更好”。 比如说 short reach links(短距离连接)——很遗憾无法给你们看图,Grace Hopper 整颗芯片上,连接 Grace CPU 和 Hopper GPU 的就是这个 short reach links,也包括 HBM 内存连接。目前基于 TSV 做 die 堆叠的方案,已经实现了 0.1-0.5mm 距离内 0.1pJ/bit 的能耗水平。 这次新发布的 Blackwell,连接两片 die 的技术名称完全没听清(好像是 ISNRP,Incredibly Short Reach NP),能耗量级是 1-2mm 0.2pJ/bit。基于先进封装的片内通信能耗,和要走 PCIe 5 这种通道互联的量级差异起码有 20 倍以上。 Grace Hopper 和 Grace Blackwell 的 CPU 到 GPU 通信连接是多年前就完成的,能耗量级 10-15mm 1pJ/bit——这应该是一种走基板的通信了,虽然和 Blackwell 片内两片 die 互联不能比,但还是比 PCIe 5 要节能了 5 倍以上。 所以实际上,英伟达常年来也坚持给自家芯片的互联命名,还是有道理的。似乎这种事,在 fabless 企业内也只有英伟达、苹果这类企业做得到,互联的某些层级还是有自家的标准和技术在里头的。组成自有成套、成规模的生态就是任性啊... 还有 long reach links(长距离连接)——至少是芯片与芯片间(封装与封装之间)的传输了,这部分据说英伟达在考虑光通信(photonics),只不过现在成本和功耗都还不理想。但 Bill 认为让硅光成本降下来,降到可比肩铜(电传输)的程度还是有戏的,毕竟“铜差不多发展到头了”。 “目前我们正在努力去尝试波分复用(dense wavelength division multiplexing)技术”,“在传输芯片里用锥形激光源”,“对不同色光做调制,以每种色光较低的 bit 率做密集波分”,“达到每根 fiber 最高 TeraBits 带宽”;“接收端的芯片也有个环形谐振器(ring resonator),对色光做检测。”(这一段如果有描述错误的轻拍啊,我已经尽力把我听到的做我能理解的还原了) “这些现在已经在我们实验室里了,只不过还没准备好量产。”“不过我们有信心,最终可以把能耗降到 2pJ/bit 的量级,能耗和成本都能比肩电传输。” 这部分的第二个技术,我想谈一下借助生成式 AI 来做芯片设计的 ChipNeMo。黄仁勋在主题演讲里也提了一下。应该是去年 GPT 和生成式 AI 大火以后,下半年好像就陆续有研究团队说,借助于 ChatGPT 来设计芯片的,全程自己不需要写一行代码,单纯就是跟 GPT 各种聊,让它写,最后的芯片就能跑起来。 我个人是相信这类新闻的,因为我自己去年数据库概念这门课,最后交给老师的 project,几乎所有代码都是 ChatGPT 写的,虽然程序框架和设计肯定是我自己做的,而且也花了大量时间 debug。芯片设计,如果不是那么复杂的话,也是类似的——只不过和 ChatGPT 聊的人自己还是要具备相应的业务能力的。 去年我采访的一些 EDA 企业认为,做复杂芯片设计的话,这种方式还是异想天开。但起码协助芯片设计是能做到的嘛。ChipNeMo 是英伟达内部的一个,用于芯片设计辅助的生成式 AI,也是 NVIDIA Research 做的。 预训练互联网数据得到 70b/130b 参数规模的 Llama 2 基础模型;然后进行芯片设计专门的训练,据说给到了 48GB 的设计文档、RTL 代码之类的数据,都喂进去;最后再进行监督 fine-tune——得到 ChipNeMo 聊天模型。 在英伟达内部,ChipNeMo 的一部分职责是给一些初级水平的芯片设计者用,他们有问题就可以直接问 ChipNeMo 了。另外一个职责是,对 bug 报告做总结——硅工们发现了 bug 会记录下来,这类报告可能会非常复杂、也很长,对旁人来说也很难理解,ChipNeMo 是可以给出容易理解的总结的。另外 ChipNeMo 自己也能生成 Verilog,不过这就只供参考了。 再介绍个所谓的 Efficient AI 研究,据说是 NVIDIA Research 最近才成立的研究团队,致力于让 AI 跑得更高效。当然其中涵盖很多不同的技术,比如说剪枝、稀疏化什么的。其中一项研究成果是 AWQ(Activation-aware Weight Quantization)权重量化,某些网络权重甚至可以降到 2bit,“某些权重会比其他权重更重要;有时需要表达高分辨率,有时则只需要很低的分辨率...”,而这些优化会“让你的网络跑起来更高效”。 “我们也会主动去发现神经网络,去找到最高效的模型。”说得还是挺泛的啊,但总体要表达的都是让 AI 更为高效,这应该也是现在很多 GPU/AI 芯片公司在做的事情。 其中一个例子就是基于 AWQ,让 LLM 跑在边缘或者端侧设备上——对英伟达来说,现阶段最重要的主题,其实还不是 LLM 跑在 PC 上,而是跑在 Jetson Nano 这样的边缘平台上。不过 AI PC 肯定也是这其中的一个重要议题。好像过去大半年 Intel 中国研究院也在搞这个东西吧,毕竟大家都要推 AI PC。 最后再聊一个基于 DaaS(Data as a Service)的快速 GPU 存储访问的项目吧。对某些场景、某些系统来说,比如说电商的推荐系统,请求大量数据可能没办法一下都塞进主内存里。所以 NVIDIA Research 有个项目是把存储系统,直接挂到 GPU 上。 一般的传统方法是文件系统请求要通过 CPU,即便是 GPU Direct 也如此。GPU Direct 的数据路径是直接走往 GPU 内存的,但 IO 操作最后还是 CPU 来给存储设备发信号,让存储设备直接把数据给到 GPU。这里的问题还是 CPU 太慢,100 万 IOPS 量级。 英伟达已经有了个原型方案,似乎产品化已经很快了,用 DaaS 方法。在 CPU 初始化安全认证访问以后,CPU 好像就不在数据请求的回路中了,GPU 可以“directly queue”,请求 IO 设备,达成 50 倍的存储带宽。“它能让你进行细粒度的存储操作,这很关键。”“你可能不需要 4k block 数据获取,而是小块的数据,需求更高频的 IOPS,在不需要大量 over fetch 的情况下就能做到。” 篇幅太长了,更多的就不说了——从芯片聊到软件了(软件还是大篇幅)。其实还是有很多可以去谈的东西,比如说 Bill 提到最近在搞 Automatic Fusion,针对 DNN 程序的 kernel fusion,提高推理的效率——据说自动 kernel fusion 的效果远优于程序员手动 fuse。 还有各类编程系统研究——其实也就是把各种原本只能 CPU 跑的东西,实现 GPU 的加速计算;以及内部的多 die 实验研究,像 Grace Hopper, Grace Blackwell 之类就是 NVIDIA Research 大量研究迭代后的产物; 更多 AI 视觉生成类应用;地球数字孪生 Earth-2,以及气候、天气相关的高精度研究;汽车 ADAS 相关动态驾驶场景“自监督重构”的研究,在做名为 PARA-drive 的感知基础模型;以及用强化学习来设计 GPU 上的 NV-ENC 视频编码器等等等等... 可能对很多日常就一直在关注英伟达的同学来说,上面很多内容也不能算多新鲜。这里还有一些内容是我没写的,比如机器人、汽车的部分我基本都没写,一方面是我自己也不大感兴趣,另一方面是今年 GTC 其实机器人相关的更新是个重点——所以机器人后面我是打算另外写文章的。 期望这些东西大家还感兴趣吧。说再多 AI 要改变世界的废话都是无用功,这些东西都是在潜移默化中发生的。不知各位发现没有,英伟达自己内部就在大量应用 AI 技术,包括生成式 AI,用 AI 来做产品。自家芯片和系统驱动着 AI,然后 AI 应用又在推动芯片和系统设计与结构进步。还挺有趣的吧...
  • 热度 2
    2024-4-10 13:41
    1029 次阅读|
    1 个评论
    科技云报道原创。 人类历史的叙述与技术进步的影响深深交织在一起。 迄今为止,每一次工业革命都彻底改变了我们社会的轮廓,引入了机械化、大规模生产和数字化,并重新定义了人类生存的规范。 自2022年11月30日OpenAI发布ChatGPT以来,从GPT3.5发展到如今的GPT4.0、Claude3、Gemini、Sora,微软、谷歌、亚马逊等国际科技巨头先后入场,以及华为(盘古)、腾讯(混元)、百度(文心)、阿里(通义)等中国玩家不断加入,科技创新正以前所未有的速度拉开了第五次工业革命的序幕,成为重塑产业创新和经济增长模式的重要力量。 今年两会期间,“新质生产力”成为出现频率最高的热词。2024年政府工作报告将“大力推进现代化产业体系建设,加快发展新质生产力”作为第一大任务。 “人工智能+”行动的提出,预示着AI技术将进一步与实体经济、传统产业乃至社会治理等领域深度融合,形成新型生产力形态,推动经济社会高质量发展。 面对AI在提升生产力方面带来的巨大想象空间和更多未知,中国AI准备好了吗? 新质生产之“力” 当前,中国大力开展“人工智能+”行动,已初步建成比较全面的AI产业支撑体系。作为新质生产力重要的驱动引擎,“人工智能+”行动将在撬动新质生产力发展发挥着重要的作用。 中国信通院数据显示,2023年中国AI核心产业规模达到5787亿元,相关企业数量达4482家。 多方数据显示,中国AI产业链已覆盖芯片、算法、数据、平台、应用等上下游关键环节,细分领域不断取得突破,目前在AI和机器人等关键未来产业领域具备国际竞争力。 从形态看,AI不再是单一的产业、单一的集群,已经成为宏观经济新动能的内核驱动力。ChatGPT推出以来,其对经济和产业的变革影响力正逐渐增强。 ChatGPT实现了从“企业产品”到“产业工具”的跨越,从创新探索到生产力赋能的跨越。 2023年被视为中国大模型的发展元年,包括中国头部科技企业(阿里、百度、腾讯、华为、字节等)、新兴创业公司(百川智能、智谱、MiniMax等)、传统AI企业(科大讯飞、商汤科技等)以及高校研究院(复旦大学、中科院等)等都在加速大模型领域的投入。 工信部赛迪研究院的数据显示,2023年我国大模型市场规模将达到132.3亿元,增长率将达到110%。 目前,我国已有超过19个语言大模型研发厂商,从模型参数数量上看,根据Info Q发布的《大语言模型综合能力测评报告2023》,发布大于百亿级别参数规模的模型的国内企业已达到15家。 据专家预测,2035年生成式AI有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元。 在大模型产品百花齐放的当下,大模型实现了计算机能力从“搜索”到“认知与学习”,再以进一步发展为“行动与解决方案”层面。 由于创业门槛高,中国的大模型创业者很快就意识到,基础大模型未来可能是少数几家寡头的游戏,更多的机会蕴藏在应用层当中。 在大模型的首年,“第一幕”是从技术出发,发现了基础大模型这个新的“锤子”,目前市场正在进入“第二幕”,将端到端地解决人类问题。也就是说,需要拿着锤子找钉子。 事实上,正是基础大模型的发展为应用层的繁荣提供了必要的条件,也让聚焦于垂直应用的AI创业公司的成本大大降低。 越来越多开源大模型的出现,让创业公司不必自己投入大量资源训练模型,可以在这些开源大模型的基础之上,利用自己积累的行业数据进行微调,从而形成满足特定任务的应用。 业内的一个共识是,中国在基础大模型方面不具有显著优势,但可以在应用层方面另辟蹊径。 中国拥有庞大的市场和用户基础,更容易获取大量的用户数据和应用场景,能为大模型的应用提供丰富的数据资源。 同时,多样化的场景也为大模型应用提供了广阔的空间,例如在智能客服、智能推荐、智能翻译等领域,中国大模型已经取得了显著的成果。 从“狂热”到“理性” 尽管大多数人仍然看好AI的前景,但是投资人却越来越谨慎。尤其是在国内,AI热潮似乎以超乎想象的速度回归理性。除了“谁会成为‘中国OpenAI’”的期待,市场开始思考起AI创业的风险性。 AI大模型赛道具有技术门槛高、资金投入多、商业模式尚不成熟的特点,尤其是在国内智能算力较为短缺的现状下,各家大模型在持续投入人力、算力、资金并实现商业化落地方面,可能会面临较大挑战。 首先,AI会产生数据隐私安全性的风险,同时AI企业在形成数据、获取流量和模型技术方面会通过垄断而取得超额的利润。 从互联网技术到AI技术就是一个从“技术创新”到“技术垄断”的过程,AI企业可以在操作系统、用户入口等方面进行技术垄断,从而造成诸多不合理的利益分配。 其次,AI能把用户变成技术的附庸,使用户逐渐过度依赖AI而停止了技术和文明的进步。 第三,AI还可能产生智能鸿沟,AI技术的基础设备和底座可能会由某个国家企业垄断提供,而导致其他国家的开发者被局限在应用和生态层面的开发,没有能力介入底座的开发。 现今的互联网技术是由共同主体来驱动技术进步,提供多元服务,而将来AI则可能会被一家企业、一种通用技术或者一个通用底座来制约。 如何构建健康的AI产业生态,合理的分工来保证全球AI产业生态可持续发展?我国一直以来都重视AI的安全问题,注重加强AI伦理和法律等方面的研究,制定合适的规范和标准来指导和规范AI技术的发展和应用。 去年7月,网信办等七部门发布了《生成式人工智能服务暂行管理办法》,坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展。 纵使生成式AI的落地有诸多困难和不确定因素,但从业者无不对其充满乐观和期待。展望2024年及未来,更多行业将积极主动地拥抱生成式AI,并着手制定更加契合行业发展的AI治理策略。 伴随大模型技术的不断成熟和应用场景的扩展,产业化和商业化进程不断加速。越来越多的企业将大模型技术应用于实际业务中,推动了AI技术的落地和普及。 对比Open AI在去年11月召开的首届开发者大会中连续推出GPTs与Assistant API,百度发布了App Builder,旨在简化大模型应用的开发流程。 App Builder平台提供了一系列核心组件,例如原子化构件、RAG(检索生成增强框架)以及Agent机制,并以完整模版和框架的形式向开发者提供以促进开发效率。 同时,国内也涌现出一批专注于大模型技术研发和应用的企业,为大模型产业的发展注入了新的活力。 例如去年3月,百度推出全球首个企业级一站式大模型平台千帆,千帆大模型覆盖金融、制造、能源、政务、交通等行业的400多个场景,纳管国内外主流大模型达42个,预装了知识问答、客服对话、代码助手等10个精选应用范式,大幅降低企业使用、训练和推理大模型的门槛。 10月,阿里云发布了阿里云百炼大模型服务平台。国内大模型领域商业化的加速为产业发展注入全新活力。 在金融服务业,最热门的AI应用是客户服务和深度分析,自然语言处理与大语言模型被用于更好响应客户咨询和发现投资洞察。 百融云创开发的百小融,依托Transformer架构搭建算法模型,采用与ChatGPT同源的智能语音识别技术,如软交换(FreeSWITCH)、ASR(自动语音识别)、TTS(文字转语音)、NLP等技术,具有解决“听、说、读、决策”的四项全能能力,合作客户覆盖银行、汽车金融公司、保险公司等超7000家金融机构,为金融场景服务带来重大革新。 展望AI时代的未来,不管是在C端、B端还是G端,都存在较大的潜在市场空间。 一方面,2023年AI项目数量激增,根据Replit的数据,2023年二季度AI项目环比增速达80%,相较于去年同期同比增长了34倍;另一方面,目前生成式AI应用层融资金融仅占三成,目前约七成资金投向了包括大模型开发在内AI基础设施层。 AI创业的繁荣与应用层的稀缺之间的差距,说明AI应用即将进入大爆发时代。在此过程中,生成式AI的C端应用将面临洗牌,B端应用也即将进入全面商业化。 在生成式AI应用方兴未艾的时刻,中国的AI企业正在加速拓展应用方面的行业生态布局,即将乘着更高的浪潮向上生长。 【关于科技云报道】 专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
  • 热度 3
    2024-4-8 16:21
    482 次阅读|
    0 个评论
    科技云报道原创。 “我们需要更大的GPU”! 3月19日凌晨,一年一度的“AI风向标”重磅会议——GTC 2024如期而至。 英伟达CEO黄仁勋在大会上发布了包括新一代加速计算平台NVIDIA Blackwell、Project GR00T人形机器人基础模型、Omniverse Cloud API、NVIDIA DRIVE Thor集中式车载计算平台等在内的一系列突破性科技成果。 其中,NVIDIA Blackwell作为英伟达的“王炸”力作,再次将AI芯片的技术标准推向了新的高度。 紧接着,NVIDIA和亚马逊云科技宣布了双方的扩展合作,Blackwell将很快登陆亚马逊云科技,并与亚马逊云科技引以为傲的网络连接、高级虚拟化和超大规模集群等领先技术结合,为数万亿参数规模的大模型推理工作负载带来巨大的性能飞跃。 万亿级参数规模正处在当前全球顶级大模型的实际参数区间,也许用户很快就能在各种生成式AI应用中体验到新硬件带来的提升。 “王炸”AI芯片诞生 训练万亿参数级别的大模型,需要多大规模的算力? 在GTC现场,黄仁勋首先算了一道数学题。以OpenAI最先进的1.8万亿参数大模型为例,该模型需要几万亿的Token进行训练。 万亿参数与数万亿的Token相乘,就是训练OpenAI最先进大模型所需的计算规模。黄仁勋估算,如果用一颗petaflop(每秒钟进行1千万亿次运算)量级的GPU进行运算,需要1000年的时间才能完成。 在Transformer发明后,大模型的规模正在以惊人的速度扩展,平均每6个月就会翻倍,这意味着万亿级别参数并不是大模型的上限。 在这种趋势下,黄仁勋相信,生成式AI的迭代和发展,需要更大的GPU、更快的GPU互连技术、更强大的超级计算机内部连接技术,以及更庞大的超级计算机巨型系统。 一直以来,NVIDIA推出的GPU一般是两种架构,其中面向游戏的GeForce RTX系列GPU是Ada Lovelace架构,面向AI、大数据等应用的专业级显卡是Hopper架构。风靡世界的H100就是基于Hopper架构。 虽然Hopper已经能够满足大部分商用市场的需求,但黄仁勋认为这样还不够:“我们需要更大的GPU,更需要将GPU堆叠在一起。” 于是,同时用以上两种架构类型的产品Blackwell诞生了。Blackwell是英伟达祭出的第六代芯片架构。这块小小的GPU,集成了2080亿个晶体管,拥有着超强的算力,也颠覆了此前所有的产品。 据黄仁勋透露,英伟达为该芯片的研发投入了100亿美元。这一新架构以加州大学伯克利分校数学家David Harold Blackwell命名。他专门研究博弈论和统计学,也是第一位入选美国国家科学院的黑人学者。 Blackwell在单芯片训练方面的FP8性能是其上一代架构的2.5倍,在推理方面的 FP4 性能是其上一代架构的5倍。它具有第五代NVLink互连,速度是Hopper的两倍,并且可扩展至576个GPU。 所以,Blackwell不是一个芯片,而是一个平台。 NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗的片间互联,将两个NVIDIA B200 Tensor Core GPU与NVIDIA Grace CPU相连。 其巨大的性能升级,能为人工智能公司提供20 petaflops或每秒2万亿次计算的AI性能,相较于H100,大语言模型性能提升30倍,同时能耗只有1/25。 不难看出,Blackwell平台如此卓越的性能提升,是为了下一代生成式AI做准备。而从OpenAI最近发布的Sora和已经开始研发更强大、更复杂的GPT-5模型也能看出,生成式AI的下一步是多模态和视频,也就意味着更大规模的训练。Blackwell带来了更多可能性。 如今,从谷歌的无边搜索引擎,到亚马逊的云顶天堂,再到特斯拉的智能驾驶,各大科技巨头正纷纷加入NVIDIA的Blackwell阵营,开启了一场令人兴奋的AI加速计算盛宴。 亚马逊、谷歌、戴尔、Meta、微软、OpenAI、Oracle、特斯拉等行业翘楚都在争先恐后地布局,准备在AI新时代大展身手。 难掩战略焦虑 受益于去年以来生成式AI的火爆,2月21日盘后,英伟达公布的最新一季度财报再次打破市场预期。财报显示,2024财年,英伟达总营收达609亿美元,同比增长125.85%;净利润为297.6亿美元,同比增长超581%;调整后每股盈利为12.96美元,同比增长288%。此次已经是英伟达实现连续四个季度的盈利超出市场预期。 英伟达的业绩加速实则反映了全球科技公司对于AI算力需求的激增。随着Sora等应用的横空出世,世人看到了大模型落地的巨大潜力。 生成式 AI很有可能进入“军备竞赛”阶段,与之伴随的是科技公司对芯片的需求也会持续提升。 Counterpoint Research的数据显示,2023年,英伟达的营收将飙升至303亿美元,比2022年的163亿美元增长86%,跃升为2023年全球第三大半导体厂商。 富国银行则预计,英伟达2024年将会在数据中心市场获得高达457亿美元的营收,或创下历史新高。 不过,创造历史的英伟达并非高枕无忧。英伟达在AI计算的“垄断”的现状并不让所有人都满意,竞争对手在竭力打破英伟达的统治地位,客户也需要第二个AI芯片供应源。 尽管英伟达的GPU有很多优点,不过它在用于AI时它可能耗电量太高且编程复杂。从创业公司到其他芯片制造商和科技巨头,英伟达的竞争对手层出不穷。 近期,OpenAI CEO奥尔特曼正在与中东阿布扎比G42基金、日本软银集团等全球投资者筹集超过80亿美元资金,成立一家全新AI 芯片公司,目标是利用资金建立一个工厂网络来制造芯片,直接对标英伟达。 2月17日,业内人士透露,日本投资界巨头软银集团创始人孙正义正在寻求筹集最高达1000亿美元的资金,打造一家规模庞大的合资芯片公司,这家公司能够与芯片设计部门Arm形成互补。 过去,AMD一直在进行其新一代AI战略规划,包括并购和部门重组等,但生成式AI的横空出世导致该公司产品阵容进一步扩充:去年12月发布的MI300芯片专门面向复杂的AI大模型,配置了1530亿个晶体管、192GB的内存、每秒5.3TB的内存带宽,分别是英伟达最强AI芯片H100的大约2倍、2.4倍和1.6倍。 亚马逊云科技也在自研芯片领域进行持续投入,以提升客户云上工作负载性价比。亚马逊云科技很早就面向AI领域推出了Trainium训练芯片和Inferentia推理芯片两个系列,并不断更新迭代。 去年底推出Trainium2能够通过云中扩展和网络互联提供65exaflops的AI算力,数周时间即可完成3千亿参数的大语言模型的训练。这些AI芯片已被使用在包括Anthropic等生成式AI领域的头部企业当中。 这些大厂不约而同地砸下重金,选择自研AI芯片,透露出谁都不想将科技的话语权和主导权交到芯片大厂的手中,只有处于“AI食物链”顶端,才有可能掌握通向未来的钥匙。 研发为底,生态为径 黄仁勋曾在很多地方有过这样的表示:英伟达不是在销售芯片,而是在销售解决问题的能力。 在这种产业生态共建的理念驱动下,英伟达围绕GPU打造了一个涵盖硬件、软件及开发工具在内的生态系统。 例如,英伟达在自动驾驶领域的投资成果显著,其Drive PX系列平台以及后来推出的Drive AGX Orin系统级芯片,成为了众多汽车制造商实现高级驾驶辅助系统(ADAS)和自动驾驶的关键部件,这是底层技术创新与实际应用场景深度融合的成功案例。 面对行业竞争,英伟达希望发挥整体的生态协作力量,共同为产业服务,为市场服务。 英伟达与云计算“一哥”亚马逊云科技的合作同样成果不凡,从第一个GPU云实例到现在的Blackwell平台解决方案,双方的合作已经超过13年。客户很快就能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPUs的基础设施。 英伟达的超强算力芯片系统与亚马逊云科技强大的Elastic Fabric Adapte(EFA)网络连接能力、高级虚拟化(Amazon Nitro System)和超大规模集群(Amazon EC2 UltraClusters)等领先技术的结合,使得客户能够更快更大规模且更安全地在云上构建和运行数万亿参数的大语言模型。 在大模型研发领域,万亿级参数规模此前还算是一道门槛。根据公开的报道,去年年中发布的GPT4的模型参数是1.8万亿,由8个220B模型组成;前不久发布的Claude3模型没有公布参数规模,而马斯克最新开源的Grok大模型参数是3140亿参数规模。 双方此次合作,有望在加速万亿级别大语言模型的研发方面,为生成式AI领域的突破提供新的可能。 英伟达自身的AI团队专门在亚马逊云科技上构建了Project Ceiba项目,以帮助其推动未来生成式AI的创新。 Ceiba项目首次亮相是在2023年11月底亚马逊云科技2023 re:Invent全球大会上,这是当时英伟达与亚马逊云科技合作建造的世界上最快的AI超级计算之一,当时的计算性能为65 exaflops。 随着Blackwell平台加入Ceiba项目,为其带来了7倍于原先的计算性能,现在,该AI超级计算机将能够处理高达414 exaflops的AI计算量。 新的Ceiba项目拥有20,736颗B200 GPU的超级计算机,采用新型NVIDIA GB200 NVL72系统构建,该系统利用第五代NVLink技术连接10,368颗NVIDIA Grace CPU。 系统还通过亚马逊云科技的第四代EFA网络进行扩展,为每个Superchip提供高达800 Gbps的低延迟、高带宽网络吞吐量。 此外,亚马逊云科技还计划提供配备基于新的英伟达B100 GPU的Amazn EC2实例,并能够在Amazon EC2 UltraClusters中进行大规模部署。 此次合作被黄仁勋抱以更多期待:“人工智能正在以前所未有的速度推动突破,导致新的应用、商业模式和跨行业的创新。 英伟达与亚马逊云科技的合作正在加速新的生成式AI能力的发展,并为客户提供前所未有的计算能力,以推动可能性的边界。” 如此多的行业,如此繁复的创新,英伟达正与其合作伙伴构建起越来越强大的AI生态,共同引领生成式AI的新纪元。用黄仁勋的话说,当计算机图形学、物理学、人工智能交汇,便衍生出NVIDIA的灵魂。 【关于科技云报道】 专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。