tag 标签: AIGC

相关帖子
相关博文
  • 热度 6
    2024-5-24 13:29
    480 次阅读|
    0 个评论
    在当今飞速发展的科技浪潮中,人工智能已崛起为引领未来的核心驱动力。而在这一激动人心的科技前沿领域里,AIGC作为一种尖端技术,正吸引着无数人的目光和热议。接下来我们就揭开AIGC的神秘面纱,并深入探索与其紧密相关的Midjourney,共同领略它们的神奇魅力。AIGC技术作为新兴的领域,无疑将为未来的科技发展开辟出无限的可能性。而Midjourney作为这一领域的佼佼者,必将在AIGC领域的征途上创造出更多的惊喜与奇迹,引领我们共同踏上这段精彩绝伦的旅程。 AIGC的基本概念: 在深入了解Midjourney之前,先对AIGC有一个全面的了解。提及AIGC工具,人们首先想到的或许就是OpenAI的ChatGPT这款强大的聊天机器人,它能够进行智能对话和文本生成,现在有问题也会在ChatGPT问一下。然而,在AIGC的图像领域,Midjourney同样闪耀着璀璨的光芒。作为AI绘画工具的代表之一,Midjourney能够根据用户提供的文本或图像,创作出令人叹为观止的艺术作品。 那么,什么是AIGC呢?互联网内容生产方式经历了从PGC到UGC再到AIGC的演变过程。PGC(Professional Generated Content)是指由专业创作者或团队创作、编辑和发布的内容;UGC(User Generated Content)则是由普通用户参与创作、编辑和发布的内容;而AIGC则是利用人工智能技术进行内容创作、编辑和发布的全新方式。在Web3.0时代,由于PGC和UGC在生产效率和资源方面的限制,难以满足日益增长的内容需求,因此AIGC作为一种新型的内容生成工具应运而生。 AI绘画、AI写作等都是AIGC的重要分支领域。而AIGC的核心技术则主要涉及自然语言处理和AIGC生成算法两个方面。根据内容生产模态的不同,AIGC的主要模态可分为写作、音频、图像、视频以及跨模态内容生成等多种模式,每一种模态技术都拥有其独特的应用场景和特点,为我们的生活和工作带来了前所未有的便利和惊喜。AIGC各模态的热门产品,包括写作、音频、图像和视频等领域的代表性产品。通过了解这些产品,我们可以更深入地了解AIGC技术的实际应用和发展趋势,为未来的科技发展做好充分的准备。 Midjourney的基本概念 Midjourney,这款由同名研究实验室倾力打造的AI绘画神器,以其独特的自然语言描述生成图像功能,让艺术创作变得更加富有创意与想象力。用户只需通过Midjourney的机器人指令进行操作,便可轻松实现各种创意想法的呈现。这款工具已成功搭载在聊天软件Discord上,并积累了超过1000万的忠实用户,共同探索艺术的无限可能。让我们一同回顾Midjourney的诞生、历史及其辉煌发展。2022年3月,Midjourney正式问世,以其前沿的AI技术吸引了众多关注。同年7月12日,Midjourney以开放公测的方式首次亮相,迅速赢得了广大用户的喜爱。而在2023年,随着V5版本的更新,Midjourney更是成功“出圈”,其代表作“中国情侣”图片更是成为了网络上的热门话题。截至2023年6月,Midjourney已发布了多个模型版本,包括V1、V2、V3等。其中,V5版本更是凭借其卓越的性能和表现,赢得了市场的广泛认可。此外,Midjourney在AIGC领域也取得了显著的进步,其生成的画作多次在各类艺术比赛中斩获殊荣。Midjourney已成为AI绘画领域的佼佼者,引领着艺术创作的新潮流。我们期待在未来,Midjourney能够继续为我们带来更多惊喜与创意,共同开启艺术创作的新篇章。 Midjourney是一款独具匠心的AI绘画软件,以其高质量、低门槛、跨平台以及多元化的特点脱颖而出。这款软件不仅具备卓越的绘画能力,更以简单易用的操作方式,让每一位用户都能轻松挥洒创意,创作出属于自己的艺术作品。Midjourney的魅力在于其多元化的生图风格,这极大地激发了用户的创作灵感。无论是动漫风格、示意图风格,还是未来风格、观赏水彩风格等,它都能轻松驾驭,满足不同用户的艺术追求和创作需求。每一种风格都赋予了作品独特的视觉体验和情感表达,让创作变得更加丰富多彩。作为一款搭载在Discord上的AI绘画聊天机器人,Midjourney让用户能够在社交平台上随时随地进行绘画创作和交流。其操作简便,支持跨平台使用,无论是初学者还是资深艺术家,都能轻松上手,享受创作的乐趣。Midjourney采用了先进的深度学习技术,通过大量的图像数据训练,使其具备了强大的绘画能力。它能够准确理解用户的输入信息,如文字描述和草图,并在图像数据中寻找相似的元素和特征,从而生成符合用户需求的绘画作品。这种智能化的绘画体验,让每一位用户都能感受到创作的无限可能。 Discord的基本概念 谈及Midjourney,Discord无疑是不可或缺的一环,因为Midjourney正是以Discord平台为基石,为用户带来独特的艺术体验。那么,Discord究竟是何方神圣?它又是如何划分的?它与Midjourney之间又是如何协同发展的呢? Discord,这款于2015年发布的免费社交软件,以其跨平台的特性,为用户提供了高效且便捷的语音、视频和文本通信功能。它不仅为用户打造了一个全面的聊天、语音和视频通话平台,更允许用户在不同的服务器上建立独特的社区,并在这些社区内部设立多样化的频道,以满足不同交流需求。 Discord的划分主要可分为网页版和客户端版两大类别。网页版作为Discord的在线版本,用户无需下载和安装任何软件,仅需通过网页浏览器即可访问,从而享受到文字聊天和语音聊天的便利。虽然其功能相对简洁,但胜在方便快捷,无需任何安装步骤,即可轻松使用。而客户端版则是一款适用于不同操作系统的软件应用程序,相较于网页版,它提供了更为丰富和全面的功能。无论是创建服务器、拥有服务器,还是创建频道、在游戏中与其他玩家进行语音聊天,客户端版都能轻松应对。此外,用户还可以根据自己的喜好和需求,自定义身份组的各种权限和颜色,从而打造出独具特色的个人空间。 Discord与Midjourney的协同发展,为用户带来了前所未有的创意与社交互动体验。用户只需在Discord上注册账号,并创建Midjourney的服务器,即可进入特定的频道与聊天机器人互动。通过发送提示词(Prompt),用户便能获得对应的艺术图片,从而实现创意的想象和艺术的生成。这种独特的交互方式,让Discord成为了一个充满创意和想象力的社交平台,也为Midjourney的发展与创新提供了坚实的土壤。Discord与Midjourney的紧密合作,共同构建了一个充满创意与活力的社交互动空间。Discord为Midjourney提供了广阔的舞台,让用户在社区中相互模仿、交流和学习,共同创造出更多令人惊叹的艺术作品。而Midjourney则为Discord用户带来了更加丰富有趣的体验,让用户在欣赏和创作艺术的同时,也能感受到社交的乐趣和温暖。这种互利共赢的合作模式,不仅促进了Discord社区的繁荣与壮大,也为Midjourney的发展注入了新的活力。 Midjourney是一款可以通过简单的文本描述生成高分辨率、绘画性强、美观的图像作品的工具。它为艺术创作带来了更多可能性,并在虚拟创作、概念设计和广告创意等领域有很大的潜力。看一下下面的小作品,可以说非常精细的设计了: 对于那些非设计绘画专业的朋友们(估计很多都是我们这样的人),Midjourney无疑打开了一扇充满创意的大门。它以其开放式、低门槛的特性,成功吸引了大批热爱艺术、渴望表达自我的人们。在这个平台上,无论你是初学者还是有一定基础的爱好者,都能找到属于自己的创作空间,尽情挥洒创意。
  • 热度 6
    2024-5-13 12:52
    937 次阅读|
    0 个评论
    听NV首席科学家谈英伟达内部的神秘团队,光追、AI都是他们做的
    - 本文首发于我个人的知乎专栏,眼见面包板专栏万年未更新了,把这篇文章转载过来 - 不知各位同学是否了解,很多大型科技公司,除了做要直接在市场上卖的产品,另外也搞前沿技术研究——虽然这个前沿还没有前瞻到与量产产品完全不相干的程度,但也算是一种近未来的技术投资。 比如之前我写过好些 Intel 在半导体制造方面的前瞻技术——其中的很多尚未真正走出实验室、成功量产。作为芯片、AI 领域的大热门,英伟达也有这样一个专门的团队或机构,名为 NVIDIA Research。出自 NVIDIA Research,最终走向产品化的东西典型如 OptiX、光线追踪算法和硬件、Volta 的 SM 架构、自动化 VLSI floorplan 工具、视频 Super Slow Motion、DLSS 和 DLAA 等等... 前不久英伟达 GTC 活动上,我也是第一次有机会听到英伟达首席科学家 Bill Dally 去谈 NVIDIA Research。虽然其实总体的干货也不算多,但起码是了解他们究竟在做什么的好机会,多少也算是增长见识吧;而且机会的确是很难得。 很遗憾的是,主题演讲的 PPT 不能对外分享~所以我只能极尽所能地把我听到的东西,用文字记录下来。国内应该算是独此一家吧(独此一人?很嚣张)...另外因为是前瞻技术,有错误的地方请轻拍;毕竟人家是前沿技术专家,我肯定无法做到什么都懂... GTC 2024 现场堪称接踵摩肩 承载 30 倍性能提升的 NVLink 在正式谈 NVIDIA Research 以前,先简单说两句 Blackwell GPU(不想看这个的,可以直接跳过这个小标题下的一整段)。这次 GTC 活动,最火的应该是 Blackwell GPU 芯片,及其构成的 B200、GB200、GB200 NVL72 等系统。这里面有道有趣的数学题。 其实在面向媒体的 pre-briefing 上,英伟达就提到了相比于前代 Hopper 架构 GPU 的 30 倍性能提升。不过这个 30 倍究竟是怎么来的呢?即便是加速器,芯片隔代 30 倍性能提升,这事儿别说摩尔定律不答应,先进封装不答应,苹果也不答应啊... GB200 NVL72 我在当时的报道文章里写了,Blackwell GPU 本身作为一颗芯片,考虑第二代 Transformer 引擎,以及两颗几乎达到 reticle-limit 光刻机限制尺寸的 chiplet,芯片层面的推理性能提升 5 倍,听起来是很合理的。 但是,到了系统层面,尤其是构成 GB200-NVL72 系统,也就是那个总共包含 72 颗 Blackwell GPU,及 36 颗 Grace CPU 的一整台设备,还有 NVSwitch 交换芯片的交换机,30 倍的推理性能提升就有意义了。那么芯片层面 5 倍性能提升,究竟是怎么在系统层面就做到 30 倍提升的呢? 其实黄仁勋在主题演讲中有给出下面这张 PPT: 这张折线图咋看呢?首先整个图表达的是 1.8 万亿参数的 GPT 模型推理。横坐标代表的是模型的可交互性,可以理解为 AI 模型和每个用户对话时,AI 模型的打字速度;纵坐标可以理解为数据中心的吞吐。我们总是期望这两个值越高越好。 基于不同的优化,包括数据并行、tensor 并行、管线并行等等相关优化和配置,找到它们在坐标轴中的不同位置——基于不同的配置、软件分布,也就有了不同的 run time。(如图中 TP2 EP8 DP4 代表跨 2 颗 GPU 做 tensor 并行,8 颗 GPU 做 expert 并行, 4 颗 GPU 做数据并行) 图中的蓝线表示的是 Hopper 架构的 H200 构成的相同 GPU 数量的系统(从 pre-briefing 给的资料来看,应该也是总共 72 颗 GPU,或者相似数量)在推理时的情况。 而绿线表示的就是 GB200-NVL72,它相较蓝线的提升就有 30 倍。这里比较有趣的其实是中间那根紫线,它表示的是啥呢?就是如果不改变 Hopper 基础架构,只是单纯把这个上代架构的芯片做大,以及两片 die 封装在一起,则它也能带来提升,只不过提升是相对有限的。也就是说光扩大 GPU 芯片的规模,成效并不显著。 这里黄仁勋的原话是“如果我们不改变 Hopper 架构,仅是造更大的芯片,用上 10TB/s 的片间互联,得到 2080 亿晶体管的巨大芯片”。这句话可能透露了 Blackwell 在处理器架构层面,相比上代 Hopper 的变动并不大:芯片层面着眼的主要应该就是 GPU 规模增大,以及增加先进封装(所以 PPT 上标注的紫线是 B200)。 那么 30 倍性能提升主要来自哪儿呢?毫无疑问,包括 Transformer 引擎对于 FP4 的支持,以及更重要的最新一代的 NVLink——不光是带宽 1.8TB/s(似乎高了 10+ 倍?),还有 SHARPv4 什么的。 而且我猜,对比的这张图里,看到的 H200 构成的系统,应该是更加传统的搭配了 x86,以及 PCIe 连接的方案。那么换用英伟达自己的 Grace CPU,搭配与 Blackwell GPU 之间的高速连接,处理器之间通信效率的显著提升,30 倍也就合情合理了。 其实 GTC 期间面向分析师有个 AI Architecture 的 Q&A 活动,我就一直在尝试举手想问问这个 30 倍性能提升是不是主要来自 NVLink,也就跨芯片通信方面的提升和优势,无奈一直没有被轮到。 一片 Grace CPU + 两片 Blackwell GPU 不过实际上英伟达的相关负责人在不同场合也做了一些解读,尤其是 Ian Buck(Hyperscale & HPC副总裁)在两场分析师 Q&A 会上明确提到了新一代 NVLink 是期望构建起更大的“NVLink domain”,我的理解就是一个高速互联的域内,容纳更多全连接(all-to-all)的 GPU(应该是 576 个),以适配现在的多模态、多 MoE 模型需求,像 GPT-4 这样的~ 换句话说,GB200-NVL72 作为一个系统,其实是这次英伟达推的重点。而且这也印证了,这个时代远不是靠摩尔定律就能支撑向前的了,甚至 more than Moore 也不行(你看不是用了先进封装么),系统层面的改良和优化也必须上才行......EDA、Foundry 厂普遍也都在倡导这样的观念~ 回过头来说 NVIDIA Research。上面说这一大堆的,和 NVIDIA Research 有啥关系呢? NVIDIA Research 在干啥? 其实 NVLink, NVSwitch 这类东西,都是出自 NVIDIA Research,而且是归总到“networks”这个大类中的。据 Bill Dally 所说,2011 年的时候,他去找老黄聊了聊要面向 HPC 开发 networking 技术的问题,老黄问他:“我们为什么要做 networking?我们不是一家开发 GPU 的公司吗。”不过最终黄仁勋还是做出了支持,而且是资金上 100% 的支持。 感觉就我们所处的这个时代,尤其近两年听英伟达在数据中心 GPU 方面的投入,数据交换和互联也算得上是英伟达的核心技术要素之一了。但在当年,这件事却并不是理所应当的。是不是还挺惊讶于时代变迁的?现在有实力的芯片厂商们,普通从系统层面入手,也显得很有道理——不知道未来游戏显卡会不会也变这样... 从大方向来看,NVIDIA Research 切分成了供给侧(Supply)和需求侧(Demand)。供给侧这边的技术是直接为 GPU 服务的,包括存储系统、编程系统、网络(networks)、架构、VLSI、电路什么的。需求侧则是指针对 GPU 的需求,包括几个图形技术相关的团队,几个 AI 团队,还有一些垂直业务方向,包括机器人、自动驾驶汽车、气候模拟等。 对英伟达现有业务熟悉的同学,应该很清楚图形、AI,以及上面提到的垂直领域小组研究,是非常清晰地反映到了英伟达现在发布的产品中的。 除了这些以外,NVIDIA Research 似乎还包含了两个机动小组。比如一个团队做所谓的“Moonshots”,当然肯定不是说的登月,据说 Volta 架构就是来自这里;还有个例子是光线追踪核心,也就是图形卡上的 RT core——当时从架构和图形团队找来了一群人,就开始讨论说怎么才能做实时光追。 研究之下就有了 TTU(tree traversal unit)树遍历单元,也就是用来做 BVH 遍历和三角形与光线相交测试加速的,“产品团队的人觉得这很好,它就变成了 RT core,用到了 Turing 这一代产品上。”Bill 说。 除了 Moonshots,另有一个“Study Group”小组,研究的东西更具未来向。比如说量子模拟相关的研究,最初是 2017, 2018 年前后有人提出了其发展潜力,甚至“替代 GPU”,随后成立量子研究小组。“然后我就从 NVIDIA Research 团队找了一帮物理学方向的 PhD,大概 10 个人,一起去研究量子技术发展到哪儿了,我们能做到怎样的参与度,将来会怎么发展。我们还写了一份很不错的报告呈交给了董事会。” “我们当时发现,这项研究要投入商用,真正对财务产生正向影响,还比较遥远。”Bill谈到,“现在其实也还是这样。但这对人们来说是个巨大的市场”,“模拟量子计算机是个巨大的市场,我们就开发了构建相关软件的策略,也就是现在 CuQuantum。”“我们实际是为那些淘金者(指正在搞量子计算研究的那波人)提供工具。现在这其实也是个很成功的业务了。” 有关 NVIDIA Research 本身还有一点值得一提,Bill 在开场的时候特意强调了他们衡量自己的工作成绩,绝对不是发表 paper 的多少。“公关(PR)可能对这类事情比较热衷,但我们还是希望真正对技术产生影响。”在 Bill 看来,同类科技企业的前沿科学研究团队存在两种典型的错误,其一是发一堆 paper,看起来是很成功的研究实验室,团队内部有来自不同领域的人才。“但这种团队和公司是脱节的,对公司而言根本不发挥什么作用。” 还有一种错误是“内部的项目都是由产品团队给予的资金支持”,这决定了“他们距离实际产品并不会很远”,“这些人在做的实际上就是产品开发,而不是研究。”而 NVIDIA Research 期望做到的,一方面是要拉远和产品之间的距离,另一方面也要对公司切实地产生影响。换句话说就是找寻两者间的平衡点。 所以 NVIDIA Research 有三条原则。我理解第一点是投资回报的合理性(这一条尚不能确定,现场没有听得很清楚);其二是研究需要对产品产生影响,“我们也写很多 paper,平均到人头,和其他任何研究实验室的产量一样多。但这不是我们的目标。目标还是要影响英伟达的产品”; 其三是要产品团队的人加入到研究项目中来。“我们以前将一项研究搞定,发表 paper,然后跟产品团队的人去聊。这时候就发现已经太晚了。如果我们真的要影响产品,还是需要他们在研究项目启动的第一天就加入进来。因为我们需要理解他们(产品开发)存在哪些限制,他们需要给产品加入些什么,以及还有兼容性相关的很多问题。” 谈两个技术转化,RTX 与 CuDNN 其实应该谈来自 NVIDIA Research 3 个典型的技术成果转化的,还有一个是 NVSwitch,文章第一部分已经先说了。所以这部分就谈另外俩 Bill 特别提到的技术转化吧,即 RTX 和 CuDNN。 就英伟达的市场宣传,RTX 我个人理解应该是一系列技术的集合。不过一般人将其定义窄化到了光线追踪,毕竟什么 GeForce RTX 2080 这类产品名称,最先强调的不就是光线追踪特性么。 Bill 说光线追踪的源起是一个小团队(好像原本是一家独立的公司),当时这个团队的负责人在开发能够在 GPU 上跑光线追踪的软件。英伟达发现以后就把这公司给收了,然后很快把负责人拉到了 Research 团队。软件成果最终是转化成了 OptiX 的,而且“重构(re-form)了我们的专业图形核心”。 “几年以后,我们纠集了一批光线追踪的专家。我们需要在当下去理解什么是好的光线追踪渲染。”即要把实时光追做到何种程度(听到似乎项目名称叫 100x Ray Tracing),“究竟该怎么做?我们最终发现需要几样不同的东西,首先就是转化成了 RT core 的 TTU(树遍历单元)”,“另外我们也增加了光线三角形相交单元”。 “但其实这还不够,可能让我们做到了 10x 吧。我们还是需要其他东西。所以接下来我们就决定,需要一种超采样技术,现在就叫 DLSS,只需要对低分辨率做光线追踪即可,超分以后得到 4 倍像素。”“不过我们真正需要的关键一环,现在是真的做到了”,“此前随 Turing 架构一起到来的 RT core 还是用于特效的(was used for effects),包括反射、阴影之类的东西。它还不是完整实时的 path trace(路径追踪)。 “《赛博朋克 2077》是首个完全路径追踪的 3A 游戏。如果你们没见过的话,真的应该去看一下,效果非常好。”相信关注 PC 和游戏的同学,对这部分应该如数家珍了。不过这里传递的一点是,RT core, DLSS, path trace 其实是来自 NVIDIA Research 的组合拳。 “最终,真正把我们带到那儿的,还是对于 Importance Sampling 这种方法的理解。如果一个场景内有百万条光线,你是不可能对每条光线做投射的。所以你需要决策对哪些做采样。”“我们做出了一种名为 ReSTIR 的新算法,最后以 RTXDI 技术名称落地,真正以高效的方式对光线的采样,投射更少的光线就能达成很高的画质。” “RT core,超采样(DLSS),以及有效的 Importance Sampiling,才让我们真正做到了 100x,真正做到了游戏中的实时光追。” 说完光追,再来谈 CuDNN,也就是 CUDA Deep Neural Network,当然就是用来做深度神经网络加速的库。了解 AI 的同学应该不陌生。Bill 说 2010 年前后,他跟一名同事一起吃早饭,当时就提到在互联网上找(识别)猫的事情。那个时候还需要 16000 颗 CPU 来做这件事。 “我就说 CPU 不行啊,我们应该让这样的东西跑在 GPU 上。”Bill 说道,“当时我们团队内的一名编程系统研究员也鼓励我这么做。最后出来的软件就是 CuDNN。”“其实这比 AlexNet 还早了 2 年。”“我们当时就意识到 AI 会是个影响深远的东西。我们就真的开始着手构建软件栈了。” “那个时间点放在 Kepler 架构上已经有点太晚了,所以我们着眼的是 Pascal、Maxwell,加入了一些特性;真正严肃对待是在 Volta 这一代上;到 Ada 平台,就是我们期望看到的了。”看看这个演进,要不怎么说英伟达现在股价的高涨不是一朝一夕之功呢。 再谈几个有趣的技术:硅光、用 AI 设计芯片、AIPC 上面这些其实还是更为普罗大众所知的东西,Bill 当天谈了 NVIDIA Research 旗下各小组的一些研究。受限于篇幅,无法一一介绍。这里给一些我个人觉得还挺有趣的技术研究。 首先聊聊电路方面的研究吧:因为我见识浅薄,之前一直以为 fabless 企业是不需要把投入放在半导体的电路层面的。不过 NVIDIA Research 还真是有个 Circuit Research 的团队,“让我们的 GPU 更好”。 比如说 short reach links(短距离连接)——很遗憾无法给你们看图,Grace Hopper 整颗芯片上,连接 Grace CPU 和 Hopper GPU 的就是这个 short reach links,也包括 HBM 内存连接。目前基于 TSV 做 die 堆叠的方案,已经实现了 0.1-0.5mm 距离内 0.1pJ/bit 的能耗水平。 这次新发布的 Blackwell,连接两片 die 的技术名称完全没听清(好像是 ISNRP,Incredibly Short Reach NP),能耗量级是 1-2mm 0.2pJ/bit。基于先进封装的片内通信能耗,和要走 PCIe 5 这种通道互联的量级差异起码有 20 倍以上。 Grace Hopper 和 Grace Blackwell 的 CPU 到 GPU 通信连接是多年前就完成的,能耗量级 10-15mm 1pJ/bit——这应该是一种走基板的通信了,虽然和 Blackwell 片内两片 die 互联不能比,但还是比 PCIe 5 要节能了 5 倍以上。 所以实际上,英伟达常年来也坚持给自家芯片的互联命名,还是有道理的。似乎这种事,在 fabless 企业内也只有英伟达、苹果这类企业做得到,互联的某些层级还是有自家的标准和技术在里头的。组成自有成套、成规模的生态就是任性啊... 还有 long reach links(长距离连接)——至少是芯片与芯片间(封装与封装之间)的传输了,这部分据说英伟达在考虑光通信(photonics),只不过现在成本和功耗都还不理想。但 Bill 认为让硅光成本降下来,降到可比肩铜(电传输)的程度还是有戏的,毕竟“铜差不多发展到头了”。 “目前我们正在努力去尝试波分复用(dense wavelength division multiplexing)技术”,“在传输芯片里用锥形激光源”,“对不同色光做调制,以每种色光较低的 bit 率做密集波分”,“达到每根 fiber 最高 TeraBits 带宽”;“接收端的芯片也有个环形谐振器(ring resonator),对色光做检测。”(这一段如果有描述错误的轻拍啊,我已经尽力把我听到的做我能理解的还原了) “这些现在已经在我们实验室里了,只不过还没准备好量产。”“不过我们有信心,最终可以把能耗降到 2pJ/bit 的量级,能耗和成本都能比肩电传输。” 这部分的第二个技术,我想谈一下借助生成式 AI 来做芯片设计的 ChipNeMo。黄仁勋在主题演讲里也提了一下。应该是去年 GPT 和生成式 AI 大火以后,下半年好像就陆续有研究团队说,借助于 ChatGPT 来设计芯片的,全程自己不需要写一行代码,单纯就是跟 GPT 各种聊,让它写,最后的芯片就能跑起来。 我个人是相信这类新闻的,因为我自己去年数据库概念这门课,最后交给老师的 project,几乎所有代码都是 ChatGPT 写的,虽然程序框架和设计肯定是我自己做的,而且也花了大量时间 debug。芯片设计,如果不是那么复杂的话,也是类似的——只不过和 ChatGPT 聊的人自己还是要具备相应的业务能力的。 去年我采访的一些 EDA 企业认为,做复杂芯片设计的话,这种方式还是异想天开。但起码协助芯片设计是能做到的嘛。ChipNeMo 是英伟达内部的一个,用于芯片设计辅助的生成式 AI,也是 NVIDIA Research 做的。 预训练互联网数据得到 70b/130b 参数规模的 Llama 2 基础模型;然后进行芯片设计专门的训练,据说给到了 48GB 的设计文档、RTL 代码之类的数据,都喂进去;最后再进行监督 fine-tune——得到 ChipNeMo 聊天模型。 在英伟达内部,ChipNeMo 的一部分职责是给一些初级水平的芯片设计者用,他们有问题就可以直接问 ChipNeMo 了。另外一个职责是,对 bug 报告做总结——硅工们发现了 bug 会记录下来,这类报告可能会非常复杂、也很长,对旁人来说也很难理解,ChipNeMo 是可以给出容易理解的总结的。另外 ChipNeMo 自己也能生成 Verilog,不过这就只供参考了。 再介绍个所谓的 Efficient AI 研究,据说是 NVIDIA Research 最近才成立的研究团队,致力于让 AI 跑得更高效。当然其中涵盖很多不同的技术,比如说剪枝、稀疏化什么的。其中一项研究成果是 AWQ(Activation-aware Weight Quantization)权重量化,某些网络权重甚至可以降到 2bit,“某些权重会比其他权重更重要;有时需要表达高分辨率,有时则只需要很低的分辨率...”,而这些优化会“让你的网络跑起来更高效”。 “我们也会主动去发现神经网络,去找到最高效的模型。”说得还是挺泛的啊,但总体要表达的都是让 AI 更为高效,这应该也是现在很多 GPU/AI 芯片公司在做的事情。 其中一个例子就是基于 AWQ,让 LLM 跑在边缘或者端侧设备上——对英伟达来说,现阶段最重要的主题,其实还不是 LLM 跑在 PC 上,而是跑在 Jetson Nano 这样的边缘平台上。不过 AI PC 肯定也是这其中的一个重要议题。好像过去大半年 Intel 中国研究院也在搞这个东西吧,毕竟大家都要推 AI PC。 最后再聊一个基于 DaaS(Data as a Service)的快速 GPU 存储访问的项目吧。对某些场景、某些系统来说,比如说电商的推荐系统,请求大量数据可能没办法一下都塞进主内存里。所以 NVIDIA Research 有个项目是把存储系统,直接挂到 GPU 上。 一般的传统方法是文件系统请求要通过 CPU,即便是 GPU Direct 也如此。GPU Direct 的数据路径是直接走往 GPU 内存的,但 IO 操作最后还是 CPU 来给存储设备发信号,让存储设备直接把数据给到 GPU。这里的问题还是 CPU 太慢,100 万 IOPS 量级。 英伟达已经有了个原型方案,似乎产品化已经很快了,用 DaaS 方法。在 CPU 初始化安全认证访问以后,CPU 好像就不在数据请求的回路中了,GPU 可以“directly queue”,请求 IO 设备,达成 50 倍的存储带宽。“它能让你进行细粒度的存储操作,这很关键。”“你可能不需要 4k block 数据获取,而是小块的数据,需求更高频的 IOPS,在不需要大量 over fetch 的情况下就能做到。” 篇幅太长了,更多的就不说了——从芯片聊到软件了(软件还是大篇幅)。其实还是有很多可以去谈的东西,比如说 Bill 提到最近在搞 Automatic Fusion,针对 DNN 程序的 kernel fusion,提高推理的效率——据说自动 kernel fusion 的效果远优于程序员手动 fuse。 还有各类编程系统研究——其实也就是把各种原本只能 CPU 跑的东西,实现 GPU 的加速计算;以及内部的多 die 实验研究,像 Grace Hopper, Grace Blackwell 之类就是 NVIDIA Research 大量研究迭代后的产物; 更多 AI 视觉生成类应用;地球数字孪生 Earth-2,以及气候、天气相关的高精度研究;汽车 ADAS 相关动态驾驶场景“自监督重构”的研究,在做名为 PARA-drive 的感知基础模型;以及用强化学习来设计 GPU 上的 NV-ENC 视频编码器等等等等... 可能对很多日常就一直在关注英伟达的同学来说,上面很多内容也不能算多新鲜。这里还有一些内容是我没写的,比如机器人、汽车的部分我基本都没写,一方面是我自己也不大感兴趣,另一方面是今年 GTC 其实机器人相关的更新是个重点——所以机器人后面我是打算另外写文章的。 期望这些东西大家还感兴趣吧。说再多 AI 要改变世界的废话都是无用功,这些东西都是在潜移默化中发生的。不知各位发现没有,英伟达自己内部就在大量应用 AI 技术,包括生成式 AI,用 AI 来做产品。自家芯片和系统驱动着 AI,然后 AI 应用又在推动芯片和系统设计与结构进步。还挺有趣的吧...
  • 热度 1
    2023-9-14 19:56
    788 次阅读|
    1 个评论
    京东自营购买: 点击这里 自从生成式AI火了以后,自己对AI绘图特别感兴趣,平时自己缺乏美术才能,很多时候为了给PPT找图像素材费了半天劲也没有合适的,特别希望AI绘图能够解决问题。以前试了几款AI绘图软件,都觉得不开心。感谢面包板社区和北京大学出版社提供了《硅基物语》一书的试读机会,看完之后大有醍醐灌顶的感觉,才知道AI绘画有很多门道,以前之所以生成的图片不好完全是因为不会用。 我们先看看这本书的目录: 这本书介绍了两个AI绘画软件的使用,第2章介绍Midjourney,第5章介绍Stable Diffusion,两者都是AI绘画软件中的翘楚。AI绘画软件的使用其实是很复杂的,它涉及 Prompt、风格、技术细节、多模态交互等诸多内容。第3章和第4章就详细介绍了这些内容。而书的第6到8章则是AI绘图的扩展和延伸应用,包括如何用ChatGPT辅助生成Prompt,以及如何生成视频等。 看了这本书之后,我才知道为什么以前绘制的AI图片不如意,因为AI绘图软件有非常多的参数可以设置,除了绘图的主体,背景中的物品、光线、风格、色彩,在Prompt中提供越多的参数设置,则生成的图片越接近设想。实际上要得到满意的图片,我们需要了解更多的美术知识,要告诉软件我们的构思,AI绘画软件才能很好的工作。我们的工作和画家是类似的,只是我们不需要画家所具备的绘制技巧。这本书中对所有涉及到的绘图技巧都进行了详细的介绍。 本书的实用性还在于它不仅仅介绍了各种软件的技术细节,还结合实际场景给出了很多实例。比如下面就是如何使用绘图软件生成模特穿上服装所得到的商品宣传图。 作为一本介绍AI绘画的书,本书采用全彩色印刷,非常精美。如果小伙伴们也有AI绘画方面的需求,不妨现在就去买一本《硅基物语》来研究一下: 京东自营购买: 点击这里
相关资源
  • 所需E币: 0
    时间: 2023-7-29 08:52
    大小: 1.21KB
    上传者: 开心就很好了
    AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现视频教程下载,视频+源码+课件!AIGC全称AI-GeneratedContent,指基于人工智能通过已有数据寻找规律,并自动生成内容的生产方式。AIGC既是一种内容分类方式,也是一种内容生产方式,还是一种用于内容自动生成的一类技术集合。NLP是目前世界上最实用有效的一门心理行为科学。NLP全名是NeuroLinguisticProgramming,中文译为【神经语言程序学】。大模型又可以称为FoundationModel(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。AIGC是目前自然语言处理和计算机视觉领域的前沿技术之一。它可以被用于很多应用场景,比如:1、在商业领域,可以帮助企业进行智能客服、舆情监测、自然语言处理等方面的工作;2、在教育领域,它可以辅助学生写作、阅读理解、语言学习等方面的任务;3、在医疗领域,它可以帮助医生进行医学文献智能分析、病历自动填写等工作;4、在游戏领域,它可以用于游戏中的角色设计、场景设计和动画制作等方面,便于游戏开发者更为快速、更准确地创造出高质量的游戏素材,提高游戏的制作效率和品质。
  • 所需E币: 0
    时间: 2023-7-29 09:51
    大小: 1.48KB
    当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。NLP大模型是被认为最接近人类中文理解能力的AI大模型,而CV大模型首次兼顾了图像判别与生成能力。未来的方向1.进一步扩大模型规模,改善模型架构和训练改善模型的架构或者训练过程可能会带来具有涌现能力的高质量模型,并减少计算量。一种方向是使用稀疏混合专家架构,其在保持恒定输入成本时具有更好的计算效率,使用更加局部的学习策略,而不是在神经网络的所有权重上进行反向传播,以及使用外部存储来增强模型。2.扩大数据规模在一个足够大的数据集上训练足够长的时间被证明是语言模型获得语法、语义和其他世界知识的关键。近期,Hoffmannetal.认为先前的工作低估了训练一个最优模型的训练数据量,低估了训练数据的重要性。收集模型可以在其上训练更长时间的大量数据,允许在一个固定模型尺寸的约束下有更大范围的涌现能力。3.更好的prompt虽然few-shotprompting简单有效,对prompting通用性的改善将进一步扩展语言模型的能力。
  • 所需E币: 0
    时间: 2023-7-25 15:34
    大小: 1.39KB
    上传者: 蝴蝶结欧恩
    分享一套课程——AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现,附源码+课件。本章节以当下最流行大模型技术为核心,通俗讲解CV与NLP任务中的经典大模型及其实现方法,详细解读其论文思想与应用场景,并结合实例进行项目实战。所选内容全部基于当下主流算法及其源码实现,覆盖CV与NLP核心应用场景与落地方案。AIGC全称为AIGeneratedContent,即人工智能生产的内容,认为是继PGC、UGC之后的新型内容创作方式。在技术上,AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。在市场需求上,由于Web3.0时代的到来,人工智能、关联数据和语义网络构建了形成全新格局,相关消费需求高速增长。传统的UGC\PGC内容生成方式将落后于现有需求,而AIGC技术的将成为新的内容生产方式,更被认为是元宇宙和web3.0的底层基础设施之一。