tag 标签: gpu

相关帖子
相关博文
  • 热度 5
    2022-4-2 14:28
    1703 次阅读|
    2 个评论
    聊聊元宇宙的建设进度
    今年英伟达 GTC ,Toy Jensen 又出场了。就是在去年 GTC 走红的、以黄仁勋本人为基础定制的一个虚拟人物形象——去年这个角色似乎还叫 Toy-Me。这是个可以进行实时对话的人物形象,能做眼神接触、对话,而且有全套的动画动作。宣传中,英伟达提到 Toy Jensen 是建立在 Omniverse Avatar 框架的基础之上。 就是这么个看起来简单的东西,实则浓缩了很多现代技术。初见此等技术,很多人可能会想:它很高端吗?能对话的智能语音助手不都一抓一大把?事实上,即便抛开对话式 AI 的质量不谈,Toy Jensen 也有很多技术点,或者说在造 Toy Jensen 过程中遇到的实际工程问题。因为这毕竟不是个简单预渲染的动画,而是你跟他说话,他立马做动作、表情、回应的虚拟角色。 首先是 Toy Jensen 的声音——是基于 Riva 语音 AI 的 Text-to-Speech RAD-TTS 语音合成。而面部表情则是用 Omniverse Audio2Face。去年其实我在谈元宇宙的文章里谈到过 Audio2Face,这个应用的神奇之处是在只有人声的情况下就能生成 3D 面部表达,嘴型都能和输入的音频完美匹配。 而支配 Toy Jensen 身体动作的是 Omniverse Animation 的 Animation Graph——这是应用于骨骼动画合成、回放和控制的一个 runtime 框架。Toy Jensen 的手、胳膊、头部和其他肢体动作都依托于此。 至于黄仁勋标志性的黑色皮衣,为了凸显 Toy Jensen 身上皮衣本身的皮革质感,令其看起来不像是塑料,需要用到英伟达开源的 MDL(Material Definition Language)。去年的 SIGGRAPH 上,英伟达宣布推出一个叫 Omnisurface 的东西,就是 MDL 的一部分,大约与此是相关的。 此外,要让 Toy Jensen 与人对话又需要动用到对话式 AI,也就是 Riva 和英伟达的 Megatron 530B NLP 模型……所以这称得上是现阶段集 AI 大成的作品了。 当涉足具体应用时,其关联的技术点还会更多。比如在今年 GTC 的 Omniverse Cloud 演示中,Toy Jensen 和另外三名设计师一起远程协作,也就是和真人一起完成设计工作:则其中涉及的 AI 和图形技术还会更多。 Toy Jensen 现阶段还只能说是英伟达用于炫技的一个虚拟角色,但同样建基于 Omniverse Avatar 的 Tokkio 虚拟机器人却是着眼于应用的,包括零售店、快餐店的服务 AI;今年英伟达也演示了 Tokkio 在智能驾驶汽车上直接与乘客对话并完成指定工作的过程。 当我们谈元宇宙这个话题时,图形计算、AI 一定是避不开的。而 Toy Jensen、Tokkio 必然成为元宇宙形成初期的某种示例和构成元素,即便我们现在离构建完整的元宇宙还略有些遥远。 这几件事让我感觉 元宇宙有眉目 参加今年的英伟达 GTC,有三件事让我印象非常深刻——让我感觉我们离元宇宙并没有很遥远,或者我们周遭原本就有了越来越多虚拟的东西。第一就是 Toy Jensen。 第二是黄仁勋在亚太区答记者问时,有个记者提问像 Omniverse 这样一个虚拟世界和技术,未来是否将模糊虚拟和现实的界限。“比如可能现在接受我们采访的 Jensen 就不是个真人。这会给世界带来混乱还是希望呢?”近两年受到疫情影响,GTC 活动的答记者问都是从线上接入的。 黄仁勋在画面那头是这么作答的:“其实现在我眼前的你,并不是真正的你。你经过了 H.264 编码、你数字化了,然后经过传输又以 H.264 解码,然后我才看到了这样的你——这已经不是你本人了,而是你的一个重构版本。” “如果我用 CV(计算机视觉)来对你进行检测感知,实际上检测的并不只是构成你的那一堆像素,还在于这背后的很多东西。比如说,能算出如果你现在要是站着,会是什么样子(因为采访时大家都坐着)。CV 所做的不只是‘所见’还在于‘所想’。然后再用计算机图形学来对‘想象中’你的样子(比如站着的你)进行重构。我就能以我期望的任何方式与你进行交互了。” “比如说可以 VR 的方式和你交互,我们可以在同一个房间里走来走去。”黄仁勋说,“这就不光是数字化、编解码的问题了。这是我们所做的工作,改变通信过程的一个例子。” “而 Omniverse 是我们的一个平台,用于模拟现实世界。我们的首个应用就是机器人——要是没有 Omniverse 的话,机器人的编程、测试就只能放到真实的环境里去进行。但机器人很笨重,测试过程会存在各种危险。那我们就需要一个虚拟的版本,机器人的数字孪生版本,把它放到 Omniverse 世界里——在这样的环境下对机器人进行编程测试。而且在该环境下,机器人的运作也是符合各种物理学定律的,就像真实世界一样。” 这是现在已经达成且在高速发展中的技术。说更近一点的,Zoom、腾讯视频之类的远程会议 app 如今都有“虚拟背景”功能。这大概就是最初级和简单的虚拟世界存在我们身边的佐证了吧。 第三,是黄仁勋在主题演讲过程中展示了某个虚拟人物(如上图,点击看动图,或者叫 AI-powered character)。黄仁勋说:“我们用强化学习来开发更贴近真实生活,和能够进行真实响应的模拟角色。这些角色基于人类动作数据——比如说走路、跑步、挥剑——来学习各种人类真实动作。” 据说这些角色训练机制是要求 10 年期的模拟的,而基于英伟达大规模并行 GPU 模拟,只需要现实世界中花 3 天时间就能训练完成。随后这些角色还能掌握各种技能,执行更复杂的任务。比如说撞倒某个东西、往不同方向前进,甚至我们可以随便输入一句话来控制角色。从演示来看,其动作流畅、自然程度与人类基本无异。 “我们希望这项技术最终能让虚拟人物的交互,就像和真人对话一样简单、流畅。”这项演示因为是基于模拟出的人形角色(而不是机械臂、物流机器人),所以第一次让我感觉“AI”是如此生动和真实的存在,仿佛随算法与算力堆砌,这些人形角色总有一天会有科幻电影呈现出的行动力。将其复制一份到现实世界,是否就是真正的生化人? 以上这三者都与虚拟世界、AI 有着莫大关联。在英伟达的生态帝国里,NVIDIA Omniverse 和 NVIDIA AI 是平台层的两个支柱,下面这张图展示了其间关系。感觉这张图的梳理,对于理解英伟达涉足的业务,有着相当大的帮助——否则,这公司的市场概念如此之多,而且有些隔年还改名,我们这些普通人实在很难记得住… 总结一下,今年 GTC 有关 Omniverse 和 AI 的发布内容主要有以下这些: • 发布 Nvidia Omniverse Cloud; • 发布 Nvidia OVX 与 OVX SuperPOD; • 发布 Spectrum-4 交换机; • 发布面向桌面 PC 的 RTX A5500 GPU;面向笔记本的更多绘图专业 GPU; • Omniverse 平台与生态的相关发展与更新(如 Connector 增加到 82 个;有更多新的客户;Omniverse Kit、Nucleus、XR、Replicator、DeepSearch 等应用和组件更新); • 发布 Nvidia AI Accelerated 项目; • 发布 Nvidia AI Enterprise 2.0; • Nvidia AI 部分库、软件和工具的更新(如 Triton、Riva 2.0、Maxine SDK、Merlin 1.0、Nemo Megatron) • 发布代理气候模型 FourCastNet;用于 6G 通信研究的 Sionna 框架;还有一些公布的信息是往届 GTC 有过介绍的(或者这些内容有新的更新),比如说用 Modulus 打造 Earth-2 地球的数字孪生,再度介绍用于网络安全的深度学习模型 Morpheus 等。 机器人、汽车原本也属于 Omniverse 和 AI 的组成部分——如前文提到将机器人放进虚拟世界中训练,其中关乎到合成数据生成、训练模型、模型部署测试之类的问题,这些也都在英伟达的射程范围内。 不过因为机器人和汽车风头正劲,所以这两年英伟达都是单独将其拿出来谈的。今年事实上也有一些关键更新,比如说面向 AMR(自主移动机器人)发布了专门的 Isaac SDK,还有面向汽车的 Hyperion 9 发布等等。但这些不成为本文探讨元宇宙的组成部分。 元宇宙的雏形,数字孪生 虽说把 Omniverse 叫做元宇宙是不对的,但私以为 Omniverse 是现阶段最接近元宇宙、且更能落地的东西。如果你不知道什么是 Omniverse 的话,建议你 看看这篇 文 章 。 Omniverse 现阶段在做的是两件事:设计协作与模拟仿真。设计协作比较类似于我们用云共享文档,直接合作编辑 word 一样。但 Omniverse 的设计协作是面向 3D 设计、建筑及更多专业视觉向的工作。创作者可能位于全球不同位置,而设计流程则可能涉及到各种不同的软件工具。 而模拟仿真,主要体现在数字孪生(digital twin)上。比如这次 GTC 上列举的一个例子,是 Siemens Gamesa 公司用 Omniverse 和 Modulus 搞风力发电厂的数字孪生。为了让风力发电厂输出电力最大化,可在虚拟世界先做各种环境、配置模拟。据说速度比成本高昂的涡轮仿真要快 4000 倍。 最大规模的数字孪生,则是去年英伟达就宣布要搞的 Earth-2 超算,作为实体地球的数字孪生。而且是可以实时交互的数字版地球。 3D 的数字孪生世界有一个基本前提,就是这个世界是必须符合物理学定律的,包括粒子、液体、材料、弹簧、线缆等等的物理特性模拟。游戏中我们常说的光线追踪就属于这样的模拟。 有没有感觉这稍微有点元宇宙的样子了?我始终认为,数字孪生的精度提高、规模扩大,终极版本就是元宇宙。而模拟仿真、数字孪生本身,又可认为是设计协作的高级阶段。 今年针对 Omniverse 世界的搭建,英伟达发布的硬件主要包括了 Nvidia OVX 服务器、OVX SuperPOD 集群。其配置特点就是满足工业数字孪生需求,处理延迟敏感、更要求实时性的工作——包括 32 台 OVX 服务器组成的 OVX SuperPOD 集群。英伟达说 OVX 要覆盖从汽车、工厂,到城市、地球各个级别的数字孪生项目。 另外这次发布的 Spectrum-4 交换机(用于这类 SuperPOD 集群的互联)也可认为是未来元宇宙发展的某一类基础设施,或者基础设施雏形吧。今年 GTC 的媒体沟通会上,英伟达技术专家提到 Spectrum-4 与那些一般处理 mouse flow 流量(大量用户、但 flow 数没那么多)的交换机不同,偏重在处理 elephant flow 流量(比如模拟整个地球所需的流量)。 所以 Spectrum-4 是为 RocE(RDMA over Converged Ethernet)打造的,数据共享会更快,比如可以实现 GPU direct storage。与此同时“相比一般数据中心毫秒级的抖动,Spectrum-4 可实现纳秒级计时精度,有 5-6 个量级的提升。” 另一个有关 Omniverse 比较值得一提的新发布是 Omniverse Cloud。其本质就是完全云化的 Omniverse。如果打比方的话,它和云游戏是近亲。在本世纪初云游戏概念出现以前,上世纪 80 年代就曾出现过用远程服务器做 3D 图形绘制,并将结果以图像形式回传给客户端的设计思路。 在 Omniverse Cloud 服务下,终端设备不需要 RTX GPU,可以是平板、手机、轻薄本、Mac 电脑,通过 GeForce Now 接入到 Omniverse Cloud。黄仁勋形容“一键设计协作”,就是只需要给你的同事发个 URL 链接,他在任何算力的终端设备上,点击链接就能进入到 Omniverse 的设计协作项目中。(似乎也有部分算力下放到本地的选择) 这在 3D 设计、数字孪生领域应该是挺举颠覆性的。只不过 Omniverse Cloud 目前还处在测试阶段,正式发布时间尚未知。而且以我对云游戏的了解,这种追求实时交互的云计算基础设施的建设和运维成本会是非常高的,尤其要达成比较好的体验,有大量工程问题要解决。 但我想,英伟达这么做主要应该也是为了扩大 Omniverse 的覆盖范围,让任何设备,即便是算力比较弱的设备也能用上 Omniverse。而且一键设计协作,以及通过 Omniverse Cloud 在数字孪生环境里测试新软件,都非常像是元宇宙的必要组成了。在元宇宙构成中,大家也是这么看云游戏的。 元宇宙发展要素 ,A I 原本谈元宇宙的基础设施应该去聊一聊底层芯片的。英伟达的芯片,尤其是 CPU、GPU 是今年 GTC 的重头戏。不过这部分我已经写了一篇7000字文章。对于 Hopper GPU,和 Grace CPU 感兴趣的同学可以移步看一看。虽说英伟达常年强调,自己不只是一家芯片公司,这仍是其赚钱和各项业务开展的基础。 而英伟达 GPU 架构迭代,越来越有 DSA 的样子;类似 Grace 超级芯片这样的 CPU,也有特别的场景针对性。对未来需求海量算力和芯片资源的元宇宙而言,这些可为此奠定基础。 而且 Hopper GPU 更新今年强调的就是 AI 算力,反倒没那么在意 HPC。不管是因为英伟达在 AI 市场吃下了多少红利,所以在堆料方面有了偏向性,还是英伟达在数据中心方面有别的发展思路,AI 作为元宇宙的必然要素是毋庸置疑的。 从前文英伟达的那张四层图就能看出 Omniverse 和 AI 之间有着错综复杂的关系。包括前面举的例子,虚拟角色走路、跑步、挥剑训练本身就是在一个符合物理学原理的虚拟图形世界里,与此同时这种训练必须借助 AI 技术。而机器人、汽车的模拟测试就更是如此了,像 DRIVE Sim,可以理解为把汽车的数字孪生,放在虚拟世界里路测,甚至可以搞一些 AI 生成的对抗场景(Adversarial Scenarios),以训练自动驾驶应对各类极端突发状况的能力。(汽车本身就是一种特殊的机器人) 英伟达是从 AI 基础设施硬件,到上层应用框架,提供全栈支持的企业——包括很多现成的预训练模型和迁移学习工具,还有合成数据之类。我采访过很多 AI 芯片公司,他们对于英伟达的态度普遍是 PPT 吊打,但私下很明了市场覆盖和生态搭建上,相比英伟达难以望其项背,所以只考虑一些竞争没那么激烈的市场——包括一些你们现在所知的顶尖的独角兽 AI 芯片公司。 今年 GTC,英伟达宣布开启 AI Accelerated 计划。英伟达给的数字是现在已经有超过 100 名成员加入。这个计划似乎是英伟达会帮助开发者来解决部署问题;或者说应该是加速 AI 发展,以及加速自家 AI 技术覆盖的计划。 Nvidia AI 这次的几个主要更新包括了 Nvidia AI Enterprise 2.0 发布。Nvidia AI Enterprise 本身是面向企业可应用 AI 技术的套装和服务。英伟达的说法是,让那些没有 AI 专家的企业,也能用上 AI;让 AI 开发部署流线化;企业自身可以专注在 AI 创造的价值上,而不必在意基础设施管理之类的问题。 除了企业级支持,更新到 2.0 版本的重点在于,可以跑在 vmware 和 Red Hat 认证平台上,包括裸金属虚拟化或者 container;以及获得 AWS、Azure、Google Cloud 支持;基于英伟达认证的服务器配置。 另外两个比较重要的更新是 Riva 语音 AI SDK 更新至 2.0 版,以及 Merlin 推荐系统框架发布 1.0 版——就是互联网公司现在普遍会给用户搞各类推荐服务(如推荐商品)的实现基础。 Riva 在前面谈 Toy Jensen 的时候就提到过,是个可用于语音识别、text-to-speech 的套件,里面也包括了模型——可以用迁移学习工具来做个性化的模型精调。2.0 版这次总算是宣布面向大众了。另外还有新发布的 Riva Enterprise,面向大规模部署,其中当然也有 Nvidia 的企业级支持服务。 而 Merlin 是面向数据科学家、ML 工程师的推荐框架。英伟达说只需要少很多的代码就能扩展出一个 recommender。这次 1.0 版的发布,也是让 Merlin 正式面向大众开放了。限于篇幅,更多有关 AI 的发布不再做介绍。 黄仁勋说现在很多公司都开始出现一个名叫 MLOps 的部门,职能就是把手里掌握的数据转为可预测的模型,实现智能化,最终转化为利润。这可能就是未来诸多企业的发展归属吧。像这样的发展,本身就是在为元宇宙添砖加瓦。 推进 再推进 今年英伟达发布了一个叫做 FourCastNet 的模型,全拼 Fourier Forecasting Neural Network,是好几所高校的研究人员,外加英伟达一起打造的气候预测模型,可以预测飓风、大气河流、极端降水等灾难性事件。而且据说精度、准确度非常高。 “这是我们第一次能够用深度学习的方式去实现,相较于传统数值模型有着更高的精度和能力。”英伟达的工程师说相比传统的数值模型,速度快 45000 倍,而且能效高出 12000 倍。以前一年才模拟出来,现在只需要几分钟。另外还强调这个模型是所谓 physics-informed 的。 与此同时,英伟达再度谈到了 Modulus,这是个用于开发物理学机器学习神经网络模型的框架,以符合物理原理为准则,构建 AI 模型。FourCastNet 就是基于 Modulus,融入 Omniverse,辅以 10TB 的 Earth 系统数据,以数字孪生的方式打造的模型。 这应该是英伟达构建地球数字孪生的一个组成部分,部分达成与地球数字孪生的实时交互。那么我们是否可以说,客观上它就成为了元宇宙的一部分?虽然或许人们对于元宇宙的需求,还需要更多内容的填充。这个例子也是 Omniverse+AI 的一个绝佳体现。 这两年我们常说以前以视频加速卡起家的一家企业,有没有想过未来某一天会要去考虑人工智能、基因测序、计算化学、数字孪生、自动驾驶、智能机器人、元宇宙这样宏大的议题。今年 GTC 上看到有关 Omniverse 和 AI 的更新,已经不像前两年那样是看各种琳琅满目的新词汇和新概念了,而是有更多的东西正在稳步更新、推进中。 不过从英伟达这些年在 HPC、AI、Omniverse 生态的努力上更能看到元宇宙构建的难度,这绝不是任何企业凭借一己之力就能轻松达成的。比如 Omniverse 的生态建设就尚在早期,Omniverse Cloud 也才刚刚发布测试版而已;而 FourCastNet 的达成,更是多方长时间合作的结果。
  • 热度 3
    2021-11-5 21:35
    2934 次阅读|
    10 个评论
    国产DPU,弯道超车?
    11月4日,芯片巨头英伟达股价周四大涨12.04%,收于298.01美元,创去年3月以来最大单日涨幅,市值首次突破7000亿美元,达到7450亿美元,超过伯克希尔哈撒韦公司,市值位居全美第七,,超过台积电的5921.4。英特尔和三星的市值分别“仅仅”为2010和4000 。11/8-11/11 芯片巨头英伟达即将举行GTC2021全球大会,当之无愧的AI和计算的全球盛会,英伟达在国内同行跟进GPU发展的时候,其已经推出的DPU概念已经在产业界和资本界火得一塌糊涂。无出左右,跟进GPU的资本也会大量继续跟进DPU的发展,而中科院计算所也最近推出了《专用数据处理器(DPU)白皮书》,正式阐述了中国科技界和产业界对于DPU的态度,综合国内和国外的产业形势,简单去分析DPU的发展状况. 国外篇: 一. GPU龙头大哥英伟达 英伟达推出的BlueField系列DPU,在支持网络处理、安全和存储功能的同时,实现网络虚拟化、硬件资源池化等基础设施层服务。BlueField DPU既是一个承担高带宽(100Gbs/200Gbs/400Gbs)的网络处理器,同时也是一个独立的嵌入式处理器,它管理着众多加速器引擎,比如加密解密、正则表达式匹配以及存储加速等等。BlueField DPU也可以通过ARM核运行嵌入式Linux系统,处理一定控制面的任务,具有一定的通用能力。英伟达 2020年推出BlueField-2系列 DPU,并计划在2022年推出性能更强的BlueField-3 DPU。 二. 传统CPU巨头英特尔 英特尔的IPU(Infrastructure Processing Unit)是一种具有强化加速和以太网连接的网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施。 IPU提供完整的基础设施卸载,并通过充当运行基础设施应用程序的主机的控制点来提供额外的安全层。通过使用IPU,可以从服务器卸载与运行基础设施任务相关的开销。云服务供应商(cloud service provider,CSP)软件在IPU本身上运行,而租户的应用程序在服务器CPU上运行。这不仅释放了服务器上的资源,同时优化了整体性能,而且为CSP提供了一个单独且安全的控制点。IPU将基于硬件的数据路径(包括 FPGA)与处理器内核相结合,使得基础设施以硬件的速度处理,能够跟上不断提高的网络速度和软件实现控制平面功能的灵活性。IPU具有以下三个优势:基础设施功能和租户工作负载物理分离允许用户完控制CPU;供应商可以将基础设施任务完全卸载给IPU,有助于提高CPU资源利用率,最大化收益;实现完全无磁盘服务器架构的云数据中心。 三. 网络芯片巨头博通/Marvell 2021年6月28日Marvell发布了基于5nm工艺的OCTEON 10系列DPU,搭载了算力强劲的ARM Neoverse N2核,并且配备了多种硬件加速模块,包括加解密、包处理及人工智能推理加速器。同时为了提供用户友好的可编程接口,提高应用开发效率,Marvell配套硬件设计了包括DPDK、Marvell ML toolchain等在内的软件开发平台。 博通NetXtreme-S BCM58800是一种单芯片SmartNIC解决方案,在板级生产方面的成本较低。然后,他们在集群配置中部署了主频为3GHz的8个Arm v8 A72核心,逻辑单元能够以高达90千兆/秒的速度卸载加密,同时卸载擦除编码和RAID等存储处理。最后,博通还采用了具有神秘色彩的TruFlow技术,这是一个可配置的流加速器,用于将常见的网络流过程转移到硬件中。博通的产品更多被视为智能网卡。 四.全新创新公司Fungible Fungible成立于2015年,目前拥有约200名员工,总筹资超过3亿美元。其他投资者包括Battery Ventures,Mayfield Fund,Redline Capital和Walden Riverwood Ventures。其新资本将用于加速产品开发。思科系统(Cisco Systems)四位资深工程师创办,前任总裁 John Chambers 担任董事长的Pensando,Juniper Networks CTO 兼联合创始人创办的 Fungible。 针对以数据为中心(data-centric)应用的处理,Fungible研发了F1 DPU处理器和TrueFabric互联技术。TrueFabric是由Fungible首先提出的新型大规模数据中心网络互联标准,这种Fabric互联协议基于标准的UDP/IP/Ethernet协议栈构建。RoCEv2是一种当前数据中心网络中主流的互联网络协议,该协议同样基于UDP/IP/Ethernet搭建,对终端提供高性能的RDMA Read/Write服务,而TrueFabric对接入点提供高性能Send/Receive服务。Fungible F1 DPU原生支持TrueFabric,因此F1 DPU可以用于大规模TrueFabric数据中心网络,不同类型的服务器都可以将Fungible DPU作为网络接入点。 从技术路线来源和传承来看,从事高性能计算计算加速的方案:基于GPU和FPGA的加速的技术经验,来实现数据处理器的方案,以英伟达,英特尔为主要的参与厂家,赛灵思则是被认为智能网卡的产品,基础的技术线路和方案比较接近。 另外一种技术线路来源则是从事数据交换,网络通信的厂家的方案:更多的方案是基于网络通信和数据交换/数据处理的经验和方案,以博通和Marvell厂家为主,未来基于ARM内核方案。 Fungible是思科的童鞋干的,更多倾向于网络技术方案,ARM内核方案。这两类厂家之前竞争是集中在网卡,也就是服务器网卡,英特尔网卡/博通网卡/迈络思网卡是市场上的主流网卡供应商。而AI计算,智能计算和算力的概念联系上以后,该产品被上升到计算架构的高度,并被媒体吹嘘到了突破摩尔定律的路径,究竟是这些国际大厂的忽悠赚钱的故事,还是真正的技术颠覆有待未来应用,但是热钱是不愿意放过这么好的故事概念的。 国内篇 一、 中科院系(中科驭数) 概述:所有的大芯片和计算芯片,都无法绕过中科院计算所,CPU有龙芯,DSP有中科本原,不过GPU好像是没有怎么参与。但是国内的DPU领先的厂家也就是数中科驭数,目前有自研的DPU架构,2019年第一代产品已经流片,第二代产品也是研发中待流片,支撑公司运行的也是智能网卡。技术方案和路线,并不是太清晰。 团队:中科驭数成立于2018/4/25日,创始了鄢贵海,北大到中科院计算所博士后,一直从事计算理论:专用计算架构、机器学习和金融计算;联合创始人兼CTO卢文岩及首席科学家李晓维也是中科院计算所,高级副总裁张宇是北大背景,在亚马逊等从事科研工作。 融资:2021年7月份A轮融资,上亿元,具体不详,由华泰创新领投、灵均投资以及国新思创跟投,本轮融资将主要用于第二代DPU芯片K2的流片以及后续的研发迭代。 二、 GPU企业加持(云脉芯联) 概述:GPU对于壁仞科技也是个新的赛道,但是考虑到高速计算和智能计算,DPU是无法绕开的赛道,就开始继续布局,一站式。壁仞科技要投资云脉芯联,技术路线无法确认。ARM,ASIC,FPGA还是GPU方案。 团队:云脉芯联成立于2021/5/23日,CEO刘永锋,创始团队由长期致力于数据中心网络领域技术和市场的领军人物以及来自世界名企的软硬件系统和芯片研发资深专家组成。 融资:10月22日,DPU初创企业云脉芯联宣布获得数亿元天使轮投资,由IDG资本、壁仞科技、字节跳动等共同投资。目前看,公司处于建立阶段,主要肯定用于人员组建和办公等研发费用。 三、IP企业(芯启源) 概述:IP企业也进入GPU赛道,因为有IP核的优势,所以IP企业比较多参与这类高热门的芯片。 团队:芯启源成立于2015年,其期初是从事IP和EDA的企业,创始人卢笙本科毕业于上海交通大学,并取得美国Lamar University工程科学硕士学位。20年来专注在半导体领域,先后在Broadcom、Marvell、ArtX等公司担任重要岗位,带领团队在芯片研发、管理等领域做出卓著业绩。公司其他核心团队成员均在芯片领域深耕多年,具有极其丰富的行业经验和广泛的产业资源。芯启源拥有一支世界一流的研发管理团队,在湖州、上海、南京、香港、美国硅谷等地均设有子公司和研发中心。据悉,芯启源研发团队中大多来自Marvell、Broadcom、Intel、中兴通讯、百度等国内外顶尖芯片厂商,在芯片设计、网络通讯、云数据中心有着成熟丰富的经验。目前已经推出商用智能网卡产品。 融资:近日,芯启源宣布完成数亿元的Pre-A4轮融资,本轮融资由 中国互联网投资基金 领投, 华润资本润科基金、兴旺投资、允泰资本、正海资本 跟投 ,老股东熠美投资(上海市北高新大数据基金) 继续跟投。据悉,此次融资将进一步支持芯启源在下一代DPU芯片的研发投入,加速在5G、云数据中心的生态布局,持续强化芯启源在国内这一领域的领跑地位。今年6月,芯启源刚宣布完成数亿元的Pre-A3轮融资。 四、全新初创企业(大禹智芯、云豹智能、星云智联) 1. 大禹智芯 团队:北京大禹智芯成立于2020/5/20,团队来自一流的互联网企业:Patrick,大禹智芯首席科学家。10年以上芯片及FPGA研发经历,硅谷一线芯片公司担任芯片架构师,先后任全球两家头部云计算公司智能网卡软硬件团队负责人。李爽,大禹智芯创始人兼CEO。曾任职美团云总经理、阿里巴巴集团网络部总监、百度系统技术委员会主席;曾主导参与云计算战略和互联网巨头技术平台搭建,多次正确预判了技术范式与业务形态的发展路径;王昕溥,大禹智芯CTO。曾任职美团云技术总监、阿里云和蚂蚁金服网络产品研发负责人、百度CDN平台研发负责人,云计算领域专家,拥有多年大型互联网/云基础设施技术领导经验;百度工作期间成功研发**代CDN系统;阿里巴巴工作期间自主研发负载均衡设备实现对F5替换,完成云VPC、云DDoS防火墙、SSLoffload加速卡定制集成,阿里云DNS产品等高性能网络组件研发工作。高亚滨,大禹智芯COO。曾任职思科XaaS与云协作业务大中华区总经理、阿里巴巴全球技术战略合作总监;具备多年ToB服务及技术战略合作经验;拥有担任多家企业的销售负责人、产品总经理、战略合作等市场核心岗位的经历。 融资:2021年7月,大禹智芯宣布完成数千万元Pre-A轮融资,由华义创投和奇绩创坛投资,本次融资金将用于 DPU 产品的研发、生产投入以及高端人才的引入。作为国内领先 DPU 创业公司,大禹智芯在成立之初就获得了天使轮融资,由中科创星和惟一资本联合投资。 2. 云豹智能 团队:深圳云豹智能有限公司成立2020/8/28日,由原RMI公司(后被Netlogic/Broadcom收购)co-founder Sunny Siu博士联合业界精英联合创立,核心团队来自阿里巴巴、海思、Broadcom、Intel和Arm等,拥有中国*有经验的DPU芯片和软件设计团队;云豹智能芯片和解决方案面向云计算服务商、新型互联网公司、5G运营商及大型企业,为解决云计算新技术需求,提供中国***款高性能云原生DPU SoC芯片和解决方案。 融资:云豹智能投资方包括红杉、腾讯、华业天成和耀途,深创投等,具体金额不详,目前应该处于天使轮融资,暂时无具体产品推出。 3.星云智联 团队:珠海星云智联有限公司成立于2021/3/22日,星云智联在业界首屈一指的技术团队带领下,汇集来自硅谷、以色列、加拿大的计算通信领域芯片和软件顶级专家,必将成为未来云计算和数据中心基础互联通信架构和DPU芯片的领导者。星云智联这支过往成功的实现了多领域通信与网络芯片开发的团队, 是目前国内唯一达到了全球领先水平,真正有能力开发出DPU及其生态系统的团队。 具体的创始人,技术领军人物不详细。暂时无产品,也无流片。 融资:2021年4月,DPU芯片研发商星云智联宣布完成数亿元天使轮融资,融资高瓴,鼎晖和华登国际零头,2021年7月,PRE-A轮由老股东鼎晖VGC(鼎晖创新与成长基金)领投;现有投资方高瓴创投(GL Ventures)、华登国际继续追加投资;BAI资本、复星(旗下复星锐正资本、复星创富)、华金投资、金浦投资(旗下金浦科创基金)、嘉御基金、松禾资本、沃赋资本等多家投资机构跟投。,目前看是天使轮融资。2021年8月30,A轮,美团战略投资部,数亿金额。 4.益思芯科 团队:益思芯科技(上海)有限公司 成立于2020/7/13日,技术团队由国内外网络、存储、系统领域的核心专业人员、研发人员组成,在网络、交换、存储及高性能CPU方面领域具有深厚的技术实力。益思芯科技的创办人黄益人先生是美国 CNEX Labs(曾获美国戴尔 Dell、思科 Cisco Systems、微软、Seagate、三星、Micron 等机构的战略投资)的联合创始人和 CTO;拥有近三十年芯片设计经验,毕业于上海交通大学,后留学美国密歇根理工大学,曾在思 科系统(Cisco Systems)、Sandforce 和华为美国研究所Futurewei负责交换机芯片、固态硬盘控制器、智能网 卡的架构与设计;拥有 几十 项美国专利发明,其中包括 NVMe over Ethernet、 Interlaken 等协议相关专利。 融资:8月25日消息,国内 DPU 芯片领军企业益思芯科技(上海)有限公司(以下简称“益思芯科技”)完成 Pre-A 轮融资。本轮融资由联想创投、栎芽资本(Oakseed Ventures)联合领投,励石创投、鼎心资本、东方富海、一旗力合强力跟投。 5.其他生态链 互联网厂家里面,腾讯,百度,字节,美团都有资本布局DPU,但是未来怎么应用DPU在数据中心,都没有确定方案。阿里自称神龙DPU,目前看算是布局的比较早的厂家。 深鉴科技把自己的产品定义成DPU,是数据处理单元,而非数据处理芯片,跟主流的DPU概念不一样。 ICT硬件厂家:华为有自己的智能网卡产品,仅限于智能网卡;浪潮也是基于英伟达bluefield推出智能网卡产品和加速产品,新华三和曙光都有基于英伟达bluefield的服务器整机产品,从理论上推测应该是小量产品,配合英伟达的合作行为。 国产GPU中已经有成熟商用和军用的产品,虽然比起英伟达有不少距离,但是国产DPU中暂时还没有拿得出手的产品,未来到底鹿死谁手还是未知数,也不清楚市场和客户对该类产品最终认可和应用结果,但是务实的研发和推出产品是对中国半导体和资本负责任的态度,才有可能取得成功。目前DPU也未像CPU和GPU那样受到生态强弱的影响,DPU厂家更多是考虑技术因素,您可以适配X86架构,ARM架构,MIPS架构,也可以适配美国巨头,也可以适配中国飞腾,龙芯,兆芯,海光,申威,从起跑线来看,同欧美厂商有5年左右的差距,追赶存在可能,中国科技界不希望这个盛会只是英伟达的独唱,中国人陪太子读书,创业成了资本圈钱的游戏和割韭菜的把戏,中国的半导体大芯片需要“长期主义”,需要有人“卧薪尝胆”。
  • 热度 7
    2021-7-3 15:38
    265096 次阅读|
    5 个评论
    国产GPU:人潮汹涌
    2021年6月29日报道: 自今年5月初以来,英伟达的股价呈现明显的上涨趋势,市值也是在不断向5000亿美元靠近。而在本周一盘中,英伟达市值一度超过5000亿美元,收盘时略有下降。 两倍于英特尔,英伟达市值超5000亿 本周一,得益于相关的芯片厂商公开支持英伟达收购ARM,英伟达的股价开盘后一路上涨,市值超过5000亿美元,最终收盘时,英伟达股价为799.4美元,较前一交易日761.24美元的收盘价上涨38.16美元,涨幅为5.01%。虽然收盘时市值为4980亿美元,但已经超过英特尔等老牌半导体企业。 在目前的半导体行业中,英伟达的市值仅次于以晶圆代工业务为主的台积电,后者的市值目前已经超过6000亿美元。相比英特尔2321.04 亿美元和三星电子2790.06亿美元的市值,英伟达的优势明显。 5月底,英伟达发布了其2022财年第一季度财报,财务报告显示,英伟达的游戏、数据中心和专业可视化业务的季度收入都打破纪录。 英伟达的市值位居目前半导体企业首位,成为当前科技行业的香饽饽,为什么一家以游戏显卡发家的企业,将英特尔,高通,博通挤下榜首。 因为其开发的核心产品GPU芯片是AI产业应用的关键器件,是高速计算,智能计算的关键因素,而大洋彼岸的中国企业也发现了GPU芯片的 巨大价值,原本冷冰冰的行业迎来了大量的风险资本进入,成为芯片四大件中(CPU/GPU/FPGA/DSP)最闪亮的一颗。 一.资本汹涌的GPU初创公司 从2017年11月开始, 上海登临科技有限公司 成立之初,上海分别迎来了上海天数智芯半导体公司;上海壁仞智能科技有限公司 ; 沐曦集成电路(上海)有限公司四家GPU初创公司,而且企业大部分都是英伟达,AMD的中高级技术人员参与,瞄准都是7nm,5nm的先进 制程,对标都是英伟达的最新产品,雄心壮志,只不过从市面上商用的情况来看,很多都是概念阶段,最好的也是流片出来,客户试用中。 这几家企业多的融资三轮达到40+亿,少得也有十几亿,确实可以看到互联网企业投资一样的趋势。而且其中有行业大佬参与,天数智芯的董事长 是紫光国芯的董事长。 当然,最引人注目是2020年10月在北京成立的摩尔线程,人才还在招募中,已经融资11亿,据说最重要的因素就是其背后是原英伟达 中国的总经理张建中,足见目前资本对GPU的关注程度,之所以关注,我想绝对不是因为GPU是国产化重要核心产品,而是其是AI概念中的 核心因素,可以带来巨大的概念价值和投资价值。 芯片产业和传统互联网产业,消费互联网有着截然不同的投资逻辑,不清楚这样的方式是否会引发泡沫,将原本不多的行业人才全部吸引 到了一些原本就无心搞实业的地方去。 当然,真正从事GPU产品研发和为国铸重器的企业还是在扮演重要角色。 二.GPU湘军是国产GPU的重要角色,也是目前国产民用GPU中最为成功。 长沙景嘉微电子股份有限公司成立2006年,是国有军工企业改制而成,从JM5400,到JM700,到JM7200,28nm产品,JM720规模商用, JM920系列研发中(14nm),下一代GPU产品JM9231主要针对国产化办公电脑,便携式计算机、中低端的游戏机和高端嵌入式系统等消费电子领域; JM9271主要针对人工智能、安防监控、语音识别、深度学习、云计算等对计算速度要求非常高的高端应用领域,正逐步走向民用。 长沙韶光半导体有限公司成立于2004年,是国有军工厂改制而成,目前为航锦科技控股,目前GPU产品SG6931已经为胜云光电批量订购, 另外长沙先进技术研究院、天津飞腾信息技术有限公司、天津麒麟信息技术有限公司、中电科技(北京)有限公司、同方工业有限公司 都合作建立装备应用中心。 在已经商用的GPU和显卡产品中,两家是未来最有机会成为各大整机厂家应用的,可惜资本没有涌入,因为资本的趋利性,什么一开始就 7nm,5nm更激进的概念才能带来更多利益导向。 三.军工院所是国产GPU的骄傲 中船重工716所, 位于江苏省连云港市,研发了JARI G12 GPU, JARI G12是目前性能最强的国产通用图形处理器。该处理器采用混合渲染架构, 兼顾资料频宽和渲染延时需求,极大的增强了晶片的灵活性和适应性;提供PCIe 3.0汇流排,支援x86处理器和龙芯、飞腾、申威等国产处理器; 支援4路数位通道和1路VGA输出,提供DP、eDP、HDMI、DVI等通用显示介面,单路数位通道最大输出解析度为3840×2160@60fps,支援扩展、 复制显示和“扩展+复制”显示模式;内建视频编解码硬核,支援2路3840×2160解析度视频的编码、解码功能;支援OpenGL 4.5和OpenGL ES 3.0, 满足高性能3D加速和VR显示需求;支援OpenCL 2.0,满足平行计算和云计算的使用需求;集成张量加速计算硬核,支援AI计算加速。该GPU 支援Windows、Linux、VxWorks等主流作业系统,同时支援中标麒麟、JARI-Works、道等国内自主可控作业系统,具备健全的生态环境体系。” 可以判断JARI G12支持PCIe 3.0,支持DP、HDMI、DVI输出,支持2路4K视频解码、编码,图形API支持到了OpenGL 4.5,还支持OpenCL 2.0加速, 但没有DX支持的信息,不过ARI G12还集成了张量单元,支持AI运算。 中船重工709所, 凌久GP101,但是这款GPU在网上更为神秘,连一张图片都没有,除了新华社一篇报道之外很少有资料介绍这款GPU。根据 中船重工709所相关负责人介绍说,凌久GP101图形处理器芯片支持HDMI、DVI、VGA等通用显示接口,支持2D、3D图形加速和OpenGL ES2.0, 支持4K分辨率。同时,支持视频解码和硬件图层处理等功能,可以广泛应用于军民两用电子设备、工业控制、电子信息等领域。 从官方通报信息 来看,凌久GP101的规格不算先进,API才支持到OpenGL ES 2.0,这是针对移动处理器的API规范。不过这款GPU应该也是用于军工产品的, 所以性能也不是问题。 四.国产CPU厂家和IP厂家的GPU开发,也是国产GPU发展重要力量。 上海兆芯是上海国资委和威盛电子合作的高科技企业,其重要产品是国产兆芯CPU,目前其也开发了一款消费级的GPU产品,但是应用 在低端消费产品,技术上未有太多创新,从无到有过程; 海光信息和龙芯在2018和2019年都分别在资金和人才投入了GPU项目,但是目前并没有在市场上反馈出产品,当然可以成为未来GPU 队伍中一支重要力量。 另外位于珠海/武汉的IP企业芯动科技,也和Imagnation合作,开发GPU+产品,其主要应用也是智能计算,云计算上,毕竟不同于初创 企业,其在芯片设计上有多年积累,也更为靠谱。 当然在手机端的GPU开发,华为也有对应的产品。 作为中国人,我们肯定高兴有更多的资本和人才去投入开发GPU,未来的AI,计算都是科技竞争的重要力量。 人潮汹涌,感谢遇见你,真正做GPU产品的企业。 加油,中国GPU。
  • 热度 2
    2021-2-25 11:34
    1176 次阅读|
    1 个评论
     赛昉科技将在2021年1月发布的星光人工智能(AI)单板计算机的后续量产版本上加入Imagination GPU,以添加强大、灵活的图形处理性能,使该单板计算机的功能更加完善。 Imagination Technologies宣布:业界领先的RISC-V 处理器、平台及解决方案提供商赛昉科技有限公司(StarFive,以下简称“赛昉科技”)授权采用了Imagination的B系列图形处理器(GPU)知识产权(IP),以支持其最新RISC-V单板计算机(SBC)的开发。Imagination的GPU在设计之初就考虑到能够与所有处理器架构协同工作,本次两家企业的合作充分展现了Imagination对开放且发展迅猛的RISC-V生态的良好支持。 赛昉科技将在2021年1月发布的星光人工智能(AI)单板计算机的后续量产版本上加入Imagination GPU,以添加强大、灵活的图形处理性能,使该单板计算机的功能更加完善。星光单板计算机可为业界所追求的高性价比、多用途的RISC-V开发硬件提供十分理想的解决方案。 “星光”是全球首款用于边缘计算的、为Linux操作系统量身定制的RISC-V AI单板计算机,它采用了赛昉科技自主研发的人工智能视觉处理芯片——惊鸿7100,其多核RISC-V处理器运算主频高达1.5GHz。星光不仅配有自研的NNE和ISP,还搭载了VDSP及视频编解码,具备当今台式机的所有可扩展性功能,具有体积小巧、价格低廉、噪音低等特点。凭借Linux与RISC-V的融合,星光AI单板计算机可为工业机械、数据中心、AI、边缘计算等领域的产品和项目开发提供强有力的软硬件支持,缩短项目开发周期,加速产品上市。 赛昉科技本次选用的Imagination BXE-4-32 GPU IP,是Imagination最新一代IMG B系列GPU中的一款内核,可以在性能、尺寸、成本等方面为赛昉科技的单板计算机提供充足优势。B系列是Imagination GPU产品的又一次重要演进,凭借先进的多核架构,其可提供高达6 TFLOPS(每秒万亿次浮点运算)的计算能力,同时相比前几代产品,功耗降低多达30%,面积缩减了25%,带宽需求降低35%,且填充率比竞品IP内核高2.5倍。B系列GPU共拥有多达33种不同的配置,为移动设备、消费类设备、桌面端、服务器、物联网、数字电视(DTV)、汽车等多个市场提供了极为广泛的选择。 赛昉科技CEO徐滔表示:“我们很高兴与Imagination进行合作,双方对RISC-V生态的坚定支持是合作成功的重要保障。Imagination的GPU拥有出色的PPA(性能、功耗、面积)特性,可以帮助我们在优化成本的同时提供强大的功能。我们期待未来可以和Imagination展开更多的战略性合作,利用双方各自的技术和产品优势形成合力,共同打造更加完备的处理器生态,并助推RISC-V技术持续向前发展。” Imagination副总裁兼中国区总经理刘国军表示:“作为RISC-V技术、产品和解决方案的引领者,赛昉科技正在向业界展示他们的信心和决心,RISC-V单板计算机的开发和推出就是很好的例证,非常高兴Imagination的GPU可以在其中扮演重要的角色。Imagination一直都非常重视对中国合作伙伴的支持,我们将继续为赛昉科技及更多中国企业提供性能一流的产品和全面的支持服务,助力他们开发出更多功能强大的产品。”
  • 热度 7
    2020-8-8 03:04
    5183 次阅读|
    1 个评论
    PS5游戏机:AMD秒杀英伟达的开始
    这篇文章主要是给大家推荐一个视频,提供一个思路——视频在本文末尾,不过看我的这篇文章也够了。这则视频的很多内容,其实是值得商榷的(尤其制作视频的这位 Coreteks 大嘴真的是什么都说得出来)。这个视频的信息量巨大,我觉得非常有意思,所以这里分享给各位。只不过看的时候,注意很多内容别当真。 这则视频的主题是: 从 PlayStation 5 游戏机,看索尼和 AMD 改变游戏行业的杀招,以及英伟达的水深火热 (我瞎说的)... Coreteks 这个人我关注已经两周了,他大部分视频都体现了同一个思路,就是将来的处理器都要融合到一起,一切都要融合到一起,CPU、GPU、内存什么乱七八糟的全部都可能放到同一颗芯片上。(而且不是异构那么简单,而是彻底从架构上去颠覆,对这一点我就已经很不同意了,不过这是背景) 不过他在近一年的视频里,都讲对了数字芯片的一个共识。那就是处理器现在性能提不上去了,所以需要依赖各种专用硬件单元(或专用核心、专用处理器)来提升性能和效率——靠 CPU 或者 GPU 的通用单元是不行的,因为通用单元发展到现在已经极限了。所以我们要做专用单元,一个专用单元就只能做一件事情(或某几件事),虽然可能有浪费,但执行这一件事的时候效率奇高啊。 这一点是本身现在就在发生的过程,不管是哪个层面的专用。而且历史上一直就存在的,比如 CPU 的扩展指令集——或 GPU 早年就是一种极为专用的 ASIC 图形处理器——只不过这些年的这个趋势越来越激进。比如 Intel 对于 CPU 在机器学习算力上的执著(其实 Arm 也在搞)...比如英伟达在光线追踪方面 RT 专用核心的执著...比如谷歌为 Pixel 手机开发的专用影像处理核心...比如谷歌用脉动阵列做的 TPU... 对于这种“专用”的理念转变,可能是多层级多方位的...在提升性能以外,它势必造成一定程度的浪费,比如你买 Pixel 手机可能根本就不拍照,那这个专用影像处理器对你而言就多花了钱;比如你买来 Intel 处理器的 PC,就只用来上上网,那显然像 AVX512 这种指令对你来说没有半毛钱用处。这是一定的...但你不能说这种趋势不对。 Coreteks 的这则视频是从 PS5 的整体架构着手的...网上对 PS5 的骂声一大片,主要是觉得其用力的点完全不对,包括对于变频这种设计在游戏主机上的应用感到匪夷所思;包括 SSD 可能带来昂贵的售价,以及算力参数上不及 Xbox...我觉得,这可能表现出,索尼在实现目标过程中,具体实施方案可能做得没有那么理想(或者无法那么理想)... 如果撇开 CPU 不谈(两台游戏机都是 Zen 2,频率略有差别)。GPU 部分,(似)已公开数据显示,PS5 是 36CU(2.25GHz,可变频),标称 10.28 TeraFLOPs 算力;而 Xbox 这边是 52CU(1.825GHz),12 TeraFLOPs。同 GDDR6,Xbox 在其中 10GB 有带宽上的一定优势。Coreteks 认为,这些在最终游戏上,基本不会带来什么大差距。(其实我也这么觉得) 先说个结论,Coreteks 认为,PS5(以及 AMD)将带来的游戏革命,是其他任何平台,包括 PC 都给不了的。下面解释: 1. Coreteks 认为,Xbox 和 PS5 的主要差别在 I/O 层面(指数据与通信):Xbox 的数据压缩速率在 4.8GB/s,PS5 则为 8-9GB/s——"In my opinion, Sony has won the console war right here." SSD 与存储子系统的低延迟、高带宽,是 PS5 的主要特性(这原本也算是 RDNA 着眼的,以及 RDNA2 要加强的,虽然我觉得怎么看都是一个普通理念啊喂)... 2. 事实上,英伟达 Turing 架构的主要优势之一,也是低延迟、高带宽。英伟达的 RTX 显卡有两种加速器用于加速光追——这是现在大部分人都知道的了,RT core 和 tensor core;另外针对高带宽,还有两个比较重要的专用单元,一个用于压缩内存中的数据,一个用于解压——以此,数据可以更快地访问到。这一次 PS5 也是类似的增带宽思路... 当代处理器的很大一部分瓶颈就是带宽或者通信,而非单纯的计算部分;计算单元数量并不能反映实际性能。英伟达去年在莱斯大学的一次演讲中提到: Accelerator Design is Guided by Cost. Arithmetic is Free (particularly low-precision) Memory is expensive. Communication is prohibitively expensive. 这里的"cost"指的主要是芯片功耗上的开销,"free"和"expensive"也是这个意思。即算术是极低开销,存储代价很大,通信代价非常大... 我自己觉得,这的确是现在不少专用处理器(如 GPU、AI 处理器)的一个现状。所以 Graphcore 造的 IPU(一种 AI 处理器),就是在疯狂堆片上 SRAM,大量提升本地存储容量(IPU 二代是 900MB 的片上 SRAM),以及百倍提升带宽。 至于真正到执行单元,低精度的数学运算,真的都不是个事儿:算术的功耗,跟通信的功耗,那就不是一个数量级。(如上图,这个数据可能是有问题的,但各操作间的比例应该是这么回事吧,用以表现从 DRAM 读取 32bit 数据耗费远高于运算的能量) 英伟达首席科学家 William Dally 在 2019 年曾经说过,"Accessing even a small memory array costs way more than doing an operation. And a lot of what we think of memory cost today is really communication cost." 3. 索尼 PS5 践行的就是上述思路,即一方面用专用计算单元,另一方面大幅提升数据传输带宽(虽然如很多知乎大佬所说,在具体实现上可能是很不理想的),包括高速 SSD(下图)。Coreteks 特别提到,PC 平台难以大规模推行这类方案,因为 PC 毕竟是个开放的平台(PC 平台的游戏需要迁就大众,不能像 PS5 那样搞高带宽需求)。 PS5 本身用了一些专用处理器,专门针对主机,以及游戏负载,某些技术未来也是不会进入 PC 领域的。比如说这次很多人在谈的 DMA 控制器,12 个通道——也是知乎上很多人认为索尼错误决策的一部分,因为这部分可能极大增加成本(上图)。显然 Coreteks 认为,这是加速“通信”与带宽的重要组成部分。 (注:Coreteks 似乎是当年 PS3 的 CELL 处理器的支持者,所以上述表达也不难理解吧。我近期有打算写一篇当年 CELL 处理器的文章...) PS5 专用压缩单元 Kraken,也包含在 SoC 里面,也是专用单元且提升内存带宽的一部分(Xbox 实际上也有,而且 RDNA2 和 Turing 什么的其实都有)。 4. 下图给出了 PS5 完整的 I/O 思路,而且随着时代的推进,越来越多的专用单元会加入进来。(就像苹果的 A 系列 SoC 那样,加入越来越多的专用处理器,分别解决专门的问题——Coreteks 的表达是,A13 Bionic 有超过 40 个专用加速器;在客观数字上我没去了解过,不过其实这一点原本就是趋势) 这张图左下角出现了一个 Coherency Engines(一致性引擎),也算是 PS5 游戏机的 I/O 群体中的另一个重要的专用处理器(或者加速器)了,专门负责跨 CPU 与 GPU 的存储一致性(memory coherency)——这也是 AMD 下一代 APU 的一个重要特性。 Jim Keller 曾经说过这样一段话: "What Graphics need is a really high bandwidth memory system. In the past graphics had its own memory system, and for the CPU and GPU to talk to each other you'd use PCIexpress." "With HSA, we made a memory architecture where CPU and GPU share the memory. So graphics sees memory, CPU sees memory and we can pass pointers between them, we have a common address space." 简单翻译,就是图形计算,需要高带宽的存储系统,以前图形计算有专门的内存系统,CPU 与 GPU 对话用 PCIexpress...而“我们搞了个存储架构,让 CPU 和 GPU 共享存储,两者都能看到内存,我们就能在两者间传递 pointer 了,我们有共同的地址空间。”这是 2014 年 Jim Keller 还在 AMD 构建 Zen 的时候说的。其中提到的 HSA,也就是 heterogeneous system architecture,异构系统架构...HSA 应该是一套规格,让不同的处理器部分做融合的... HSA 规格的首个践行者就是 PS3 的那个“传奇”CELL 处理器,苏妈(Lisa Su)还在 IBM 的时候,也是这规格的重要缔造者。所以 Coreteks 认为,AMD 现在的思路其实和苏妈早年在 IBM 和 Freescale 嵌入式系统和异构计算方面的经历,是有很大关系的。 这种异构融合的思路,则是未来几年 PC 发展首先在游戏机上的一种尝试(虽然我个人真心觉得,难道现在的笔记本和手机处理器不就是这样吗?)——Coreteks 表达比较重要的一点,应该就是一颗芯片解决多种问题...这样一来,PS5 也可以不用过于 bulky(已公布的索尼 PS5 算是 bulky 吗?)...因为索尼在设计上还比较有追求,同时还要控制发热之类的问题。 其实我看 Coreteks 的很多视频,并没有搞清楚他是支持类似 AMD 这样 chiplet 异构的方案,还是颠覆架构去做 monolithic 单 die 方案,因为他似乎对于富士通 A64FX 超算处理器是非常赞赏的;或者他可能最在意的是“通信”部分的高效。 5. 甚至可以认为(coreteks 认为的),AMD 未来的 CPU 很可能会越来越轻 CU 数量,而偏重于频率以及固定功能单元(也就是专用加速单元)... 6. 那么以上这种思路,在游戏机上带来的体验,为什么是将来 PC 给不了呢? (1) 前面我们说到了高带宽的这种诉求,不过知乎上蛮多人提到索尼有“带宽过剩,算力不行”的传统。存储子系统的这种提升,对于开发者而言意味着什么呢? 去年网上出现过一个开发者 demo,用以"showing instantaneous asset streaming",如果没有前文提到的存储一致性(memory coherency)支持,以及超快的 SSD,还有数据解压专用加速器,则完全不可能做到 demo 中演示的样子(具体为什么,我不清楚,各位可以去找一下这个 demo)。这些,正是前面这么多内容提到的 PS5 所专注的方向。 这个 demo“可以实现无缝的开放战争游戏体验,游戏中不会有加载等待画面;画面角色移动速度,甚至可以用来创造一些新的游戏类型,包括开放世界环境的竞速游戏——而且游戏内容元素的数量级可以远超过去的那些游戏;还有过去我们没看到过的游戏类型——比如可能是'画面频繁缩放'的游戏,比如可能是从银河系大画面,极速放大到某个星球,甚至再快速放大到分子级别的画面——在任何一个画面级别,都会有非常牛逼的细节”。 这一点,PC 平台就几乎不大可能实现,起码 PC 平台的 SSD 大部分都不会做到 PS5 的程度。 (2) AMD 去年在 Computex 上做过一个 demo 演示(现在是 3DMarks PCIe 特性测试场景之一),对比的是 Intel Core i9-9900K + 英伟达 RTX 2080 Ti,以及自家的 AMD Ryzen 7 3800X + AMD Radeon RX 5700 Series,如下图。当时的这个演示其实引起了比较大的争议,因为这个演示本质上偏向于高带宽测试,而大家普遍觉得,没有哪个游戏会需要这种场景。 这次 Computex 展会上,AMD 还特别提到了和索尼之间的合作,以及期望革新未来 10 年的游戏。这可能就是索尼游戏主机所真正着力的方向,和未来游戏将要出现的画面——PS5 的带宽也就真正有了用武之地。 PC 享受不到这些游戏,原因同上,毕竟绝大部分 PC 都不会在架构上像 PS5 那样做。 (3) 还有一个 demo,是原本要在 PS4 上发布的一个游戏《觉醒计划(Project Awakening)》,现在放出了一个预告片。预告中的画面可能是即时演算的,比 PS4 游戏画面要好多了。Coreteks 认为,这可能是索尼早前提到的加入了光线追踪效果的一个游戏。 番外. 从微软演示的 Xbox Series X《战争机器 5》来看,4K 60fps 效果基本和 RTX2080 Super + R7 3700X 差不多。但算一下一台游戏机多少钱,而后者光一个英伟达的显卡就多少钱,两者加起来 1040 美元...英伟达这种策略怎么还没有翻车? Coreteks 认为,未来的 APU 可以扫清中低端市场的那些独立 GPU,至于那些硬核玩家,普遍都会转向游戏主机,因为如前文所述,未来很多游戏将是 PC 根本应付不了的,根源在专用处理单元以及带宽差异上。 Coreteks 另外认定,英伟达在这个战局中显得非常被动(说起来英伟达收购 Arm 的话,按照 Coreteks 的说法,做架构变更岂不是可以改变战局?)。Coreteks 为英伟达提了三个建议,其一是“使用硬件加速降低渲染精度”,其二“加强数据本地性·”,其三“加强视觉真实度”。 这部分 Coreteks 其实谈的还是挺悬的,比如第一部分,用硬件加速来降低渲染精度(以节约功耗),而光追也可以用这种方案去做,增加某种类型的硬件,考虑将 FP32 转为 Int8(??有这种操作吗?)... VRS(variable rate shading)就是在精度方面的一项举措,游戏画面背景可以以明显更低的精度去渲染,前景则用高精度渲染,人眼看起来,整体画面其实也没太大差别。还有 advanced culling(前些年有个针对 Turing 架构 Mesh Shaders 的 demo 演示,就提到过这种 advanced bulling)——coreteks 认为会有专用单元来加速这项技术,如果有 3 个固定单元来渲染画面中,不同远近的对象,则针对主要注意力的部分做高精度渲染,而某些部分则完全可以用低精度去搞,又完全不会影响到游戏体验(当然估计会对跑分有影响)。 另外,英伟达还有一个强项,就是 AI 部分,也可以用来降低精度。早前英伟达曾经放出过,把画面中缺失的部分给自动补上的技术,靠的就是 AI(下图)。这种技术或许就可以应用到游戏中去,用以渲染游戏画面中一些无关紧要的对象。 前面提到第二点,“加强数据本地化”,其实就没什么要多说的了。现在的专用芯片制造商,恨不得把片内存储堆到可以把一大堆模型放下的程度,这主要还是个成本的问题。 第三点,“加强视觉真实度”。Coreteks 针对这一点有特别提到,英伟达现在应该再引入一项类似实时光线追踪这样的技术点,但要足够吸引人,实现对竞争对手的绝对技术领先——比如 AMD GPU 的游戏机也实现不了,那就真的炸裂了。可能还是跟 AI 机器学习相关的技术——毕竟这是英伟达投入了很多年、花了很多钱的优势项。 英伟达今年的 GTC2020 有演示在网上放出来,部分内容其实跟游戏关系并没有那么大,但也是图形计算相关的。好像是迪士尼的一个什么电视节目场景,采用虚幻引擎去录制——或者说是一个 AR 现实增强实现,生成虚拟的背景,前景还是拍摄的真人,类似于实时特效,而且随时都可以切换!好像完全看不出破绽,完全高保真,让人觉得,主持人或者演员就是在现场。类似这样的技术,也就可以拍死 AMD 企图构建的上面提到的世界了。 好了,以上大部分内容都出自 Coreteks,有兴趣的去看看这个视频吧,我觉得我基本上已经把他要说的东西传达到位了。这则视频的意淫成分颇多(而且 Coreteks 的绝大部分视频都是在意淫)。如果有事实错误,也欢迎各位指出。事实上,即便存在非常多相当夸张的想法,但我总体上觉得,数字芯片往“专用”化发展,以及企图解决数据与通信问题的方向,可能都是值得思考借鉴的。仅供各位娱乐。 资料来源: Coreteks 推荐阅读: 如何评价现在全网黑PS5的现象? 深度学习的兴起,是通用计算的挽歌?
相关资源
  • 所需E币: 1
    时间: 2022-5-5 16:25
    大小: 2.98MB
    上传者: 西风瘦马
    GPU编程与CG语言之阳春白雪下里巴人.pdf
  • 所需E币: 5
    时间: 2021-9-19 10:42
    大小: 2.91MB
    上传者: ZHUANG
    VIS中电路模拟算法的GPU实现
  • 所需E币: 1
    时间: 2021-4-10 20:37
    大小: 11.3MB
    上传者: ZHUANG
    DSP和GPU在Android中的应用与研究
  • 所需E币: 3
    时间: 2020-12-14 15:29
    大小: 747.78KB
    上传者: sense1999
    深度学习中GPU和显存分析
  • 所需E币: 0
    时间: 2020-11-4 09:19
    大小: 1.88MB
    上传者: czd886
    一种基于可编程GPU的实时烟雾模拟算法研究
  • 所需E币: 5
    时间: 2020-8-9 18:50
    大小: 32.19MB
    上传者: VinayKIngle
    Nvidia如虎添翼
  • 所需E币: 2
    时间: 2020-5-8 18:18
    大小: 19KB
    上传者: 十次方
    当今汽车行业最受关注的话题之一是先进的驾驶辅助系统(ADAS),该系统可以多种方式帮助驾驶员处理潜在问题。它们可以为驾驶员提供视觉和听觉警告,也可以控制制动器、加速器和转向装置,使汽车远离危险。
  • 所需E币: 2
    时间: 2020-4-26 18:39
    大小: 394KB
    上传者: 十次方
    近几十年来,图形处理器(GPU)已从最初作为大型电玩的视频显示适配器演进为一个强大的计算中心,并且正在推动人工智能和机器学习的发展,包括从石油和天然气勘探到自然语言处理等众多领域的计算工作。如今,GPU正在自动驾驶和先进驾驶辅助系统(ADAS)技术的发展中扮演着越来越重要的作用。
  • 所需E币: 2
    时间: 2020-4-21 15:38
    大小: 28KB
    上传者: 十次方
    汽车行业是推动人工智能(AI)发展的重要行业之一,这是因为该行业致力于自动驾驶汽车和高级驾驶员辅助系统(ADAS)的泛在利益。汽车正在变得越来越智能,但是如果汽车行业要实现完全自动驾驶的目标,他们还有很长的路要走。尽管业界还在讨论实现全自动化所需的理想技术组合,但是有一点是明确的,那就是人工智能,尤其是神经网络将发挥重要作用。
  • 所需E币: 2
    时间: 2020-4-1 16:05
    大小: 67.5KB
    上传者: 十次方
    支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过
  • 所需E币: 4
    时间: 2019-12-24 11:02
    大小: 469KB
    上传者: 2iot
    现阶段平板电脑所采用的芯片组(SoC)与智能手机所采用的芯片并没有拉开太大的距离,也就是说在运算性能上平板电脑并不比主流的智能手机强多少。在操作系统大同的情况下,平板电脑除了拥有较大的屏幕,与智能手机间的硬件差距并不十分明显。平板电脑作为介于手机与笔记本之间的一种产物,也应该拥有介于手机与笔记本之间的硬件配置,这样才能使平板电脑持续稳定地发展下去,不然平板电脑将有可能被体积更小功能更为全面的智能手机所代替。在本页阅读全文(共7页)一、平板电脑ARM芯片概况   平板电脑大致上可以分为两种类型:传统型平板电脑和以iPad为代表的新一代平板电脑。传统“平板电脑”概念是由微软提出的,是指能够安装x86版本的Windows系统、Linux系统或MacOS系统的PC。由于X86架构功耗较高,势必造成了传统型平板电脑在续航及散热方面的表现不尽人意。2010年1月,苹果发布了iPad这款平板产品,掀起了新一代平板电脑的热潮,以iPad为代表的第二代平板产品虽然不属于微软提出的平板电脑概念范畴,但是这个名字已经广泛为大家所采用,因此我们可以将它们总结为新一代的平板电脑。[pic]平板电脑概念图   与传统平板电脑不同的是,新一代平板电脑大多采用ARM架构,这样就可避开能耗高的问题,在续航和散热方面有了很大改进。同时新一代平板电脑大部分搭载iOS、Android、webOS或者BlackBerryTabletOS系统,在界面交互性上优化不少,增加了用户的体验感。   在传统电脑领域,英特尔和AMD作为两大处理器巨头,统治了整个产业链多达数十年的时间。2010年新一代平板电脑出现以后,一定程度上对传统电脑产业造成了影响,使x86处理器的主导地位发生动摇。而整个平板电脑最核心最本质的硬件通用处理器部分,则是由一家较为低调的公司来设计并执行授权,它就是英国的ARM公司。[pic]ARM——AdvancedRISCMachines   ARM(AdvancedRI……