原创 从Imagination GPU聊起:当手机芯片,应用于服务器和超算

2022-7-31 15:37 4351 19 4 分类: 处理器与DSP 文集: 随手
说个挺有趣的推论啊。上周参加 Imagination Technologies 的技术研讨会,这家公司当然就是要宣传自家的 TBDR 架构 GPU 嘛——对 GPU 架构比较熟的同学应该知道,这叫基于 tile 的延后渲染架构。
就不科普立即渲染(IMR)、TBR、TBDR 的差别了——不理解也没关系。从直觉来看——或者至少是我理解的,TBR / TBDR 这里面的 TB (tile-base),以及 D (deferred),最初都是面向移动设备的,或者说面向那些功耗敏感型设备的。
因为所谓的 tile-based,可以简单理解为把要渲染的东西切分成一块一块的。某种程度上,之所以要这么做是因为移动设备的功耗和带宽,上限都不可能放宽到桌面平台的水平。所以这么一切,GPU 就不需要频繁地跟内存做交互了。
Arm Mali、苹果 GPU、高通 Adreno 什么的都是这么搞的嘛。至于“D”的部分,那又是另一个话题。但核心就是移动 GPU 有针对带宽、功耗特别优化过的渲染管线。(至于很多人所说 Nvidia、AMD 的 GPU 也有 tile-based 这种设定,这一点有兴趣的可以自己去查资料,这个话题要展开有点过大)
补充:知乎有同学提到,TBDR 是在桌面端战不过竞争对手,所以才转而面向移动市场,而非天然针对移动设备。好吧,似乎的确是这么回事...那么姑且就以厂商后期的宣传来这么定义好了...

我们知道,现在 GPU 的地位跟以前不一样了,GPU 开始上天入地了 - 在手机、汽车、IoT、PC、数据中心里面的地位都越来越重要。做 GPU 芯片和 GPU IP 的公司,普遍在谈 GPU 架构的弹性扩展能力。
就是我设计一个基础单元,然后把这个基础单元复制粘贴两份,算力不就变高了吗?复制粘贴 4 份,可以用在手机上了;复制粘贴 20 份,可以用在电脑上了;复制粘贴 n 份,就能用在服务器上了......当然了,这个复制粘贴“基础单元”的设备形态会有变化,而且算力也不会线性提升;另外作为 GPU 嘛,还需要一些固定功能单元之类的搭配。
那就涉及到一个问题。比如 Imagination 做的 GPU IP,这个 IP 以前不就是给手机准备的吗?——前面说的 TBDR,功耗、带宽受限...那把这种架构的“基础单元”复制个几十份几百份,用在服务器上,真的合理吗?
这个事情呢,感觉好像也不怎么复杂。苹果 GPU 在架构上基本就是沿袭自 Imagination PowerVR,所以整体上也是 TBDR 的。这种设计最初用在 iPhone 上,后来用在 iPad 上,现在已经用在了 Mac 上,而且是工作站级别的计算机上——充分表示,好像这么复制粘贴问题也不是很大。所以起码在 PC 上用 TBDR 架构的 GPU 好像也挺好的(虽然现在也有相关这方面的讨论)...

这基于一个大前提,就是以前那些所谓“对功耗不敏感”的设备和场景,在这个时代背景下,考察其 KPI 的方法已经不一样了。你看以前我们说台式机,那肯定不是什么功耗敏感型设备——你说桌面 CPU、GPU 功耗高,再高,上限也高不过空调吧?不过多耗几度电的问题。
现在就不是这么回事了,媒体、评测机构对桌面 CPU/GPU 的功耗和效率都在意得不得了;苹果更是在发布会上带头说 Mac Studio 一年能节约多少电,保护多少地球......而更高算力和功耗需求的数据中心就更是如此了,一方面是节电能力涉及到总体成本问题——而且在规模很大的时候,电费和散热系统产生的费用还真的是一笔不小的开支。还有汽车,里程焦虑晓得伐?
所以这个时候,大量设备都变得“功耗敏感”了,“功耗敏感”就不仅限于手机、笔记本这种东西。这个时候像 TBDR 这种原本给手机的架构,又是 tile-based,又是各个环节数据压缩来缩减带宽的,是不是就突然在更大型的设备上变得很吃香了呢?
这其实也是 Imagination 在宣扬的事情。不过也不止于此。

另一点是周末跟朋友在聊天的时候说的一些感悟。就是你们看苹果 Mac 这一路的发展啊,还挺有意思。上古时代基于 68k 就不谈了。在 68k 以后,苹果开始给 Mac 电脑用 PowerPC 处理器——那是早在和 Intel 合作以前的故事。PowerPC 是苹果、IBM、摩托罗拉合作的东西。
要说 PowerPC 的血统,其实有很大一部分是大算力设备下放的(虽然好像并非全然如此);某一些是 IBM 搞 POWER 之余,下放给 PC 的。比较具有代表性的,末代 PowerPC G5 是脱胎于 IBM POWER4 服务器处理器。
在当时那个时代似乎是个很稀松平常的事情。而且周末还跟朋友聊到说,那些搞大东西的公司,起初是不怎么瞧得上消费电子市场的。而且当年听 IBM 说,越到后期,PowerPC 越成为他们开发的一个累赘。但这种“下放”的思路本身应该是有问题的。
抛开什么规模效应、芯片设计与制造脱钩之类的历史故事不谈,当时 Intel 能够脱颖而出的一个重要原因,我觉得是 Intel 起家就是给 PC 做处理器的,而不是给商用设备做了处理器、然后下放给个人电脑。血统、思路就有相当差异。

而随着时代发展,移动时代到来,智能手机成为一个大生意。Intel 没能抓住这个机遇是挺可惜的。其实最初 Intel 也是不怎么瞧得上这个市场的,像当年的故事重演吧?
不要说什么“下放”,现在的时代趋势,像开头说 TBDR 架构的 GPU 用到工作站、服务器上都没什么毛病了。真的就是大算力设备,已经普遍在用,原本那些专门面向“功耗敏感型”设备的处理器基础架构了。
比如亚马逊云服务器 Graviton 芯片,应用的那个 Arm Neoverse 架构,本质上是 Cortex A 系列的改款——这不就是手机处理器的架构吗?当然了,这个“改款”涉及的东西比较多,因为“复制粘贴”在规模做得很大以后,就没那么简单了。
还有现在 Nvidia 很红的 Grace CPU,面向的是 HPC AI - 真正的大算力应用场景。这个 Grace 也是基于 Arm Neoverse......苹果的 M1 Ultra 就更不用说了吧:应用于工作站的处理器芯片,其核心本质上也就是 A14 的规模扩大版——也就是 iPhone 12 上那个芯片和架构。挺有意思的吧?
Arm 是靠什么起家的呢?低功耗~查 Acorn 的缘起,真的是妥妥的低功耗,当年他们应该都没想过还要上大算力设备。
这叫啥?如果以前“下放”的思路是常规,那现在就是“上放”的时代了吧。我们总结说:以前那些做大东西的有多瞧不上消费电子的小东西,现在做小东西的就有多瞧不上那些做大东西的。
当然了,这个故事还是说简单了,其中还是有很多细节问题的。
不过我想说的是,回看开头咱们在谈 Imagination 的 TBDR 架构要从手机,一路覆盖到服务器;不说 Imagination 能不能行,单就说这种思路,就是时代的主旋律了。(不过还有一种可能性,就是不同的时代,谁比较红,谁的架构就能一统天下...至于“需求”和“市场说辞”,那总是可以找得到的。

以上皆为瞎扯,下回书再见。

作者: 欧阳洋葱, 来源:面包板社区

链接: https://mbb.eet-china.com/blog/uid-me-3893689.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

文章评论1条评论)

登录后参与讨论

luckyzy2000 2022-8-17 11:15

Imagination现在活得咋样呢??
相关推荐阅读
欧阳洋葱 2024-09-20 18:35
有关Lunar Lake的少量信息更新...
前两周写了一篇有关 Lunar Lake 如何实现低功耗的文章:谈谈Lunar Lake的低功耗设计:听说x86做不了低功耗?有读者一笔评论如上,感觉这个总结是比较到位的——虽然我在文章里也没直接提,...
欧阳洋葱 2024-05-13 12:52
听NV首席科学家谈英伟达内部的神秘团队,光追、AI都是他们做的
- 本文首发于我个人的知乎专栏,眼见面包板专栏万年未更新了,把这篇文章转载过来 -不知各位同学是否了解,很多大型科技公司,除了做要直接在市场上卖的产品,另外也搞前沿技术研究——虽然这个前沿还没有前瞻到...
欧阳洋葱 2023-08-21 10:49
我体验了《黑神话:悟空》,告诉你什么配置能畅玩~
周末在杭州云栖小镇体验了一把《黑神话:悟空》——就是那个受关注度极高,而且也算是在前期宣发就走出了国门的国产游戏。虽然咱也不是专业玩游戏的(毕竟年纪大了),但既然跟图形、AI、GPU 沾边,那还是...
欧阳洋葱 2023-08-07 15:54
发现一款3000块的5K显示器,一天使用体验如下
很久没更专栏,来写篇文章吧——数码体验向~其实我一直对苹果 Studio Display 很心水(确切说应该是 5 万块的 Pro Display XDR),但总觉得花一万二买个显示器很奢侈——我又不...
欧阳洋葱 2023-05-15 10:19
缺失“个性化”的后数码产品时代...
作为一名年更博主,难得寻点边角料来更新下面包板。今年上半年工作太累了,学习又辛苦(前一阵这学期“算法导论”课刚结束,是应该炫耀下期末考试 100 分这件事的);所以做到年更就已经不错了...我以前是个...
欧阳洋葱 2022-10-09 12:20
GeForce RTX 40系列的发布,是摩尔定律的挽歌
我们知道“摩尔定律”形容的是半导体的尖端制造工艺——现在尖端制造工艺的 foundry 玩家就剩 3 个了,毕竟成本和技术投入也不是谁都承受得起。而能够承担尖端制造工艺的芯片门类也不多,电脑、手机、数...
我要评论
1
19
关闭 站长推荐上一条 /2 下一条