原创 从Imagination GPU聊起:当手机芯片,应用于服务器和超算

2022-7-31 15:37 1918 5 4 分类: 处理器与DSP 文集: 随手
说个挺有趣的推论啊。上周参加 Imagination Technologies 的技术研讨会,这家公司当然就是要宣传自家的 TBDR 架构 GPU 嘛——对 GPU 架构比较熟的同学应该知道,这叫基于 tile 的延后渲染架构。
就不科普立即渲染(IMR)、TBR、TBDR 的差别了——不理解也没关系。从直觉来看——或者至少是我理解的,TBR / TBDR 这里面的 TB (tile-base),以及 D (deferred),最初都是面向移动设备的,或者说面向那些功耗敏感型设备的。
因为所谓的 tile-based,可以简单理解为把要渲染的东西切分成一块一块的。某种程度上,之所以要这么做是因为移动设备的功耗和带宽,上限都不可能放宽到桌面平台的水平。所以这么一切,GPU 就不需要频繁地跟内存做交互了。
Arm Mali、苹果 GPU、高通 Adreno 什么的都是这么搞的嘛。至于“D”的部分,那又是另一个话题。但核心就是移动 GPU 有针对带宽、功耗特别优化过的渲染管线。(至于很多人所说 Nvidia、AMD 的 GPU 也有 tile-based 这种设定,这一点有兴趣的可以自己去查资料,这个话题要展开有点过大)
补充:知乎有同学提到,TBDR 是在桌面端战不过竞争对手,所以才转而面向移动市场,而非天然针对移动设备。好吧,似乎的确是这么回事...那么姑且就以厂商后期的宣传来这么定义好了...

我们知道,现在 GPU 的地位跟以前不一样了,GPU 开始上天入地了 - 在手机、汽车、IoT、PC、数据中心里面的地位都越来越重要。做 GPU 芯片和 GPU IP 的公司,普遍在谈 GPU 架构的弹性扩展能力。
就是我设计一个基础单元,然后把这个基础单元复制粘贴两份,算力不就变高了吗?复制粘贴 4 份,可以用在手机上了;复制粘贴 20 份,可以用在电脑上了;复制粘贴 n 份,就能用在服务器上了......当然了,这个复制粘贴“基础单元”的设备形态会有变化,而且算力也不会线性提升;另外作为 GPU 嘛,还需要一些固定功能单元之类的搭配。
那就涉及到一个问题。比如 Imagination 做的 GPU IP,这个 IP 以前不就是给手机准备的吗?——前面说的 TBDR,功耗、带宽受限...那把这种架构的“基础单元”复制个几十份几百份,用在服务器上,真的合理吗?
这个事情呢,感觉好像也不怎么复杂。苹果 GPU 在架构上基本就是沿袭自 Imagination PowerVR,所以整体上也是 TBDR 的。这种设计最初用在 iPhone 上,后来用在 iPad 上,现在已经用在了 Mac 上,而且是工作站级别的计算机上——充分表示,好像这么复制粘贴问题也不是很大。所以起码在 PC 上用 TBDR 架构的 GPU 好像也挺好的(虽然现在也有相关这方面的讨论)...

这基于一个大前提,就是以前那些所谓“对功耗不敏感”的设备和场景,在这个时代背景下,考察其 KPI 的方法已经不一样了。你看以前我们说台式机,那肯定不是什么功耗敏感型设备——你说桌面 CPU、GPU 功耗高,再高,上限也高不过空调吧?不过多耗几度电的问题。
现在就不是这么回事了,媒体、评测机构对桌面 CPU/GPU 的功耗和效率都在意得不得了;苹果更是在发布会上带头说 Mac Studio 一年能节约多少电,保护多少地球......而更高算力和功耗需求的数据中心就更是如此了,一方面是节电能力涉及到总体成本问题——而且在规模很大的时候,电费和散热系统产生的费用还真的是一笔不小的开支。还有汽车,里程焦虑晓得伐?
所以这个时候,大量设备都变得“功耗敏感”了,“功耗敏感”就不仅限于手机、笔记本这种东西。这个时候像 TBDR 这种原本给手机的架构,又是 tile-based,又是各个环节数据压缩来缩减带宽的,是不是就突然在更大型的设备上变得很吃香了呢?
这其实也是 Imagination 在宣扬的事情。不过也不止于此。

另一点是周末跟朋友在聊天的时候说的一些感悟。就是你们看苹果 Mac 这一路的发展啊,还挺有意思。上古时代基于 68k 就不谈了。在 68k 以后,苹果开始给 Mac 电脑用 PowerPC 处理器——那是早在和 Intel 合作以前的故事。PowerPC 是苹果、IBM、摩托罗拉合作的东西。
要说 PowerPC 的血统,其实有很大一部分是大算力设备下放的(虽然好像并非全然如此);某一些是 IBM 搞 POWER 之余,下放给 PC 的。比较具有代表性的,末代 PowerPC G5 是脱胎于 IBM POWER4 服务器处理器。
在当时那个时代似乎是个很稀松平常的事情。而且周末还跟朋友聊到说,那些搞大东西的公司,起初是不怎么瞧得上消费电子市场的。而且当年听 IBM 说,越到后期,PowerPC 越成为他们开发的一个累赘。但这种“下放”的思路本身应该是有问题的。
抛开什么规模效应、芯片设计与制造脱钩之类的历史故事不谈,当时 Intel 能够脱颖而出的一个重要原因,我觉得是 Intel 起家就是给 PC 做处理器的,而不是给商用设备做了处理器、然后下放给个人电脑。血统、思路就有相当差异。

而随着时代发展,移动时代到来,智能手机成为一个大生意。Intel 没能抓住这个机遇是挺可惜的。其实最初 Intel 也是不怎么瞧得上这个市场的,像当年的故事重演吧?
不要说什么“下放”,现在的时代趋势,像开头说 TBDR 架构的 GPU 用到工作站、服务器上都没什么毛病了。真的就是大算力设备,已经普遍在用,原本那些专门面向“功耗敏感型”设备的处理器基础架构了。
比如亚马逊云服务器 Graviton 芯片,应用的那个 Arm Neoverse 架构,本质上是 Cortex A 系列的改款——这不就是手机处理器的架构吗?当然了,这个“改款”涉及的东西比较多,因为“复制粘贴”在规模做得很大以后,就没那么简单了。
还有现在 Nvidia 很红的 Grace CPU,面向的是 HPC AI - 真正的大算力应用场景。这个 Grace 也是基于 Arm Neoverse......苹果的 M1 Ultra 就更不用说了吧:应用于工作站的处理器芯片,其核心本质上也就是 A14 的规模扩大版——也就是 iPhone 12 上那个芯片和架构。挺有意思的吧?
Arm 是靠什么起家的呢?低功耗~查 Acorn 的缘起,真的是妥妥的低功耗,当年他们应该都没想过还要上大算力设备。
这叫啥?如果以前“下放”的思路是常规,那现在就是“上放”的时代了吧。我们总结说:以前那些做大东西的有多瞧不上消费电子的小东西,现在做小东西的就有多瞧不上那些做大东西的。
当然了,这个故事还是说简单了,其中还是有很多细节问题的。
不过我想说的是,回看开头咱们在谈 Imagination 的 TBDR 架构要从手机,一路覆盖到服务器;不说 Imagination 能不能行,单就说这种思路,就是时代的主旋律了。(不过还有一种可能性,就是不同的时代,谁比较红,谁的架构就能一统天下...至于“需求”和“市场说辞”,那总是可以找得到的。

以上皆为瞎扯,下回书再见。

作者: 欧阳洋葱, 来源:面包板社区

链接: https://mbb.eet-china.com/blog/uid-me-3893689.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

给作者打赏,鼓励TA抓紧创作!

赞赏支持
点赞 5
赞赏0

文章评论1条评论)

登录后参与讨论

luckyzy2000 2022-8-17 11:15

Imagination现在活得咋样呢??
相关推荐阅读
欧阳洋葱 2022-05-05 16:43
从Intel 4004聊到苹果M1:聊聊摩尔定律的续命
译者的话:很多同学可能对半导体尖端制造工艺更感兴趣,毕竟 5nm、3nm 这些词听起来就格外的一颗赛艇。不过行业不是整天在说“摩尔定律停滞/放缓”吗?大体上说的就是晶体管器件微缩的速度变慢了,那么驱动...
欧阳洋葱 2022-04-02 14:28
聊聊元宇宙的建设进度
今年英伟达 GTC ,Toy Jensen 又出场了。就是在去年 GTC 走红的、以黄仁勋本人为基础定制的一个虚拟人物形象——去年这个角色似乎还叫 Toy-Me。这是个可以进行实时对话的人物形象,能做...
欧阳洋葱 2021-12-29 09:38
谈谈苹果M1 GPU的“高分低能”:受制于生态的芯片神话
本文首发于 EE Times China,因为面包板 blog 很久没更新,所以随便更新一下...苹果在发布M1版MacBook Air的时候说,M1芯片的CPU相比上一代MacBook Air提速最...
欧阳洋葱 2021-11-20 16:47
联发科天玑9000发布会上Q&A环节的10个有料问答整理
有关联发科 Dimensity 9000 发布会,给各位提取一些媒体 Q&A 环节有趣、有料的问答:1.Cortex-A510 小核心在实现上,是共享的矢量管线设计,还是独立的?(回答:应该是 dep...
欧阳洋葱 2021-10-05 01:19
据说苹果A15提升只有一点点?来看详细测试结果
总结一下 AnandTech 刚发布的苹果 A15 评测文章。先给 AnandTech 原文链接:CPU ST Performance: Faster & More Efficient - The A...
我要评论
1
5
1
2
3
4
5
6
7
8
9
0
关闭 热点推荐上一条 /1 下一条