原创 谈谈苹果M1 GPU的“高分低能”:受制于生态的芯片神话

2021-12-29 09:38 7305 46 10 分类: 处理器与DSP 文集: 随手
本文首发于 EE Times China,因为面包板 blog 很久没更新,所以随便更新一下...
苹果在发布M1版MacBook Air的时候说,M1芯片的CPU相比上一代MacBook Air提速最高3.5倍,GPU图形性能最高提升5倍。这俩数字在现如今半导体行业算十分惊悚吧?这组“对比”得抛开一个事实,那就是苹果对比的上一代低配Macbook,所用处理器不仅与Intel最新的处理器隔了2代,而且对比项目也比较诡异...
当然,我们需要承认M1芯片在超薄笔记本领域的确很彪悍。但与同代CPU(11代Intel酷睿/AMD Ryzen 4000系列)相较(而不是“上一代MacBook”),3.5倍、5倍这种数字就显得相当离谱了。
有关M1是如何彪悍的,此前我们已经撰文详细探讨过。M1的一大杀器也在于芯片之上的GPU图形算力。从硬件堆料情况来看,M1的GPU在同功耗的处理器中的确很亮眼。即便我们不清楚苹果GPU的微架构细节,从die size却也是可以管中一窥的。
只不过苹果GPU的堆料,是否带来对等的实际表现,其实是个挺值得探究的话题。这其实也连带相关于前一阵苹果发布的M1 Pro/Max——作为规模化扩展,这两颗更大的芯片延续M1的表现,并探索更高的性能上限也是必然。M1 Pro/Max的一大升级点就在GPU上,GPU也应该是很多人关注的话题。

我们手头有一台2021款华为Matebook X Pro(酷睿i7-1165G7 2.8GHz,16GB RAM,512GB SSD),和一台M1版MacBook Air(7核GPU的M1,16GB RAM,256GB SSD)。这两者的价格也比较接近。以此来分析、探讨苹果GPU也是个不错的契机。
值得一提的是,近3年Intel酷睿处理器的核显性能也是实现了两级跳的。主要是8代→10代,以及10代→11代这两次升级,大约也是市场竞争加剧的体现。尤其是11代酷睿,Xe-LP新架构核显在满载情况下可实现相比10代酷睿核显近2.5倍性能提升。这在Intel隔代产品中的变化还是相当之大的。
如果要看GPU堆料可达成的绝对性能,3DMark Wild Life Extreme是个不错的选择,毕竟也这是目前为数不多能跨平台、尽可能发挥双方效率、单纯考察图形算力的测试。只不过macOS原生不支持3DMark,好在新版macOS可以直接用iOS之下的生态(毕竟目前两个系统的底层堆栈是几乎一致的),所以这里的3DMark Wild Life Extreme来自于iOS。

需要指出的是,前不久我们评测过Matebook X Pro 2021。评测文章曾提到过,受制于这款轻薄本保守的功耗与散热策略,以及这台轻薄本在系统设计层面,散热设计做得不够到位。所以Matebook X Pro大约只发挥了酷睿i7-1165G7七成不到的性能。不过这里对比的Macbook Air也不是M1满血版(满血版有8个GPU核心),算是两者都跛脚情况下来做对比。
从图形绝对算力来看,M1 GPU的确能够显现出很大的优势——这组对比基本在我们的意料中。但这个数字在日常负载中真的有意义吗?这是本文要探讨的重点。

被神化的苹果生态
这些年,苹果生态似乎是被吹爆了的存在。比如说苹果全家桶的协同工作;还有苹果从做芯片到操作系统,以及到做终端,这种生态是行业内大部分玩家都艳羡不已的吧。就连设计芯片可以很大程度上不顾及成本,都是生态掌握在手的优势。
但“生态”在不同维度,探讨的东西是不同的。如果我们将“生态”的范围收缩到macOS操作系统之下的生态,在面向具体应用场景时,苹果最擅长的大概就是多媒体内容、艺术创作了。尤其是对于影像和某些领域的设计工作者。其中摄影师、vlogger们大概是最适配苹果平台的。
所以最初为M1、M1 Pro/Max摇旗呐喊的都是一众up主、vlogger们,甚至有人说8000块钱的MacBook Air可以让售价几万块的Intel处理器版16寸MacBook Pro下班——这话虽然夸张,但反映的其实是苹果以及macOS生态对于这类人的十分适配性。

君不见前不久M1 Max的评测,有人甚至提到其性能比加装了Afterburner加速卡的Mac Pro还要好吗?(Afterburner加速卡主要是用来加速ProRes编解码的,一张售价就1.5万)这表明M1 Max芯片内部对ProRes的编解码加速有专门的硬件单元。这种硬件方案也算是时代主流,就是对特定应用做特定硬件加速,效率比通用处理器高很多。
不过这种程度的针对性也需要付出代价,它对某些特定的负载固然有帮助,但也仅限于特定场景。举个例子,我们这次的其中一项测试是将一段AVC格式(H.264)的10分钟4K 60fps视频,用Handbrake 1.4.2转为HEVC(H.265)。

比较令人惊讶的是,我们这台MacBook Air在此测试场景下用了17分13秒,而Matebook X Pro用时6分52秒。我们一度还认为是否测试参数和变量控制有误,反复检查,并对不同片源做了尝试——毕竟M1的多媒体编解码引擎是出了名的厉害。并且还确认了Handbrake 1.4.2已经支持M1的硬件加速(似乎叫做VideoToolBox)。最终结果差别都不大。感兴趣的同学也可以去试一试,看看我们是否有设置参数上的错误(视频可点这里下载,提取码:83me)。若非我们参数设置有误,或许和Handbrake软件本身对M1的支持程度也有关,这个结果可能是有待商榷的。
这个测试可能是反映了11代酷睿的长板的,即处理器内部对于AVC解码和HEVC编码硬件加速都比较到位。此前Intel在发布11代酷睿的时候也谈到过媒体引擎的加强包括对于10bit AV1、12bit HEVC、E2E压缩(最高4K60 12bit 4:4:4 HEVC,或最高4K60 10bit 4:2:0 AV1)的硬件级支持。
虽然不能就这个例子便说11代酷睿的媒体编解码强于M1,但从这一例可看出的是,在处理器中增加专用硬件单元的收益有多高。10代酷睿及更早的处理器都不曾享受这种待遇,在多媒体视频编解码方面多为通用单元软件方案,效率自然有所不及——所以我们看到更早的MacBook在这样的测试里会显著落败于M1版MacBook。
因为时间关系,我们的测试无法尝试覆盖所有不同格式的编解码,有可能M1会在很多项目胜出,但我们依然能够找到其一个方面的短板。而11代酷睿笔记本事实上对于绝大部分vlogger们的视频编辑工作也是完全能够胜任的。

另外对于严肃工业化流程的视频创作来说,M1的短板也十分明显。大部分vlogger将M1吹得神乎其神,是因为M1有针对性地覆盖了他们的大部分工作场景需求。但一旦视频剪辑变得复杂,情况就没那么简单了。在不做剪辑代理的情况下,M1对于大部分4K H.265视频都能做到流畅预览回放,甚至佳能EOS R5的8K IPB帧间压缩视频流畅回放都没问题。
但还有一些场景就没那么讨好了。比如说佳能的8K All-Intra帧内压缩格式回放(Premiere Pro)相当卡;在Davinci Resolve中也很难做到对佳能的4K/8K H.265格式视频做流畅回放——但搭载独显的Intel版MacBook Pro 16"就没问题。再比如,视频转中间码(Apple ProRes 422)操作,M1也会比采用独显的本子慢很多;还有大部分4K RAW格式文件剪辑和输出,更不要说Ursa 12K ProRes这种超重型负载....
当然了说这些是在欺负M1作为一颗低压处理器的事实了。但某些媒体宣称M1比10万块的台式机性能还彪悍,本身就有严重的误导性。说这些只是为了表明,不要过度神化M1的视频编辑能力,乃至Arm生态。即便在苹果最擅长的这个生态里,苹果也依然受制于物理定律,和存在短板。
有同学可能会说,规模化扩展的M1 Pro/Max可覆盖的场景大了非常多。对于视频剪辑来说,或许的确如此,但这就涉及到下面要谈的话题了。GPU(和媒体引擎)作为加速器的价值,如果仅限于视频创作,是否意味着它的受众面过窄;以及它在其他场景中效率又如何?
一个如此偏科的生态,究竟是好还是不好呢?

你的GPU到底能用来做什么?
如果苹果单纯将M1系列芯片的肌肉定位于视频创作,这样的生态必然是小众的。事实上,我们原本尝试做Blender测试,却发现Blender Benchmark项目正式版到目前都仍然不支持M1 GPU的硬件加速。(Blender 3.1 Alpha已经开始支持Metal,今年10月苹果加入了Blender基金会,算是Metal生态发展的重要一步)
苹果宣称M1 Max的GPU算力快赶上英伟达Geforce RTX 3080的水平,这一点还得到了很多视频up主的支持和欢呼。事实真的如此吗?或许在视频编解码、后期效果的加速上的确如此,但这一题的考点不应该这么简单。x86生态内的GPU可以做的事情可远不止是视频创作。
要考察GPU的通用计算能力,我们选择的测试工具是Geekbench 5(v5.4.3)的Compute Benchmark测试,以及LuxMark(v3.1,这是个完全基于OpenCL的测试)。得到的结果如下:

注意这两个测试并非对比CPU性能或GPU图形算力,而是基于OpenCL/Vulkan/Metal的GPU通用计算能力(比如Geekbench 5 Compute benchmark明确提到会做图像处理之类的负载)。
从结果来看,虽然M1应用苹果自己的Metal API以后,得分是略高的。但高出来的这部分成绩,和文首3DMark Wild Life Extreme测试的图形性能领先可完全不匹配。此处华为Matebook X Pro 2021的酷睿i7-1165G7,得分就显得相当不错。要知道i7-1165G7的核显GPU堆料可没有M1那么多。
这两项测试或许一定程度可表明,M1 GPU的彪悍在除视频创作之外的应用中,根本就难以体现。这是否可说明苹果macOS生态的偏科,以及在更多通用计算加速场景上的低效呢?
 

来源:Linus Tech Tips
同样的情况其实也出现在M1 Pro/Max。我们手上虽然没有新版MacBook Pro 14”/16”,但前不久Linus Tech Tips做了测试,包括Geekbench 5 Compute Benchmark,以及Blender 3.1 Alpha的BMW场景渲染。M1 Max的成绩的确不错,但在加入华硕ROG Zephyrus M16笔记本之后,苹果的M1 Max就完全不够看了。
要知道Zephyrus M16搭载的GPU是GeForce RTX 3060——说好的M1 Max堪比3080呢?3060和3080的算力差别可是相当大的。所以是只有在做视频的时候才堪比吗?(但需要指出,在对存储带宽和容量有高要求的测试场景里,苹果还是有显著优势,此处未列出;另外Blender的测试结果可能与该软件的优化也有很大关系)

从游戏这个应用场景来说
从这个维度来说,苹果的生态究竟是好还是不好?x86阵营这些年的生态积累,并不是M1亮一亮肌肉就可轻易抹除的——即便Rosetta 2的质量和效率是真的非常高。不过因为我们也不做工业生产,到头来无法穷举在更具体的场景里,苹果GPU究竟如何发挥作用。(有人列举过M1目前对工业设计类应用的支持情况,有兴趣的同学可以去搜搜看)
但对寻常用户而言,有一个场景一定是可以说明问题的——游戏。Intel在11代酷睿之上应用最高96EU的Xe核显之后,即便用核显,以前在轻薄本上想都不敢想的游戏作品,现在也能玩了。虽然和高特效、满帧还是无缘,但在降低渲染分辨率、特效之后,能玩终于成为可能了——这一点我们在Matebook X Pro 2021的文章里已经谈到了。
其实从3DMark Wild Life Extreme的测试结果来看,用M1玩游戏,性能应该也很不错才对,但事实情况却没那么简单。先抛开macOS平台的游戏实在少得可怜这一点,我们测试了跨平台(而且目前得到新系统支持,主要是Rosetta 2转译支持)的《全面战争:三国》《古墓丽影:暗影》和《中土世界:暗影魔多》。这几款游戏都可以在蒸汽平台下载到。(要找到内置了benchmark,而且还同时支持Windows和macOS的游戏还真是不那么容易)

结果和3DMark测试成绩也大相径庭。或许测试的样本量还不够大,毕竟macOS平台也有优化非常好的游戏(《古墓丽影:暗影》应该是macOS之上优化不错的3A大作了)。
但这还是能够说明M1高分低能的现状,11代酷睿的Xe核显在规模不及M1的情况下,在部分游戏场景下也能表现得比M1更好。(而且如此前文章谈到的,其实Matebook X Pro并不能发挥96EU Xe的全部性能)

来源:Linus Tech Tips
Linus Tech Tips也测了Geforce RTX 3060和M1 Max跑古墓丽影的成绩,结果大致类似。说好的堪比3080在游戏场景下也是完全失效的。
这一点理论上不是芯片堆料的锅,而是系统、中间件乃至生态的锅。很多苹果用户一边说苹果生态如何如何优秀,一边又在说macOS并不适合用来玩游戏,仿佛游戏生态就不是生态一样。x86这一侧的游戏支持之多样,原本就是其生态优势之一,却被很多苹果用户认为不值一提,这就是对“生态”一词的双标。(至于说iOS生态下的游戏,在macOS上玩起来大部分都相当灾难)

在M1芯片问世以后,有两个知名的页面上线,一是“Is Apple Silicon Ready”,一是“Mac M1 Games: Native & Rosetta 2 supported games”。这两个页面应该可以从某个程度体现Apple Silicon生态构建进度。或许对视频创作者而言,其生态构建神速,但对更多领域而言macOS仍然是那个macOS。
其实对游戏和图形计算而言,另一个能够从硬件层面体现生态缺失的是M1版MacBook笔记本不支持外接eGPU。从理论上来说,M1支持Thunderbolt 3,应当可以接外置GPU才对。这也是11代酷睿芯片原生支持Thunderbolt之后,很多笔记本通过外接高性能eGPU,可作为移动工作站的基础——效果甚至还超乎很多人的想象。
但目前macOS似乎还没有做这方面的支持(主要应当是驱动支持方面的问题)。基于M1 Pro/Max芯片的MacBook还需要市场,外接eGPU这方面的支持大概率以后也不会到来。M1的性能也因此受限于芯片本身。

诚然M1及M1 Pro/Max是十分优秀的芯片,在某些特定领域表现出了无与伦比的性能和效率;以及苹果在Mac和对应芯片的策略上,或许只瞄准了现有目标用户群市场;从这个角度来说,其GPU的“高算力”是没什么问题的。但若论GPU生态,或者说GPU究竟能用来做什么、以及通用计算的效率问题,x86这边就强上太多了。华为Matebook X Pro的11代酷睿Xe核显只是一个例子。
其实这次我们也测了不少能够体现日常用户体验的高层级测试。苹果的确在能效方面有着很出色的表现,致MacBook Air续航非常好。但除此之外的日常使用体验,包括办公、作图、剪视频,都无法对11代酷睿超极本构成什么优势。何况在系统层面,Matebook Pro X这款本子还有超窄边框、3:2宽高比屏幕之类的体验优势。这就不是本文要探讨的重点了。
另外谈到生态,不仅华为在自家笔记本、手机上推分布式软总线生态,把笔记本和手机串联起来;微软也在Windows 11中加入了对Android应用的支持。似乎华为和Intel在实现把Android应用带到PC上也进行了合作,即跨端应用呈现。这好像也是现在Android和Windows生态的大趋势,很多生态内的参与者都在做这件事。这也算是对苹果全家桶生态发展的某种应对之策吧。
分工合作的方式仍然可以组建起生态,即便或许效率不及某一家厂商自己构建封闭生态。但单独构建生态不仅需要强大的市场号召力,凭一己之力扮演多个角色,而且生态更容易偏于一隅,难得百花齐放的发展。这本身就在限制苹果作为芯片制造商这一角色的能力边界。
下篇我们来谈谈如果给M1版MacBook Air装上Windows on Arm,情况又会怎么样…

作者: 欧阳洋葱, 来源:面包板社区

链接: https://mbb.eet-china.com/blog/uid-me-3893689.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

文章评论1条评论)

登录后参与讨论

自做自受 2021-12-29 14:47

到底什么是生态?
相关推荐阅读
欧阳洋葱 2024-09-20 18:35
有关Lunar Lake的少量信息更新...
前两周写了一篇有关 Lunar Lake 如何实现低功耗的文章:谈谈Lunar Lake的低功耗设计:听说x86做不了低功耗?有读者一笔评论如上,感觉这个总结是比较到位的——虽然我在文章里也没直接提,...
欧阳洋葱 2024-05-13 12:52
听NV首席科学家谈英伟达内部的神秘团队,光追、AI都是他们做的
- 本文首发于我个人的知乎专栏,眼见面包板专栏万年未更新了,把这篇文章转载过来 -不知各位同学是否了解,很多大型科技公司,除了做要直接在市场上卖的产品,另外也搞前沿技术研究——虽然这个前沿还没有前瞻到...
欧阳洋葱 2023-08-21 10:49
我体验了《黑神话:悟空》,告诉你什么配置能畅玩~
周末在杭州云栖小镇体验了一把《黑神话:悟空》——就是那个受关注度极高,而且也算是在前期宣发就走出了国门的国产游戏。虽然咱也不是专业玩游戏的(毕竟年纪大了),但既然跟图形、AI、GPU 沾边,那还是...
欧阳洋葱 2023-08-07 15:54
发现一款3000块的5K显示器,一天使用体验如下
很久没更专栏,来写篇文章吧——数码体验向~其实我一直对苹果 Studio Display 很心水(确切说应该是 5 万块的 Pro Display XDR),但总觉得花一万二买个显示器很奢侈——我又不...
欧阳洋葱 2023-05-15 10:19
缺失“个性化”的后数码产品时代...
作为一名年更博主,难得寻点边角料来更新下面包板。今年上半年工作太累了,学习又辛苦(前一阵这学期“算法导论”课刚结束,是应该炫耀下期末考试 100 分这件事的);所以做到年更就已经不错了...我以前是个...
欧阳洋葱 2022-10-09 12:20
GeForce RTX 40系列的发布,是摩尔定律的挽歌
我们知道“摩尔定律”形容的是半导体的尖端制造工艺——现在尖端制造工艺的 foundry 玩家就剩 3 个了,毕竟成本和技术投入也不是谁都承受得起。而能够承担尖端制造工艺的芯片门类也不多,电脑、手机、数...
我要评论
1
46
关闭 站长推荐上一条 /2 下一条