原创
有关Lunar Lake的少量信息更新...
前两周写了一篇有关 Lunar Lake 如何实现低功耗的文章:
谈谈Lunar Lake的低功耗设计:听说x86做不了低功耗?有读者一笔评论如上,感觉这个总结是比较到位的——虽然我在文章里也没直接提,不过在 ring 总线之外,本质应该也就是跟电源管理有关吧。
这里再给些补充资料,虽然感觉干货也不算多。Hot Chips 上,
Chip and Cheese 采访了 Intel,以下我摘取部分内容做了翻译,方括号里头的是我的屁话:
Q:...Lion Cove 核心不带 SMT(超线程)。我们也从行业内的其他人那里听说,要在相同功耗下获得出色性能,SMT 并不是个好方法。所以为什么会取消 SMT,是否的确如他们所说?[这里的“其他人”大概是像我这种...之前我就
写过文章唱衰超线程技术...]
Arik Gihon:这种说法并不完全准确。SMT 对于扩展多线程是个不错的特性。相同的核心上跑 2 个线程,在不需要增加太多功耗的情况下,就能获得 nT 性能,所以以相似的模式就提升了性能。以前比现在的收益还多一点,以前大约 30% 额外的性能,现在大约 20% 左右。
现在情况发生了一些变化。我们在扩展多线程性能的高层级架构方面,增加了 E-core。这是扩展多线程更为高效的方式。所以现在,如果我们期望在核心上高效地跑单线程,方法之一就是去除(同时)多线程,并且构建更为有效的、能够以更低功耗提供 IPC 性能的核心。
Q:提到 Lunar Lake 上的 E-core,你们把所有 E-core 都放到了 ring 以外。以前在 Meteor Lake 上,E-core 放在 CPU tile 上,而 LP E-core 放在 SoC tile 上。这次你们将全部 E-core 都放到了低功耗岛上,原因是什么?
Arik:是的,上一代我们将两个 LP E-core 放到了 ring 总线之外,不在 compute die 上。我们对其做了进一步优化,Lunar Lake 之上我们将 4 个 E-core 放到了 ring 以外,以提升效率。Ring 和 LLC 的确会在某些情况下带来收益,但有时代价也很大。
相较于 LLC 能够给到的额外 IPC,要让 Lunar Lake 具备低功耗特性,这么做带来了相当不错的收益,包括延迟、存储,以及功耗开销。
Q:从缓存架构角度来看,新的 P-core 有了新层级的 intermediate L1 cache。现在也就有了 4 级数据 cache 和 SLC cache,这对延迟敏感型程序会带来怎样的影响?[这一代 Lion Cove 设计上,Intel 在 48KB L1 和 L2 之间新增了一个 intermediate data cache,然后以前的 L1D cache 更名为 L0 D-cache]
Arik:很不错的问题。我不确定这是否会影响到延迟,的确会提升延迟表现(improving latency)...相较于原 L1 cache,可能改善了多个周期(several cycles)...
Q:某些情况下能够帮助延迟方面的表现,因为让原本要放进 L2 的部分离核心更近了。
Arik:是的。我在演讲中展示了延迟数据,可以看到相较于上一代 Redwood Cove,在更低层级 buffer size 部分,大核心的延迟表现有提升...
Q:Memory Side Cache 在 Lunar Lake 里头是个新东西...[提到减少了内存操作啥的]内存操作减少程度如何?
Arik:这主要取决于负载,和应用的 footprint;取决于多少东西能够放进 cache 里,情况会有差别。会有一些负载从中获益颇多,因为我们将更多东西分配进了 system cache...
Q:谈到负载,这也会包含 iGPU 吗?iGPU 也会是 Memory Side Cache 的使用大户吗?
Arik:No it's not due to the footprint [of applications that use the iGPU].
Q:[谈这代 iGPU 的光追单元用料充沛] iGPU 实际上无法真正从光追单元获得多少有效性能,为什么要增加完整光追单元的用料?是为了缩减验证时间吗 [这个问题,我理解是说基于原有 Xe2 架构既有验证结果,所以就能直接搬到 Lunar Lake 上]?
Arik:不是的。架构的某些部分能够更好地利用硬件资源,更好地利用光追单元,所以在 Lunar Lake 上就这么做了。
Q:[说 Meteor Lake 的很多功能单元分散到了不同 die 上] Lunar Lake 上很多东西都重新整合到了同一片 die 上,为什么回到这种 monolithic 设计?
Arik:这是种权衡(trade-off)...[然后说了不同的选择,比如一片 die 塞进更多晶体管;特定功能采用优化的 die 更具弹性;以及考虑计算用的晶体管和内存靠得更近获得延迟和性能红利等]...[这算是个有效回答么?][后面的回答还提到 platform controller die 不需要 scale,就是针对 IO 的控制器,N6 工艺就够了,也是很不错的 partition]
作者: 欧阳洋葱, 来源:面包板社区
链接: https://mbb.eet-china.com/blog/uid-me-3893689.html
版权声明:本文为博主原创,未经本人允许,禁止转载!
文章评论(0条评论)
登录后参与讨论