原创 HBM的未来：必要但昂贵

 2023-7-26 10:28  651 9 9 分类: 处理器与DSP

高带宽内存 (HBM) 正在成为超大规模厂商的首选内存，但其在主流市场的最终命运仍存在疑问。虽然它在数据中心中已经很成熟，并且由于人工智能/机器学习的需求而使用量不断增长，但其基本设计固有的缺陷阻碍了更广泛的采用。一方面，HBM 提供紧凑的 2.5D 外形尺寸，可大幅减少延迟

Rambus产品营销高级总监 Frank Ferro在本周的 Rambus 设计峰会上的演讲中表示：“HBM 的优点在于，您可以在很小的占地面积内获得所有这些带宽，而且还可以获得非常好的电源效率。”

缺点是它依赖昂贵的硅中介层和 TSV 来运行。

图 1：实现最大数据吞吐量的 HBM 堆栈

Cadence IP 团队产品营销总监 Marc Greenberg 表示：“目前困扰高带宽内存的问题之一是成本。3D 堆叠成本高昂。有一个逻辑芯片位于芯片堆叠的底部，这是您必须支付的额外硅片。然后是硅中介层，它位于CPU 或 GPU 以及 HBM 内存下的所有内容之下。然后，你需要一个更大的封装等等，这是需要昂贵的代价的。”Marc Greenberg进一步指出：“目前存在的 HBM 脱离了消费者领域，并更牢固地放置在服务器机房或数据中心，存在许多系统成本。相比之下，GDDR6 等图形内存虽然无法提供与 HBM 一样多的性能，但成本却显著降低。GDDR6 的单位成本性能实际上比 HBM 好得多，但 GDDR6 器件的最大带宽与 HBM 的最大带宽不匹配。”

Greenberg 表示，这些差异为公司选择 HBM 提供了令人信服的理由，即使它可能不是他们的第一选择。“HBM 提供了大量的带宽，并且点对点传输的能量极低。您使用 HBM 是因为您必须这样做，因为您没有其他解决方案可以为您提供所需的带宽或所需的功率配置文件。”

而且 HBM 只会变得越来越快。“我们预计 HBM3 Gen2 的带宽将提高 50%，”美光计算产品事业部副总裁兼总经理 Praveen Vaidyanathan 说道。“从美光的角度来看，我们预计 HBM3 Gen2 产品将在 2024 财年期间实现量产。在 2024 日历年年初，我们预计随着时间的推移，将开始为预期的数亿美元收入机会做出贡献。此外，我们预测美光的 HBM3 将贡献比 DRAM 更高的利润。”

尽管如此，经济因素可能会迫使许多设计团队考虑价格敏感应用的替代方案。

“如果有任何其他方法可以将问题细分为更小的部分，您可能会发现它更具成本效益，”Greenberg 指出。“例如，与其面对一个巨大的问题并说，‘我必须在一个硬件上执行所有这些操作，而且我必须在那里拥有 HBM，也许我可以将其分成两部分，让两个进程并行运行，也许连接到 DDR6。如果我能够将该问题细分为更小的部分，那么我可能会以更低的成本完成相同数量的计算。但如果您需要那么大的带宽，那么 HBM 就是您可以承受成本的方法。”

散热挑战

另一个主要缺点是 HBM 的 2.5D 结构会积聚热量，而其放置在靠近 CPU 和 GPU 的位置会加剧这种情况。事实上，在试图给出不良设计的理论示例时，很难想出比当前布局更糟糕的东西，当前布局将 HBM及其热敏 DRAM 堆栈放置在计算密集型热源附近。

“最大的挑战是热量，”Greenberg 说。“你有一个 CPU，根据定义它会生成大量数据。您通过此接口每秒传输太比特数。即使每笔交易只有少量皮焦耳，但每秒都会执行十亿笔交易，因此您的 CPU 会非常热。它不仅仅是移动周围的数据。它也必须进行计算。最重要的是最不喜欢热的半导体组件，即 DRAM。85℃左右它开始忘记东西，125℃左右则完全心不在焉。这是两个截然不同的事情。”

还有一个可取之处。“拥有 2.5D 堆栈的优势在于，CPU 很热，而 HBM 位于 CPU 旁边，因此喜欢冷，之间有一定的物理隔离，”他说。

在延迟和热量之间的权衡中，延迟是不可变的。“我没有看到任何人牺牲延迟，”Synopsys 内存接口 IP 解决方案产品线总监 Brett Murdock说道。“我看到他们推动物理团队寻找更好的冷却方式，或者更好的放置方式，以保持较低的延迟。”

考虑到这一挑战，多物理场建模可以提出减少热问题的方法，但会产生相关成本。“这就是物理学变得非常困难的地方，” Ansys产品经理 Marc Swinnen 说。“功率可能是集成所能实现的最大限制因素。任何人都可以设计一堆芯片并将它们全部连接起来，所有这些都可以完美工作，但你无法冷却它。散发热量是可实现目标的根本限制。”

潜在的缓解措施可能很快就会变得昂贵，从微流体通道到浸入非导电液体，再到确定散热器上需要多少个风扇或翅片，以及是否使用铜或铝。

可能永远不会有完美的答案，但模型和对期望结果的清晰理解可以帮助创建合理的解决方案。“你必须定义最佳对你来说意味着什么，”Swinnen说。“你想要最好的热量吗？最好的成本？两者之间的最佳平衡？你将如何衡量它们？答案依赖于模型来了解物理学中实际发生的情况。它依靠人工智能来处理这种复杂性并创建元模型来捕捉这个特定优化问题的本质，并快速探索这个广阔的空间。”

HBM 和 AI

虽然很容易想象计算是 AI/ML 最密集的部分，但如果没有良好的内存架构，这一切都不会发生。需要内存来存储和检索数万亿次计算。事实上，在某种程度上，添加更多 CPU 并不会提高系统性能，因为内存带宽无法支持它们。这就是臭名昭著的“内存墙”瓶颈。

Quadric首席营销官 Steve Roddy 表示，从最广泛的定义来看，机器学习只是曲线拟合。“在训练运行的每次迭代中，你都在努力越来越接近曲线的最佳拟合。这是一个 X,Y 图，就像高中几何一样。大型语言模型基本上是同一件事，但是是 100 亿维，而不是 2 维。”

因此，计算相对简单，但内存架构可能令人难以置信。

Roddy 解释说：“其中一些模型拥有 1000 亿字节的数据，对于每次重新训练迭代，您都必须通过数据中心的背板从磁盘上取出 1000 亿字节的数据并放入计算箱中。”“在两个月的训练过程中，你必须将这组巨大的内存值来回移动数百万次。限制因素是数据的移入和移出，这就是为什么人们对 HBM 或光学互连等从内存传输到计算结构的东西感兴趣。所有这些都是人们投入数十亿美元风险投资的地方，因为如果你能缩短距离或时间，你就可以大大简化和缩短训练过程，无论是切断电源还是加快训练速度。”

出于所有这些原因，高带宽内存被认为是 AI/ML 的首选内存。“它为您提供了某些训练算法所需的最大带宽，”Rambus 的 Ferro 说。“从你可以拥有多个内存堆栈的角度来看，它是可配置的，这为你提供了非常高的带宽。”

这就是人们对 HBM 如此感兴趣的原因。“我们的大多数客户都是人工智能客户，”Synopsys 的Murdock说。“他们正在 LPDDR5X 接口和 HBM 接口之间进行一项重大的基本权衡。唯一阻碍他们的是成本。他们真的很想去 HBM。这是他们对技术的渴望，因为你无法触及在一个 SoC 周围可以创建的带宽量。现在，我们看到 SoC 周围放置了 6 个 HBM 堆栈，这需要大量的带宽。”

然而，人工智能的需求如此之高，以至于 HBM 减少延迟的前沿特征突然显得过时且不足。这反过来又推动了下一代 HBM 的发展。

“延迟正在成为一个真正的问题，”Ferro说。“在 HBM 的前两轮中，我没有听到任何人抱怨延迟。现在我们一直收到有关延迟的问题。”

Ferro 建议，鉴于当前的限制，了解数据尤为重要。“它可能是连续的数据，例如视频或语音识别。它可能是事务性的，就像财务数据一样，可能非常随机。如果您知道数据是随机的，那么设置内存接口的方式将与流式传输视频不同。这些是基本问题，但也有更深层次的问题。我要在记忆中使用的字长是多少？内存的块大小是多少？您对此了解得越多，您设计系统的效率就越高。如果您了解它，那么您可以定制处理器以最大限度地提高计算能力和内存带宽。我们看到越来越多的 ASIC 式 SoC 正在瞄准特定市场细分市场，以实现更高效的处理。”

使其更便宜（也许）

如果经典的 HBM 实现是使用硅中介层，那么就有希望找到成本更低的解决方案。“还有一些方法可以在标准封装中嵌入一小块硅，这样就没有一个完整的硅中介层延伸到所有东西下面，”Greenberg说。“CPU 和 HBM 之间只有一座桥梁。此外，在标准封装技术上允许更细的引脚间距也取得了进展，这将显著降低成本。还有一些专有的解决方案，人们试图通过高速 SerDes 类型连接来连接存储器，沿着 UCIE 的路线，并可能通过这些连接来连接存储器。目前，这些解决方案是专有的，但我希望它们能够标准化。”

Greenberg表示，可能存在平行的发展轨迹：“硅中介层确实提供了可能的最精细的引脚间距或线间距——基本上是用最少的能量实现最大的带宽——所以硅中介层将永远存在。但如果我们作为一个行业能够聚集在一起并决定一个适用于标准封装的内存标准，那么就有可能提供类似的带宽，但成本却要低得多。”

人们正在不断尝试降低下一代的成本。“台积电已宣布他们拥有三种不同类型的中介层，”Ferro 说。“他们有一个 RDL 中介层，他们有硅中介层，他们有一些看起来有点像两者的混合体。还有其他技术，例如如何完全摆脱中介层。您可能会在接下来的 12 或 18 个月内看到一些如何在顶部堆叠 3D 内存的原型，理论上可以摆脱中介层。事实上，IBM 多年来一直在这样做，但现在已经到了你不必成为 IBM 也能做到这一点的地步。”

解决该问题的另一种方法是使用较便宜的材料。“正在研究非常细间距的有机材料，以及它们是否足够小以处理所有这些痕迹，”Ferro说。“此外，UCIe是通过更标准的材料连接芯片的另一种方式，以节省成本。但同样，你仍然必须解决通过这些基材的数千条痕迹的问题。”

Murdock希望通过规模经济来削减成本。“随着 HBM 越来越受欢迎，成本方面将有所缓解。HBM 与任何 DRAM 一样，归根结底都是一个商品市场。在中介层方面，我认为下降速度不会那么快。这仍然是一个需要克服的挑战。”

但原材料成本并不是唯一的考虑因素。“这还取决于 SoC 需要多少带宽，以及电路板空间等其他成本，”Murdock 说。“对于那些想要高速接口并需要大量带宽的人来说，LPDDR5X 是一种非常受欢迎的替代方案，但与 HBM 堆栈的通道数量相匹配所需的 LPDDR5X 通道数量相当大。您有大量的设备成本和电路板空间成本，这些成本可能令人望而却步。仅就美元而言，也可能是一些物理限制促使人们转向 HBM，尽管从美元角度来看它更昂贵。”

其他人对未来成本削减则不太确定。Objective Analysis 首席分析师 Jim Handy 表示：“降低 HBM 成本将是一项挑战。”“由于将 TSV 放置在晶圆上的成本很高，因此加工成本已经明显高于标准 DRAM。这使得它无法拥有像标准 DRAM 一样大的市场。由于市场较小，规模经济导致成本在一个自给自足的过程中更高。体积越小，成本越高，但成本越高，使用的体积就越少。没有简单的方法可以解决这个问题。”

尽管如此，Handy 对 HBM 的未来持乐观态度，并指出与 SRAM 相比，它仍然表现出色。“HBM 已经是一个成熟的 JEDEC 标准产品，”他说。“这是一种独特的 DRAM 技术形式，能够以比 SRAM 低得多的成本提供极高的带宽。它还可以通过封装提供比 SRAM 更高的密度。它会随着时间的推移而改进，就像 DRAM 一样。随着接口的成熟，预计会看到更多巧妙的技巧来提高其速度。