Chiplet 在服务器中的率先应用_分销与供应链-面包板社区

楼主

Chiplet 在服务器中的率先应用

黑钢.384

2220 主题
2321 帖子
8707 积分

身份：版主

E币：3608

发消息

 570

 0

发表于 2023-6-27 11:10:53

显示全部楼层

本帖最后由黑钢.384 于 2023-6-27 11:13 编辑

在高性能计算领域，Chiplet 是满足当下对算力需求的关键技术。运用 Chiplet 技术，一方面通过 Die to Die 连接和 Fabric 互联网络，能够将更多算力单元高密度、高效率、低功耗地连接在一起，从而实现超大规模计算；另一方面，通过将 CPU、GPU 和 NPU 高速连接在同一个 Chiplet 中，实现芯片级异构系统，可以极大提高异构核之间的传输速率，降低数据访问功耗，从而实现高速预处理和数据调度；同时，其采用非先进制程构建 Cache（位于 CPU 与内存之间的临时存储器），提高片上 Cache 的容量和性价比，并通过 3D 近存技术，降低存储访问功耗，从而满足大模型参数需求。

从下游应用场景来看，服务器、自动驾驶领域是比较适合 Chiplet 落地场景，消费电子由于对轻薄、功耗要求较高，不太适合应用 Chiplet。随着近年来高性能计算、人工智能、5G、汽车、云端等新兴市场的蓬勃发展，对于算力的需求持续攀升，仅靠单一类型的架构和处理器无法处理更复杂的海量数据，“异构”正在成为解决算力瓶颈关键技术方向。Chiplet 技术目前主要聚焦于 HPC 高性能计算与 AI 人工智能领域，随着算力、存储等需求升级，Chiplet 有望在未来市场上得到更加广泛的应用。国际巨头厂商已经布局 Chiplet 在高性能计算领域的应用。英特尔于 2022 年底发布了数据中心 GPU Max，是英特尔针对高性能计算加速设计的第一款 3D GPGPU，在一颗芯片里集成了 47 颗芯粒，有 5 种制程，以此获得比上一代高出三倍性能的提升。

AMD 在这个方向走在了更前面，目前已经发布了第一个数据中心 APU（Accelerated Processing Unit，加速处理器）产品 MI300，其采用 Chiplet 技术，在 4 块 6 纳米芯片上，堆叠了 9 块 5 纳米的计算芯片。AMD 表示，相较于上一代的 Instinct MI250，提升了 8 倍的 AI 训练算力和 5 倍的 AI 能效。苹果则与台积电合作开发了 UltraFusion 封装技术，也是一种类似 Chiplet 的技术，能同时传输超过 1 万个信号，芯片间的互连带宽可达 2.5TB/s，超出了 UCIe 1.0 的标准。苹果此前发布的 M1 Ultra 芯片将两个 M1 Max 芯片的裸片，采用 UltraFusion 封装技术进行互连，其 CPU 核心数量增加至 20 个，而 GPU 核心数量更是直接增加至 64 个。M1 Ultra 的神经网络引擎也增加至 32 核，能够带来每秒 22 万亿次的运算能力。

以 ChatGPT 为代表的的 AI 应用蓬勃发展，对上游 AI 芯片算力提出了更高的要求，而运用 Chiplet 模式的异构集成方案，可以通过将通用需求与专用需求解耦，大幅降低芯片设计投入门槛及风险，有效解决下游客户在算法适配、迭代周期、算力利用率、算力成本等各方面难以平衡的核心痛点。将支持人工智能的不同功能的芯片，如 GPU、CPU、加速器等，通过 Chiplet 的方式进行组合，可以构建出更高效的 AI 加速器系统。国际巨头厂商与国内领先厂商均在 Chiplet 技术于 AI 芯片的运用做了不同突破。英伟达使运用 Chiplet 技术制作 AI 芯片的领先企业，其于 2022 年发布的 H100 GPU 芯片就是台积电 4nm 工艺和 Chiplet 技术融合的创新之作。英伟达通过 Chiplet 技术将 HBM3 显存子系统集成到芯片里，可提供 3TB/s 的超高显存带宽，是上一代产品带宽的近两倍。同时借助 4nm 先进制程，H100 GPU 芯片在 814 平方毫米的芯片面积里容纳 800 亿个晶体管，无论是性能还是延迟，相较于上一代 A100 GPU 芯片都有巨大的提升。

ffce62a50f1e4a608b3cedb749d8b857~noop.image?_iz=58558&from=article.jpg

英伟达另一款 AI 芯片 GH200 与 H100 属于同一际代，但应用场景有所不同。英伟达 H100 的架构以 GPU 为主，重点用于数据运算和推理。GH200 架构采用 CPU+GPU 异构计算方式。GH200 采用 NVLink-C2C 技术方案，通过 Chiplet 工艺将基于 Arm 的 NVIDIA Grace CPU 与 NVIDIA H100 Tensor Core GPU 整合在了一起，实现流畅互连。具体来说，GH200 超级芯片将 72 核的 Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中，拥有高达 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间高达 900G/s 的数据带宽，为某些内存受限的工作负载提供了巨大的优势。相较 PCIe5，NVLink-C2C 在能效方面提升 25 倍，面积效率提升 90 倍。

AMD 的 MI300 加速器也运用了 Chiplet 技术，是业内首款 CPU+GPU 异构计算的存算一体芯片。 MI300 加速器专为领先的高性能计算（HPC）和 AI 性能而设计，这款加速卡采用 Chiplet 设计，拥有 13 个小芯片，基于 3D 堆叠，包括 24 个 Zen4 CPU 内核，总共包含 128GB HBM3 显存和 1460 亿晶体管，性能上比此前的 MI250 提高了 8 倍,在功耗效率上提高了 5 倍。

中国首款基于 Chiplet 的 AI 芯片“启明 930”为北极雄芯开发，该芯片采用 12nm 工艺生产，中央控制芯粒采用 RISC-V CPU 核心，可通过高速接口搭载多个功能型芯粒，并基于全国产基板材料以及 2.5D 封装，做到算力可拓展，提供 8~20TOPS（INT8）稠密算力来适应不同场景，目前已与多家 AI 下游场景合作伙伴进行测试。

（报告出品方/作者：安信证券，马良、郭旺）

继续阅读本篇相关更多标签