近年来,中美在超算领域你追我赶,而相比之下,在这一领域,日本已经名落孙山。在2011 年,日本的超算“京”曾登顶TOP 500 榜单冠军,是由富士通联合日本理化研究所开发的,但到了 2018 年6月已跌至全球第 16 位。
20180828104941673.jpg
今年6月的最新“国际超算500强”榜单显示,日本只占一席。

现在,富士通表示计划开发下一代超级计算机(代号 Post-K)重夺全球超算榜首,目前正在推进筹备工作。

在今年美国硅谷举行的 HotChips 会议上,富士通公布了下一代超算的 CPU 细节。

被临时命名为 Post-K 的超算运算速度预计将是 K(京)的 100 倍,是目前全球最快超级计算机的10倍左右,预计于 2021 年投入使用。

K(京)超算使用的是原 Sun 的 SPARC64 处理器,而 Post-K 切换到 ARM 架构的 A64FX,使用 7 纳米工艺制造,包含 87.86 亿个晶体管,它将是第一款实现为高性能计算设计的 Scalable Vector Extension(SVX) 指令的 ARM 处理器。

富士通已经生产出处理器原型,开始了初步测试。A64FX 由 64 个计算核心和 4 个辅助核心构成,512 位宽矢量运算。

在运算速度上,作为第一款 SVE Arm 芯片,A64FX 提供了一些不错的浮点性能数据:64 位系统(FP64)每秒可以做超过 2.7 万亿次浮点运算,32 位系统(FP32)的速度则达到每秒 5.4 万亿次,16 位系统(FP16)每秒超过 10.8 万亿次。后两个系统对于深度学习应用尤其重要,传统上使用较低精度的 FP32 和 FP16 来训练神经网络。

A64FX 还实现了 16 位(INT16)和 8 位(INT8)格式的整数点积运算,可用于推理这些相同的网络。富士通称,使用 INT8 的新 CPU 可以达到每秒 21.6 万亿次操作以上,INT16 可以达到每秒 10.8 万亿次操作以上

虽然 A64FX 的浮点性能值得肯定,但它只比最先进的 Xeon Skylake CPU 快了大约 35%,比现在已经不存在的 Xeon Phi CPU 慢了 20%。不难想象,无论是使用 Ice Lake Xeon CPU 还是未经证实的 Xeon AP 处理器,英特尔将在 2021 年为 Aurora exascale 超级计算机生产更高速的 CPU。另一方面,现在富士通只是提供了 A64FX 的低端性能估计,它暗示将在最终芯片推出几年后公布更多的测试信息。

虽然浮点运算速度并不是超级计算机的一切,但这确实让我们了解到亿亿次级计算机所需的处理器数量。使用保守的每秒 2.7 万亿次估计,需要超过 37 万块芯片才能达到峰值,而在 Linpack 或真正的浮点密集型应用程序上达到峰值可能需要 40 万

由于富士通计划在每个 Post-K 节点中只放置一个 A64FX 处理器,因此该 40 万个处理器就是计算机的节点。Post-K 每个机架将有 384 个节点,在最终的亿亿级计算机中将需要 1000 多个这样的机架。如果在未来两年继续改进芯片,可以再次提高计算峰值。

处理器的节点这么多,说明计算机需有高性能互连能力。为此,A64FX 将配备一个片上网络控制器,通过一个叫“豆腐”的大规模并行互连网络来传输数据。对于 Post-K ,这种结构将是一个 6 维 mesh/torus 网络,它有六个坐标轴:X、Y、Z、A、B 和 C,每个处理器(节点)提供 2 个通道,每个通道有 10 个每秒 28000 兆位的端口。每个 CPU 或节点的传输速度可达到 560000 兆位
图丨“豆腐”网络是如何在节点之间产生联系的(来源:IEEE Computer Society )

Post-K 另一个突出之处是内存带宽。A64FX 将使用 32GB 的封装 HBM2 内存为每个 CPU 提供高达 1024 GB/秒的速度。根据富士通的说法,他们能够在 Stream Triad 基准测试中实现超过 830 GB /秒的速度超过处理器峰值带宽的 80%。富士通没有提到将这种芯片是否连接到传统的 DDR 内存。
在内部,48 + 4 内核分为四个核心内存组,也叫 CMG。CME 是 13 个核心,由 12 个计算核心和 1 个辅助核心组成。CME 处理 OS 函数,如 I/O 和守护进程处理。13 个内核中的每一个都配备了 64 KB 的 L1 缓存,能够以超过 11 TB/秒的速度传输数据。而每个 CMG 都配备 8MB 二级缓存,运行速度超过 3.6 TB/秒。L2 高速缓存连接到存储器控制器和片上网络(NoC)的接口。NoC 可以和其他 CMG、豆腐网络和 PCIe 控制器产生连接。

A64FX 芯片的内部结构(来源:TOP500 官网)
平均而言,A64FX 的速度比 SPARC64 XIfx(富士通之前的高性能 CPU)快 2.5 倍,适用于各种高性能计算和人工智能的工作负载。A64FX 在流体动力学和地震波传播等领域的运算速度特别快,分别比 SPARC64 Xifx 快 3.0 倍和 3.4 倍。

A64FX 在高性能计算和人工智能领域的表现(来源:TOP500 官网)
在软件方面,Post-K 机器的客户富士通和日本理化学研究所正在为 A64FX 处理器和系统本身共同开发软件。基于 Arm 的系统软件和工具的开发人员 Linaro 以及各种开源和独立软件开发人员也将参与其中。预计到 2021 年时,富士通将开发出一整套高性能计算软件组件,包括 Linux,C / C ++和 Fortran 编译器,调试器,MPI,OpenMP,数学库,资源管理器和 Lustre 等

环球网科技,DeepTech深科技,cnbeta
https://www.top500.org/news/fujitsu-reveals-details-of-processor-that-will-power-post-k-supercomputer/