日本不甘落后中美，欲重夺全球超算榜首

楼主

日本不甘落后中美，欲重夺全球超算榜首

黑钢.384

2220 主题
2321 帖子
8707 积分

身份：版主

E币：3608

发消息

 3232

 2

发表于 2018-8-29 15:49:55

显示全部楼层

近年来，中美在超算领域你追我赶，而相比之下，在这一领域，日本已经名落孙山。在2011 年，日本的超算“京”曾登顶TOP 500 榜单冠军，是由富士通联合日本理化研究所开发的，但到了 2018 年6月已跌至全球第 16 位。

今年6月的最新“国际超算500强”榜单显示，日本只占一席。

现在，富士通表示计划开发下一代超级计算机（代号 Post-K）重夺全球超算榜首，目前正在推进筹备工作。

在今年美国硅谷举行的 HotChips 会议上，富士通公布了下一代超算的 CPU 细节。

被临时命名为 Post-K 的超算运算速度预计将是 K（京）的 100 倍，是目前全球最快超级计算机的10倍左右，预计于 2021 年投入使用。

K（京）超算使用的是原 Sun 的 SPARC64 处理器，而 Post-K 切换到 ARM 架构的 A64FX，使用 7 纳米工艺制造，包含 87.86 亿个晶体管，它将是第一款实现为高性能计算设计的 Scalable Vector Extension(SVX) 指令的 ARM 处理器。

富士通已经生产出处理器原型，开始了初步测试。A64FX 由 64 个计算核心和 4 个辅助核心构成，512 位宽矢量运算。

在运算速度上，作为第一款 SVE Arm 芯片，A64FX 提供了一些不错的浮点性能数据：64 位系统（FP64）每秒可以做超过 2.7 万亿次浮点运算，32 位系统（FP32）的速度则达到每秒 5.4 万亿次，16 位系统（FP16）每秒超过 10.8 万亿次。后两个系统对于深度学习应用尤其重要，传统上使用较低精度的 FP32 和 FP16 来训练神经网络。

A64FX 还实现了 16 位（INT16）和 8 位（INT8）格式的整数点积运算，可用于推理这些相同的网络。富士通称，使用 INT8 的新 CPU 可以达到每秒 21.6 万亿次操作以上，INT16 可以达到每秒 10.8 万亿次操作以上。

虽然 A64FX 的浮点性能值得肯定，但它只比最先进的 Xeon Skylake CPU 快了大约 35％，比现在已经不存在的 Xeon Phi CPU 慢了 20％。不难想象，无论是使用 Ice Lake Xeon CPU 还是未经证实的 Xeon AP 处理器，英特尔将在 2021 年为 Aurora exascale 超级计算机生产更高速的 CPU。另一方面，现在富士通只是提供了 A64FX 的低端性能估计，它暗示将在最终芯片推出几年后公布更多的测试信息。

虽然浮点运算速度并不是超级计算机的一切，但这确实让我们了解到亿亿次级计算机所需的处理器数量。使用保守的每秒 2.7 万亿次估计，需要超过 37 万块芯片才能达到峰值，而在 Linpack 或真正的浮点密集型应用程序上达到峰值可能需要 40 万。

由于富士通计划在每个 Post-K 节点中只放置一个 A64FX 处理器，因此该 40 万个处理器就是计算机的节点。Post-K 每个机架将有 384 个节点，在最终的亿亿级计算机中将需要 1000 多个这样的机架。如果在未来两年继续改进芯片，可以再次提高计算峰值。

处理器的节点这么多，说明计算机需有高性能互连能力。为此，A64FX 将配备一个片上网络控制器，通过一个叫“豆腐”的大规模并行互连网络来传输数据。对于 Post-K ，这种结构将是一个 6 维 mesh/torus 网络，它有六个坐标轴：X、Y、Z、A、B 和 C，每个处理器（节点）提供 2 个通道，每个通道有 10 个每秒 28000 兆位的端口。每个 CPU 或节点的传输速度可达到 560000 兆位。

图丨“豆腐”网络是如何在节点之间产生联系的（来源：IEEE Computer Society ）

Post-K 另一个突出之处是内存带宽。A64FX 将使用 32GB 的封装 HBM2 内存为每个 CPU 提供高达 1024 GB/秒的速度。根据富士通的说法，他们能够在 Stream Triad 基准测试中实现超过 830 GB /秒的速度，超过处理器峰值带宽的 80％。富士通没有提到将这种芯片是否连接到传统的 DDR 内存。

在内部，48 + 4 内核分为四个核心内存组，也叫 CMG。CME 是 13 个核心，由 12 个计算核心和 1 个辅助核心组成。CME 处理 OS 函数，如 I/O 和守护进程处理。13 个内核中的每一个都配备了 64 KB 的 L1 缓存，能够以超过 11 TB/秒的速度传输数据。而每个 CMG 都配备 8MB 二级缓存，运行速度超过 3.6 TB/秒。L2 高速缓存连接到存储器控制器和片上网络（NoC）的接口。NoC 可以和其他 CMG、豆腐网络和 PCIe 控制器产生连接。

A64FX 芯片的内部结构（来源：TOP500 官网）

平均而言，A64FX 的速度比 SPARC64 XIfx（富士通之前的高性能 CPU）快 2.5 倍，适用于各种高性能计算和人工智能的工作负载。A64FX 在流体动力学和地震波传播等领域的运算速度特别快，分别比 SPARC64 Xifx 快 3.0 倍和 3.4 倍。

A64FX 在高性能计算和人工智能领域的表现（来源：TOP500 官网）

在软件方面，Post-K 机器的客户富士通和日本理化学研究所正在为 A64FX 处理器和系统本身共同开发软件。基于 Arm 的系统软件和工具的开发人员 Linaro 以及各种开源和独立软件开发人员也将参与其中。预计到 2021 年时，富士通将开发出一整套高性能计算软件组件，包括 Linux，C / C ++和 Fortran 编译器，调试器，MPI，OpenMP，数学库，资源管理器和 Lustre 等。

环球网科技,DeepTech深科技,cnbeta
https://www.top500.org/news/fujitsu-reveals-details-of-processor-that-will-power-post-k-supercomputer/

继续阅读本篇相关更多标签

超算

写原创有奖励！2025面包板原创奖励正在进行中

 举报



 

  17

热门资料

全球首发！3D IC协同设计“黑科技”，效率提升200%

万亿市场风口怎么抓？5场研讨会解锁3D IC设计“通关秘籍”

汽车用卸负载电阻低价方案

汽车照明系统的“智慧大脑”，竟然是它？》

技术文库

全部回复 2

10 主题
83 帖子
344 积分

身份：LV2 初级技术员

E币：3222

发消息

二不过三

发表于2018-8-30 10:02:47

显示全部楼层沙发

查了下超算是干嘛的
超级计算机具有很强的计算和处理数据的能力，主要特点表现为高速度和大容量，配有多种外部和外围设备及丰富的、高性能的软件系统。现有的超级计算机运算速度大都可以达到每秒一万亿次以上。这个巨大的计算机系统主要用来承担重大的科学研究、国防尖端技术和国民经济领域的大型计算课题及数据处理任务：如大范围天气预报，整理卫星照片，原子核物理探索，研究洲际导弹、宇宙飞船等，制定国民经济的发展计划等。