富士通的Fugaku和A64FX以415petaflops将ARM带到了顶端

2020-06-23 17:40:13

高性能计算现在正处于这样一个阶段,要想成为第一,你需要非常强大、非常高效的硬件,大量的硬件和大量的能力来部署它。将单个服务器机架部署到总共几千个核心不会减少它。以前排名第一的超级计算机Summit是由22核IBM Power9 CPU和NVIDIA GV100加速器组成的,总共有240万个内核,耗电量为10兆瓦。新的Fugaku超级计算机由理研与富士通合作制造,在2020年6月的排名第一,拥有730万个内核,耗电量为28兆瓦。

新的Fugaku超级计算机几乎在各个方面都比Summit大。它有3.05x内核,在官方Linpack测试中得分是2.8倍,功耗是2.8倍。这也标志着基于ARM的系统首次位居500强榜首。

由于冠状病毒大流行的爆发,理研公司在最近几个月加快了Fugaku的部署。5月13日,理研宣布部署了400多个机架,每个机架每台服务器都有多个48核A64FX卡。这一过程早在去年12月就开始了,但他们如此热衷于尽快启动并运行超级计算机,以协助研发--服务器机架在开始工作时没有正式的前面板。还有额外的资源需要增加,全面运营计划在理研的2021年财政年度开始,这表明Fugaku在前100名的计算值将上升得更高。

除了在TOP500中排名第一之外,Fugaku还进入了Green500榜单,排名第9,紧随Summit之后,低于排名第4的Fugaku原型安装。

Fugaku的核心是A64FX,这是一款基于ARM V8-A CPU的定制芯片,针对计算进行了优化。总配置使用这些48+4核卡中的158,976个,以2.2 GHz峰值性能运行(48个核用于计算,4个用于辅助)。这允许一些重要的R峰值数字,例如通常的TOP500度量的FP64的537千万亿次浮点。但A64FX也支持精度较低的量化模型,这就是我们进入Fugaku的一些有趣数字的地方:

由于A64FX的设计,它还允许每秒163 PB的总内存带宽。

到目前为止,A64FX计算卡是ARM v8.2-A可伸缩矢量扩展(SVE)的唯一实现。SVE的目标是允许ARM的客户使用从128位到2048位的矢量单元构建硬件,这样,为在SVE上运行而构建的任何软件都将自动扩展,而不考虑SVE执行单元的大小。A64FX的每个核心使用两个512位宽管道,每个芯片具有48个计算核心,并且还在每个芯片中添加了四个8 GiB HBM2链路,以便将1 TiB/s的总带宽提供给芯片。

如上所述,该单元支持INT8至FP64,芯片具有板载定制TOFU互连,支持高达560 Gbps的与其他A64FX模块的互连。该芯片建立在台积电的N7工艺之上,产量为87.9亿个晶体管。DGEMM类型的工作负载声称执行效率为90%,并使用组合聚集和非对齐SIMD加载等附加机制来帮助保持高吞吐量。此外,还可以在电源级别进行额外的调整以进行优化,以及广泛的内部RAS(硅中超过128k的错误校验器)以确保准确性。

A64FX芯片的细节在2018年的热点芯片大会上披露,我们在2019年的超算大会上看到了晶圆和芯片。这款芯片预计将是富士通沿着类似HPC主题推出的一系列芯片中的第一款。

到目前为止,在Fugaku上所做的工作包括对日本新冠肺炎赛道和跟踪应用的模拟。根据松冈聪教授的说法,Fugaku计算出的预测显示,为了取得成功,应用程序开发的分配率为60%。还对病毒活性进行了液滴模拟。A64FX的部署将超越理研,桑迪亚实验室也将在美国部署A64FX系统。

发表评论我不会把这些加速卡称为加速卡。例如,PCIe通道用于连接到本地IO和管理,而不是连接到主机CPU。回覆。

确实如此。没有主机-整个软件堆栈本身在A64FX节点上运行。这是一个100%纯CPU、无加速器的系统。回覆。

不是全面的,但在那一刻。我想它现在已经被编辑掉了(完美地)!回覆。

任何不能立即称为CPU的东西都会自动默认到加速卡。我的错,它已经更新了。回覆。

听起来好像每个芯片都有4个内核,它们的行为有点像主机。回覆。

谢谢伊恩!这台新的超级计算机与前五名中的大多数超级计算机的主要区别之一不是它的速度不依赖于类似GPU的加速器吗?这使得像Fugaku这样的设置可以更广泛地使用,至少据我所知或被告知是这样。回覆

如果SVE没有跨车道操作,那么我看不出它与GPU有什么实质性的不同。要想从中获得良好的性能,您将不得不对其进行编程,就像编程一样。回覆。

请不要反对,除非这个设置实际上可以运行不是专门为GPU(或Wide SVE)编写的程序,而基于加速器的系统通常不能运行这些程序。而且,至少根据比我更了解这一点的人的说法,当您真的想要一个问题的快速解决方案时,需要一个适合有限例程(GPU类型或SVE)的程序(和一个问题)是非常困难的。另外,即使可以定制加速器的计算方法,也需要多长时间?我可以看出,使用超级计算机节省的时间可能会被相当频繁地延迟准备程序所消耗掉。回覆。

这种布局的主要优点是FPU应该可以访问CPU寄存器。高速缓存也是如此,其速度与其余执行资源相同。回覆