AMD凭借本能的MI100 GPU加速器达到临界点

2020-11-16 22:53:05

追逐一个竞争者已经够难的了。想象一下,在不同但互补的市场上追逐两个不同的公司是多么困难,而这两个竞争对手却在考虑在这两个不同的市场上相互竞争,从而在两条战线上带来更大的竞争压力。

欢迎成为AMD。就像AMD已经推出了两代Epyc处理器,以便与英特尔的至强SPS竞争,并准备推出第三代处理器(在这种情况下,第三代Epyc 7003将于今年晚些时候发货,并将于2021年初正式推出),遥遥领先,就像它已经推出了两代本能GPU--2017年的本能MI25和2018年的本能MI50--现在是SC20超级计算产品。同样,AMD也推出了两代EPEC处理器,与英特尔的至强SPS展开竞争,并准备推出第三代EPEC 7003s,这款处理器将于今年晚些时候发货,并于2021年初正式发布。英特尔正准备明年以其“Ponte Vecchio”X e HPC进入市场,因为AMD希望与Nvidia目前的“Ampere”A100 GPU计算引擎展开激烈竞争,而NVIDIA正在以400亿美元收购ARM控股公司,试图将ARM服务器芯片推向数据中心,与AMD Epycs和英特尔至强(Intel Xeons)相抗衡,英伟达正在以400亿美元的价格收购ARM Holdings,试图将ARM服务器芯片推向数据中心,对抗AMD Epycs和英特尔至强(Intel Xeons)。

但目前,如果HPC市场的高端市场是任何一种领先指标--我们绝对相信是这样--那么AMD正在做一项了不起的工作,准备从英特尔(Intel)和英伟达(Nvidia)的GPU加速器中夺走市场份额。在SC20超级计算大会如火如荼召开之际,AMD今天宣布推出的本能MI100 GPU加速器是揭示这一过程的第一步,也是揭示未来几年至少部分高性能计算和人工智能市场将走向何方的第一步。

与CPU和FPGA不同的是,似乎有无穷无尽的各种功能打开或关闭以提供SKU堆栈,而对于基于GPU的HPC和AI计算引擎来说,这种情况并不多见。NVIDIA的A100有两个版本--On支持NVLink 3.0,另一个支持PCI-Express 4.0--而本能MI100(Radeon不再是服务器加速器品牌的一部分)核心的“Arcturus”GPU正好只有一个SKU。如果芯片中固有的所有计算元件都能够被激活,那么它可能有两个,因为成品率提高了台积电制造公司用来改进Arcturus芯片的7纳米工艺。但我们不会指望它。

这肯定不会发生在上一代本能GPU加速器中,它在两年内推出了基于其图形核心Next(GCN)架构的“织女星20”GPU,其时钟频率为1.8 GHz。TOP-BIN本能MI60有64个计算元素,总共有4096个流处理器,而本能MI50只有60个计算元素,因此有3840个流处理器被激活,因此性能低于这个比率。本能军情50实际上进入了市场并被出售,但我们从未在任何地方看到过本能军情60,AMD也再也没有谈论过它。

MI60卡有32 GB的HBM2内存,而MI50卡只有16 GB的内存,就像上一代的MI25卡一样,MI25卡也基于GCN架构,但使用GlobalFoundries的14纳米工艺,时钟频率比MI50和MI60的1.8 GHz低1.5 GHz,因此没有提供更多的吸引力。为了完整起见,织女星10图形处理器的大小为495平方毫米,拥有125亿个晶体管,而织女星20的面积要小得多,仅为331平方毫米,拥有132亿个晶体管,采用台积电7纳米制程的早期迭代。

Arcturus的芯片大小、晶体管数量和时钟速度尚未公布,但鉴于我们认为该芯片有128个计算单元(好的,我们知道是因为我们在芯片快照上对其进行了计数),我们怀疑这块芯片的面积大约是晶体管数量的两倍,但时钟在1.2 GHz左右放慢了速度以减少热量,但仍然增加了Arcturus芯片在VEGA 20上的总运算数量。

Arcturus GPU的最大变化是,AMD将其针对游戏玩家的显卡GPU从针对HPC和AI计算的GPU加速器转变为针对游戏玩家,而在游戏玩家中,每秒的帧处理是至关重要的。在HPC和AI计算中,每秒的浮点和整数运算是关键。用AMD术语来说,这是rDNA和cDNA芯片之间的分离,而Arcturus芯片是cDNA架构的第一个实例。这种划分类似于AMD在图灵T4和Volta V100 GPU或安培A40和A100 GPU之间的划分,英特尔也在用它的Xe HP和Xe HPC GPU进行划分。(英特尔Xe产品线实际上比这要宽泛得多。)。这并不意味着一些HPA和AI客户不会使用rDNA芯片进行计算工作-许多客户会使用,因为它们价格便宜,而且不需要64位浮点数学或矩阵数学,这使得这些设备的GPU计算能力更强

具体地说,Arcturus芯片去掉了与图形相关的流处理器的所有电路,例如图形缓存和显示引擎,以及光栅化、镶嵌和混合功能,但由于需要消耗多媒体数据的工作负载(例如机器学习应用程序中的对象检测),因此保留了用于HEVC、H.264和VP9解码的专用逻辑。这释放了芯片空间以添加更多流处理器和计算单元。

下面是Arcturus骰子的外观,它的四个HBM2存储体在视觉上与之对齐(但显然没有逻辑连接:

下面的框图显示了Arcturus GPU的高级元素:

计算元件分为八个存储体,其中两个存储体共有32个计算元件,共享每个HBM2内存控制器,因此共享8 GB的HBM2内存。我们强烈怀疑AMD最终会在某个时候将本能MI100加速卡上的HBM2内存增加一倍,特别是NVIDIA现在将其Ampere A100卡上的HBM2内存从40 GB提升到80 GB,包括五个活动控制器(设计有六个,但一个是潜在的),这是其SC20声明的一部分。Arcturus内存控制器支持四个芯片高或八个芯片高的HBM2堆栈,我们认为最初的本能MI100卡使用的是每个芯片2 GB的四高堆栈。如果是这种情况,那么在将来的某个时候,通过将内存堆叠成两倍的高度,64 GB是可能的。目前的配置是内存支持2.4GT/秒,提供1.23TB/秒的聚合内存带宽,AMD表示,这比本能MI50卡的带宽高出20%,但内存的功率包络相同。

Arcturus设计有两个计算引擎块,顶部和底部,以及两组16路关联二级缓存,总共有32个切片,将它们全部链接在一起。L2缓存容量总计为8 MB,在进出计算引擎时提供总计6 TB/秒的带宽。当然,所有内存都具有ECC错误检测和纠正功能,这对于计算工作负载是必要的,而对于普通显卡则不是那么必要,因为它可以经受住位错误打嗝。

整个架构都被AMD的Infinity Fabric包住了,这是HyperTransport点对点链路的超集,从十多年前就是Opteron CPU架构的核心和灵魂,并在许多方面得到了扩展和延伸,包括用作GPU到GPU的互连,以及在未来的某个时候用于CPU到GPU的互连。重要的是,Infinity Fabric支持跨设备的一致内存,就像NVIDIA的NVLink一样。在Arcturus GPU计算引擎上,Infinity Fabric运行速度为23GT/秒,16位宽,就像在MI50和MI60织女星20 GPU上一样,但使用Arcturus MI100卡时,芯片上有三个Infinity Fabric链路,因此四个GPU可以通过任意两个设备之间的一跳进行交叉链接。每个Infinity光纤管道都有92 GB/秒的带宽。

每个Arcturus GPU有三个Infinity Fabric管道,可以像NUMA一样将四个GPU和128 GB的HBM2内存耦合到一个大得多的虚拟GPU中,这很像英特尔的UltraPath互连(QuickPath互连的后续产品,其本身的灵感来自Opteron设计)允许四个CPU紧密连接在一起,并且在“Cooper Lake”Xeon SP一代中只需一跳即可共享内存。以下是由四个GPU组成的Infinity Fabric“蜂巢”的外观:

由于本能MI50和MI60卡上只有两个Infinity交换矩阵端口,GPU组只能在环形拓扑中相互连接,并且环中的GPU数量越多,设备之间的延迟就越大。

在未来的某个时候,EPEC CPU和本能GPU将有足够的Infinity Fabric端口将单个CPU交叉耦合到四个GPU,所有这些设备都具有一致的内存。过去三年来,IBM一直支持Power9处理器和NVIDIA V100 GPU加速器之间的这种一致性,这也是蓝色巨人赢得在橡树岭国家实验室(Oak Ridge National Laboratory)和劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory)建造“Summit”混合超级计算机的合同的原因之一。无论出于什么原因,在Power10处理器和当前的安培GPU上都无法实现CPU和GPU之间的一致性,我们推测未来的NVIDIA GPU是因为IBM想要使用OpenCAPI,而NVIDIA想要使用NVLink,这可能是蓝色巨人没有赢得美国这两个实验室的后续“Frontier”和“El Capitan”亿级系统合同的原因之一。话虽如此,OpenCAPI和NVLink的余波可能是交易失败的一个结果,而不一定是影响。

在这一点上,本能MI100卡使用标准的PCI-Express 4.0 x16链路连接到处理器,这些链路在设备之间的往返方向上支持32 GB/秒的带宽。所有这些加在一起,每一块本能MI100卡在其三个管道上有64 GB/秒的PCI-Express 4.0带宽和276 GB/秒的Infinity光纤带宽,总共有340 GB/秒的I/O带宽。

我们将深入研究Arcturus GPU,包括其新的Matrix Core架构,以及它与之前的本能显卡和NVIDIA GPU计算引擎的比较和对比,但目前,以下是原始馈送和速度:

如您所见,Arcturus上的128个计算单元中只有120个死机,因此其潜在的8,192个流处理器中只有7,680个被激活。随着台积电7纳米成品率的提高,在设计中固有的相同时钟速度下,还有6.7%的性能提升-但正如我们上面所说的,我们不会指望它。有趣的是,Arcturus是第一个突破64位精度10万亿次浮点运算限制的GPU加速器--AMD是在11.5万亿次浮点运算的300瓦热封套中做到这一点的,而不是像英伟达安培A100那样的400瓦,64位浮点运算时,安培A100的重量只有9.7万亿次浮点运算。但是,NVIDIA在安培设备上也有自己的潜力。谁会让台积电收益率上升得更快?嗯哼。。。。

本能MI100的定价并未透露,但我们将试着看看原始设备制造商对它的定价。以下是将支持MI100 GPU加速器的初始OEM供应商及其机器:

将本周的精彩内容、分析和故事直接从我们的收件箱发送到您的收件箱,中间没有任何内容。