英特尔Xe-HP显卡:早期示例提供42 TFLOPS的FP32性能

2020-08-22 02:44:54

英特尔对其新的Xe GPU系列做出的承诺之一是,它将以各种形式迎合各种用途,从集成显卡一直到超高密度超级计算机所需的高性能计算模型。这意味着支持简单图形、复杂图形、光线跟踪、AI推理、AI培训中涉及的计算类型,以及用于分子建模、石油和天然气、核反应堆、火箭、核火箭和所有其他大问题的计算,在这些问题中,更多的计算提供更多的功能。位于英特尔产品顶端的是X e-HP架构,旨在为标准服务器和企业部署提供高性能GPU。

在拉贾·科杜里(Raja Koduri)在他的社交媒体个人资料中炫耀X e-HP之后,在过去的几周里,英特尔提供了X e-HP的一些首批技术细节。我们知道它被设计为模块化架构,使用英特尔的嵌入式多芯片互连桥技术将不同的芯片连接在一起。我们还知道,由于在英特尔架构日上披露的信息,它将建立在英特尔10纳米增强型SUPERFIN(10ESF,以前是10++,以前是10++)制造工艺的基础上,我们认为这是一个2021年晚些时候的工艺。Raja Koduri在架构日演示中承诺,X e-HP(和X e-HPG)将在2021年面市。

英特尔解释说,模块化的Xe-HP设计将从1块扩展到4块,Xe-HP的概念是“扩展一切”,如执行单元、频率、带宽、IPC和数学功能。我们假设每个瓷砖还可以直接访问一些芯片上的内存-真正扩大了芯片的各个方面-尽管芯片的HBM2E是如何分配的还没有得到确认。该产品的要点在于它是为数据中心设计的,因此需要混合使用媒体计算和原始计算,涵盖各种使用案例。

作为架构日期间演示的一部分,英特尔还展示了他们已经在实验室中对早期的硅进行了一些基准测试。所谓早期的硅片,我们的意思是它们不是在最终频率下运行,这不是最终的固件,软件堆栈还有一段路要走,所以毫无疑问,每个级别都有优化。

首先,英特尔显示,X e-HP的单个磁贴不仅可以实时转码一个4K60视频,而且可以转码十个。在演示中,他们有FFmpeg输出,显示演示将每个视频从总体5332 kb/s转换为平均3000 kb/s(最大6000 kb/s)。

对于计算,英特尔提供了以下性能数字,使用基于OpenCL的CLPeak基准测试给出了FP32数学的峰值GFLOP。

我们还从X e-HP的视频中获得了一些额外的信息。这些测试是在Linux上进行的,实际上都是在四块芯片的一个版本上完成的,但被设计成在1T/2T/4T模式下运行。这就是为什么当我们看视频时,我们可以看到所有三个版本都运行在1300 MHz的频率上。芯片使用的字符串也是“XeHP HD Graphics neo”。

视频还显示,单个瓦片有512个计算单元,而双瓦片有1024个计算单元,四块瓦片有2048个计算单元。虽然英特尔还没有正式澄清计算单元在这种情况下意味着什么,但性能数据几乎证实了它正在计算英特尔的执行单元。基于给定的GFLPS、规定的时钟速度和XE架构中每个具有双FMA的执行单元的8个管道,英特尔的性能数字分别映射到512/1024/2048EU。这意味着每个人都将拥有:

这是假设来自Xe-Lp的8+2的执行单元结构保持不变。我们知道惠普将支持新的用于矩阵数学的XMX指令,以及与AI相关的量化级别和FP64。英特尔的热芯片演示已确认哪些将作为额外的物理模块在EU中实施。

还有一张X e-HP芯片的后部照片,Raja在他的热筹码主题演讲中也展示了这一点。我们可以玩一个数大头针的游戏。

英特尔相信,在其多瓦片战略中,其计算性能正在实现近乎线性的扩展-使用CLPeak,至少可以达到4T,CLPeak是一项基准测试,旨在衡量GPU的最大计算吞吐量。这里没有任何关于分片到分片带宽扩展的内容,或者如果这种多分片策略和NUMA分片排列对内存有限或稀疏的数学有连锁反应,英特尔的目标只是简单地显示硬件正在运行,以及它可以提供什么样的峰值计算性能。此外,也没有提到功耗或成本,但英特尔在演示中表示,这里的目标是在单个芯片中提供相当于机架规模的转码系统,拥有同类最佳的总拥有成本,以每瓦特/美元的性能取胜。

发表评论我们现在有CPU可以通过软件渲染来运行CRESSION。不是很好,但它们确实运行:)https://www.anandtech.com/bench/CPU-2020/2755回复。

基本执行单元的ISA是多少?他们如何在2000台设备上获得足够的带宽和延迟?骑士磨坊只有128个x86内核。这是精简的指令集吗?回覆。

与其说它是一个CPU,不如说它更像一个GPU--但我确信它使用了某种专有的ISA,至少据我所知,我认为这个名字从未被公开提及过。可能是Xe ISA&34;回复。

考虑到NVidia最新的财报,他们赚了更多的钱,这是因为这一领域的快速增长,而不是之前游戏部门更有利可图。情报人员发现了一些事情。回覆。

四块瓷砖:42277 GFLOPS(42.3TF)fp32(3.993x)https://developer.nvidia.com/blog/nvidia-ampere-ar...。所以~2倍的NVIDIA A100。现在,我们只需要知道芯片/卡的大小、温度、功耗要求、价格以及与NVIDIA下一代企业级GPU的可比性。我还期待但不完整地报道独角兽硬件和谚语,对这些数字持保留态度,并不是说这些是试生产数字,这样我们就会假设最终的硬件是无穷大的,甚至更多。哦,AnandTech不要再成为英特尔的247先令了。回覆

到10 nm制程成熟时,NVIDIA将出现在下一个架构上。回覆。

是的。真是一场打哈欠的盛会。如果现在可以的话,那将是值得讨论的事情。但这是AMD&;NVIDIA在未来几个月将“出货”的Ampere&;rDNA 2代产品中无法比拟的(1T&;2T解决方案,4T等价物将是多GPU)。当英特尔修复他们的流程或将IP迁移到台积电时,NVIDIA和AMD都将采用下一代芯片架构,可能是5 nm,性能将轻松超越这一点。正如其他人所说-英特尔正在大声叫嚣独角兽硬件运行在未披露的功率水平和未经验证的基准测试,因为他们没有什么可以发货,甚至没有具有竞争力的样品。对于一家拥有一些伟大的工程人才的公司来说,这是多么令人悲哀的状况。同样令人遗憾的是,AT几乎没有评论地播放这一宣传,指出英特尔演示文稿和路线图中存在的漏洞。回覆。

我想知道这和Afterburner加速卡相比怎么样?苹果公司声称该卡可以一次处理23个4K流。回覆