AMD首席技术官Mark Papermaster就Zen 3的发布、其新的核心复合体设计和改进的动力效率以及来自ARM生态系统的压力采访了AMD

2020-10-17 18:19:41

新的Ryzen 5000处理器的发布,基于AMD的Zen 3微体系结构,引起了一波又一波的兴奋和对性能的质疑。11月5日高性能台式机处理器的发布将是有趣的一天。在这些披露之前,我们与AMD的CTO Mark Papermaster坐下来讨论了AMD的定位、性能和前景。

在AnandTech之前,我们已经采访过Mark很多次,比如在第二代EPYC发布会上,或者展望AMD 2020年的前景时(还有几次从未发表过的讨论)。Mark总是非常清楚AMD路线图的愿景是什么,就像总是喜欢强调AMD专业知识的一些关键领域一样,这些领域有时不会达到标准的列英寸。

随着Zen 3和Ryzen 5000系列的发布,AMD正在推广的关键标题是绝对的台式机高性能领先地位,涵盖工作负载、游戏和能效。如果数字属实,这将使AMD处于该公司至少15年来未曾占据的地位。作为发布会的一部分,如果我们有什么问题要问马克,AMD团队会主动联系我们。我们确实是这样做的。

IC:当我在第一代Ryzen发布会的顶峰采访Lisa时,她提到AMD的定位如何帮助公司跳出框框,开发新的高性能x86设计。现在AMD声称在市场表现上处于领先地位,AMD的工程团队如何保持脚踏实地,并继续推动这种开箱即用的思维呢?

MP:对于我们的团队,我们感到非常自豪--他们是业内最具创新精神的工程团队之一。因此,这是一场艰苦的战斗,要进入禅宗3的领导地位,我可以告诉你,我们在未来有一个非常强大的路线图。这个团队确实非常脚踏实地--你看看我们在Zen 3上采取的那种方法,你知道它不是任何一个提供性能[提升]的灵丹妙药,它真的触及了整个CPU的几乎每个单元,团队在推动性能改进、效率提高、减少内存延迟以及提供巨大的性能改进方面做得非常出色。

与去年年中刚刚发布的上一代Zen 2相比,我们在每个时钟的单代指令中实现了19%的性能。因此,这是一项非凡的成就,我将把重点放在我所说的“核心工程”上,团队将继续前进-这不是银弹,而是继续为我们的客户提供现实世界的性能收益。

IC:为了突出19%的价值:AMD发布的两个亮点包括与Zen 2相比,每个时钟的原始性能提高了19%以上,而且这一新的核心复杂设计具有8个内核和32MB的L3高速缓存。更大的核心复合体在多大程度上有助于原始性能的提高,或者通过迁移到组合CCX在设计中是否有其他实质性的好处?

MP:核心复合体的基本结构的改变是非常非常重要的,这使得我们能够实现内存延迟的减少,这对游戏来说是巨大的。游戏是我们在高性能台式机上的一个巨大市场,游戏通常有一个主导线程-因此,它的性能非常依赖于可用的L3缓存。这是因为如果它可以命中本地L3缓存,显然它不会一直遍历到主存。因此,通过重组我们的核心复合体并将其加倍为可直接访问16 MB三级高速缓存的四个核心,现在已有八个核心可直接访问32 MB的三级高速缓存,这真的是减少延迟的最大单一杠杆。显然,当您命中缓存时,您提供了有效的延迟-它直接提高了性能。这是一个很大的游戏杠杆,但我们背后有许多杠杆-再次,我们真的触及了CPU中的每一个单元。

IC:将每个内核L3缓存访问增加一倍,从16MB增加到32MB,这是一个相当大的飞跃,我向您保证!正如您所说,它将总延迟提高到32MB,因此我们不必使用主存。但是,将大小加倍是否会影响L3延迟范围呢?显然,当您将L3缓存加倍时,即使您有更多的内核访问它,也是需要权衡的。

MP:无论是在逻辑上还是在身体上,这个团队在工程上都做得非常出色。这始终是关键-如何构建重组,以便更改逻辑以支持此新结构并同时专注于物理实现-如何优化布局,从而不会添加会有效抵消收益的延迟阶段?正是对Zen3核心的重组进行了巨大的工程设计,才真正带来了降低延迟的好处。

我将超越这一点-当我们讨论物理实现时,通常的想法是,当您添加我们为实现19%的IPC所做的逻辑更改时,通常情况下,功率范围当然会上升。我们没有改变技术节点--我们停留在7 nm。所以我想你的读者会自然而然地认为,因此我们的权力大大增加了,但团队不仅在管理新的核心建筑群方面做了出色的工作,而且在实施的各个方面都做了出色的工作,并将禅宗3保持在我们在禅宗2中的权力范围内。

当你看到Ryzen出厂时,我们能够保持在相同的AM4插槽和相同的功率范围内,同时提供这些非常非常显著的性能提升。

IC:谈到那个工艺节点,台积电的7 nm,正如你所说:我们特别被告知,这是一种用于Ryzen 3000XT的微小工艺更新。Ryzen 5000在制造过程中有没有我们可能没有意识到的其他好处?

MP:它实际上是核心在同一个7 nm节点上,这意味着工艺设计工具包(PDK)是相同的。所以,如果你看一下晶体管,它们的设计指南和工厂的是一样的。当然,在任何半导体制造节点发生的事情是,他们能够在制造过程中进行调整,所以当然这就是他们所做的,为了提高产量等等。对于每个季度,流程差异随着时间的推移而减小。当你听到7纳米的“微小变化”时,这就是所指的。

IC:从禅宗2到禅宗3,在19%的IPC的基础上,每瓦性能提升的总体数字是24%。这显然意味着在电力交付级别上进行了额外的增强-您能与其中的任何一个交谈吗?

MP:我们非常关注我们的电力管理。我们在整个CPU上都有完整的微控制器和电源管理方案。我们每一代都会增强这一点,所以我们为禅宗3团队为实现这一24%的功率提升所做的努力感到非常自豪。这是整个Precision Boost的更多进步,使我们在不断监听芯片上的无数传感器的同时,能够更精确地管理频率和电压。我们的电源管理更加精细,能够适应用户在微处理器上运行的工作负载。因此,它的响应更快,更快的响应意味着它也能提供更高的效率。

IC:禅宗2的其中一个要点是IO芯片的空闲功耗相对较高,从13W到20W不等。我们被告知,这一次禅宗3使用的IO芯片与禅宗2使用的是相同的IO芯片。我们只是想确认,Zen 3在这方面有什么改变,考虑到对电源效率和每瓦性能的关注,还是出于兼容性或性价比的考虑而采用了相同的设计?

MP:这些是IO芯片的增量改进,使我们能够为我们的客户提供高性能台式机,在获得这些性能提升的同时利用AM4插槽-这是一个非常精心设计的举措,在提供CPU性能的同时为我们的客户群提供连续性。我们一直在提高能效-在Zen 3中,重点放在核心和核心-高速缓存复合体上,以推动我们的大部分能效。

IC:您能谈谈AMD在IO和功耗方面的目标吗?我们已经看到AMD在7 nm范围内交付了第四代PCIe,但是IO芯片仍然位于距离Global Foundries 12/14 nm的地方。我认为它是未来改进的关键目标,只是这次不是?

MP:这是代际的-如果你展望未来,我们推动每一代人的进步。因此,您将看到AMD过渡到PCIe Gen 5和整个生态系统。在我们针对正在设计的下一代内核以及下一代IO和内存控制器复合体进行的下一轮改进中,您应该会收到我们的来信。

IC:谈到芯片本身,AMD的报告给了我们一个关于增加的核心复合体的高层次视图。我们已经注意到,这些芯片的芯片外通信现在已经从两个核心复合体之间的中心移到了边缘。这样做有没有什么特别的好处,例如线路延迟或功率?

MP:您需要考虑这种优化权衡,将逻辑实现与物理实现结合起来。因此,新的高速缓存核心复合体旨在最大限度地减少从CPU核心本身到该高速缓存复合体的延迟。将控制电路放在原来的位置意味着更长的导线长度可以到达延迟敏感度较低的电路。

IC:在过去的几年里,AMD已经提出了它在Infinity织物设计方面的路线图,例如努力实现更高带宽和更高效率这两个典型领域。Zen 3和新的Ryzen 5000系列对IF over Ryzen 3000有什么更新吗?

MP:我们做了-我们做了改进,你会看到新的安全元素将会推出。我们增强了安全性,[并且]我们一直在调整我们的无限架构。在Zen3中,重点放在提供原始CPU性能上。因此,就我们针对Ryzen台式机的Infinity架构而言,它是渐进式的,我们将推出其中的一些细节-我们对此感到非常兴奋,这是对主要的头条新闻CPU性能领先地位的极大赞扬。

IC:有了AMD和英特尔,我们现在看到这两家公司都将晶圆厂的硅片装箱到离最大值不到一英寸的地方-超频净空非常少,这样用户就可以直接获得最高的性能。从您的角度来看,Precision Boost Overdrive等功能(频率高于包装盒上规定的范围)是如何发展的,还是会随着装箱优化和知识的增加而慢慢消失?

MP:当然,我们的目标是用我们最大的提升频率最大化我们所支持的东西。在Zen 3中,我们将其提高到4.9 GHz。我们一直专注于改进我们的装箱--你应该这样想:我们总是拥有我们能提供的最好的提升频率,而且它在所有的工作负载上都经过了测试。我们的测试套件试图涵盖我们相信我们的客户能够在我们的CPU上运行的所有类型的工作负载。但最终用户非常聪明,他们可能拥有这些应用程序的一部分,我们的想法是,我们将继续提供超频,以便真正了解他们的工作负载并可能有工作负载的爱好者有机会跑得更快,因为他们感兴趣的是他们正在运行的东西的独特性质,我们希望给他们这种灵活性。

IC:我们已经谈到了安全问题,因为它与Infinity Fabric的变化有关--您能评论一下AMD针对主要安全漏洞主题的方法吗?Zen 3或Ryzen 5000中是否有什么新功能可以帮助解决这一问题?

国会议员:我们将推出更多的细节,但它将继续我们已经乘坐的火车。我们的设计一直是安全第一的--仅仅基于我们微体系结构实现的性质,我们对侧通道攻击非常非常有弹性,[并且]我们实现x86的方式非常非常强大。我们在整个内存空间中拥有的加密功能或加密独特的虚拟化实例的能力都取得了巨大的成功,并获得了广泛的应用。

我们将在“禅宗3”中继续这条路线。在接下来的几周里,我们将有更多的细节,但你会看到更多的增强功能,进一步保护你免受其他流氓元素的伤害,比如面向返回的编程(ROP),以及你在行业中看到的不良演员试图利用的其他方面。

IC:您是否认为这些安全增强的重点必然是针对企业而不是消费者,因为环境不同?AMD是单独对待这两个市场,还是更多地采取一刀切的做法?

MP:我们通常会试着考虑我们能为所有终端应用程序提供的最好的安全性是什么。当然,Enterprise IS通常会更注重安全性,但我相信这种情况会随着时间和每个人的变化而改变,无论您是在内容创建、计算、游戏等高性能应用程序中运行您的CPU-我相信安全性是基础。因此,尽管从历史上看,它一直是企业的重点,而且它推动了我们在所有产品中尽可能地推出安全增强功能的方法。我们相信这是基础性的。

IC:回到19%的IPC提升-在演示的一部分,AMD细分了它认为这些独立的百分比来自于微体系结构的不同元素。显然,对加载/存储单元和前端的更新可能贡献了该收益的一半,而微操作缓存更新和预取器更新贡献了另一半。您能详细介绍一下加载/存储和前端发生了什么变化吗?我知道您计划随着我们的发布更深入地研究微体系结构,但是您有什么可以说的吗,只是为了给我们一个预告吗?

MP:加载/存储增强是广泛的,它在交付19%的IPC方面所扮演的角色非常有影响力。这实际上是关于我们的执行单元可以带来的吞吐量。因此,当我们扩大执行单位,并将发行率扩大到执行单位时,这是我们可以发挥作用的关键杠杆之一。因此,当我们推出详细信息时,您会看到我们增加了每个周期的加载和存储的吞吐量,我们很快就会有更多的详细信息。

IC:显然,处理器做得越宽,静态功率和有功功率就越高-这是不是在物理设计上花费了更多的精力来降低功耗?

MP:这是物理设计和逻辑设计的结合。我认为当我们推出禅宗3的故事时,许多人可能会错过的是,这个设计的美妙之处实际上是平衡了带来广泛的变化来提高性能,同时增加了电源管理控制和物理实现,以允许每个周期进行与上一代相同的典型电源切换-这是一个相当大的壮举。

IC:禅宗3现在是禅宗家族的第三次主要微体系结构迭代,我们已经看到了谈论禅宗4甚至禅宗5的路线图。吉姆·凯勒(Jim Keller)曾说过一句名言,在设计上迭代是获得低垂果实的关键,但在某些时候,你必须从基础设计开始。考虑到从推土机到禅宗的时间线,现在我们已经进入禅宗和第三代了3-4年。你能讨论一下AMD如何实现这些禅宗的下一次迭代,同时考虑下一次大规模的重新设计吗?

国会议员:禅宗3实际上就是重新设计的。这是禅宗家族的一部分,所以我们没有改变,我称之为100000英尺的实现方法。如果你飞过这片土地,你可以说我们仍然在同一个领域,但当你看着实现和我们所有的执行单元时,你会发现Zen 3不是一个派生的设计。Zen 3经过重新设计,在保持与其前身相同的半导体节点的同时,提供最大的性能增益。

IC:虽然面向客户端和企业的x86市场竞争非常激烈,但不可否认,这两个市场都面临着来自ARM生态系统的越来越大的压力。目前,ARM自己的NeoverseV1设计有望实现接近x86级别的IPC,并随后实现30%的同比架构提升,而功耗仅为x86的一小部分。虽然AMD到目前为止的目标是达到峰值性能,就像在Zen3中一样,但AMD打算如何对抗非x86的竞争,特别是当他们开始在路线图中承诺越来越高的性能时?

国会议员:我们不会让我们的油门踏板在性能方面。这与ISA(指令集体系结构)无关-在任何ISA中,一旦您着眼于高性能,您将需要添加晶体管来实现该性能。一种ISA和另一种ISA之间有一些不同,但这不是根本-我们选择x86作为我们的设计,是因为有庞大的软件安装基础和庞大的工具链,所以我们选择了x86来优化性能。这给了我们在行业中采用的最快途径。从历史上看,我们生活在一个充满竞争的环境中-我们预计这一点不会在未来改变。我们的观点很简单,最好的防守实际上就是强有力的进攻--我们不会松懈的!

IC:随着Zen3(大规模)原始性能的提升,关于AMD如何接近基于CPU的AI加速的讨论并不多。是简单地拥有所有这些内核和强大的浮点性能,还是存在片上加速或优化指令的空间?

MP:我们关注的是禅宗3的原始表现--禅宗2有很多领导力方面的表现,我们过渡到禅宗3的目标是拥有绝对的表现领导力。这就是我们关注这个设计的地方--它确实包括浮点运算,所以通过我们对FP和乘法累加单元所做的改进,它将帮助矢量工作负载,例如推理(通常在CPU上运行)之类的人工智能工作负载。因此,我们将广泛讨论所有工作负载。我们还提高了频率,这是一种潮汐,用我们最大的助推频率,它是一种能抬高所有船只的潮汐。我们目前不会宣布新的数学格式。

IC:AMD是否已经在人工智能工作负载方面为Zen 3准备了加速库?

MP:我们有-我们有围绕禅宗3进行优化的数学内核库。随着今年的继续,这将是全部推出的一部分。

IC:谈到竞争分析,自第一代禅宗以来,AMD的竞争分析的性质或方法有没有改变到我们今天所处的位置和AMD的前进方向?

玛格丽特:我们一直把重点放在比赛上。我们审视我们的x86竞争对手,以及使用备用ISA的任何新兴竞争对手。没有变化-我们认为有一件事是你总是要做两件事。第一,倾听客户的意见,了解他们的工作负载将流向何处,需求可能会随着时间的推移发生变化;第二,持续关注竞争对手。这是我们凭借Zen3取得领导地位的关键部分,也是我们CPU设计文化中不会改变的元素。

IC:禅宗2和Ryzen和EPYC的很多成功都是小芯片的方法:小芯片,高产量,也可以频繁地装入箱中。

.