ARM的新型Cortex-A78和Cortex-X1微体系结构

2020-05-27 03:54:30

2019年对ARM来说是伟大的一年。在移动方面,人们可以说一切如常,因为该公司继续看到其Cortex内核的成功,特别是新的Cortex-A77,我们现在已经看到它应用于Snapdraon865等旗舰芯片组。然而,过去一年对该公司来说,更大的新闻不是在移动领域,而是在服务器领域,人们现在可以在服务器领域租用Neoverse-N1 CPU,比如亚马逊令人印象深刻的Graviton2芯片,预计很快就会有更多的供应商,比如安培(Ampere),发布他们的服务器产品。

虽然ARM服务器领域正在真正腾飞,旨在与AMD和英特尔展开竞争,但ARM还没有达到移动市场的顶峰-至少现在还没有。ARM的移动Cortex内核在过去几年一直笼罩在苹果定制的CPU微架构的阴影下,因为苹果似乎总是能在很大程度上击败Cortex的设计。虽然这些差异当然有技术上的原因-但也有很大程度上是由于ARM方面的商业理由。

今天,在ARM 2020年科技日的公告中,该公司发布的不只是一个新的CPU微体系结构,而是两个。期待已久的Cortex-A78确实终于亮相了,但ARM也推出了新的Cortex-X1 CPU,作为该公司新的旗舰性能设计。此举不仅令人意外,而且标志着ARM在商业模式和设计方法论方面出现了极其重要的分歧,最终解决了该公司长达数年的一些产品线妥协问题。

新的Cortex-A78并不完全是一个大的惊喜-ARM在两年多前首次公开透露了Hercules的代号,当时他们展示了公司到2020年的业绩路线图。两年后,我们来到了这里,Cortex-A78代表了ARM新的奥斯汀系列CPU微体系结构的第三次迭代,它是从Cortex-A76从头开始的。

新的Cortex-A78基本上延续了ARM的传统设计理念,即它的建造严格关注性能、功率和面积(PPA)之间的平衡。PPA是更广泛行业的游戏名称,而ARM在这一领域几乎是领先的玩家,它能够以低功耗和小芯片面积提供极具竞争力的性能。这些设计目标是ARM的面包和黄油,因为该公司拥有令人难以置信的客户范围,他们的目标是截然不同的产品使用案例-一些客户更看重性能,而另一些客户则将成本作为他们的首要任务。

总而言之(我们将在稍后讨论细节),Cortex-A78承诺在相同功率范围下持续性能提高20%。这个数字是一个产品性能预测,结合了微体系结构的改进和即将到来的5 nm节点的进步。IP应该代表着A76和A77已经大幅跃升的相当直截了当的继任者。

ARM现有的商业模式旨在努力打造覆盖最广泛客户需求的CPU IP。这就造成了一个问题,即你不能过度关注PPA三角形的任何一个区域,而不在其他两个区域做出妥协。我提到,ARM的CPU内核多年来一直生活在苹果CPU内核的阴影之下,虽然苹果的CPU内核无疑在技术上优越,但ARM的一个非常大的劣势因素是,ARM的商业方面根本无法证明构建更大的微体系结构是合理的。

随着该公司获得更多客户,并加大研发资源以设计更高性能的核心(服务器空间是一个很大的驱动力),ARM似乎终于设法在设计能力上达到了一个交叉点。该公司现在每年能够构建和交付多个微体系结构。从某种意义上说,去年随着Neoverse-N1 CPU的推出,我们在某种程度上看到了这一点的开始,与其Cortex-A76移动兄弟产品相比,Neoverse-N1 CPU已经有了一些更显著的微体系结构变化。

快速浏览一下新的Cortex-X1,我们会发现X1在ARM的希腊万神殿CPU微架构家族树中排名更靠前。这个设计的代号是赫拉(Hera),至少与它的大力神(Hercules)兄弟命名相似,体现了他们密切的设计关系。X1在基本设计上与A78非常相似--事实上,这两款CPU都是由同一个奥斯汀CPU设计团队协同打造的,但最大的不同在于,X1打破了功率和面积限制的束缚,专注于获得最好的性能,而很少考虑PPA三角形的其他两个指标。

Cortex-X1是在ARM的一项新计划框架内设计的,该公司称之为“Cortex-X定制计划”。该计划是该公司几年前发布的“构建在ARM Cortex技术上”计划的发展。需要提醒的是,该许可证允许客户在新微体系结构的设计阶段早期进行协作,并请求对配置进行定制,例如更大的重新排序缓冲区(ROB)、不同调优的预取器或接口定制,以便更好地集成到SoC设计中。高通公司是这一许可证的主要受益者,充分利用了核心品牌重塑选项。

新的Cortex-X计划是BoACT许可证的演变,这一次是对ARM产品路线图上列出的“基础”设计进行更重大的微体系结构更改。ARM在这里宣称,它允许客户更多地定制和差异化他们的产品;但真正的要点是,该公司现在终于有了资源,可以满足一些主要客户多年来的要求。

需要注意的一点是,虽然ARM将该程序命名为“Cortex-X自定义程序”,但不要将它与拥有体系结构许可证的供应商实际的自定义微体系结构相混淆。定制指的是ARM对其路线图CPU核心的定制-设计仍然在很大程度上是由ARM自己构建的,他们提供IP。目前,X1IP在所有授权厂商之间也将是相同的,但该公司不排除在未来的迭代中特定于供应商的更改-如果有兴趣的话。

这一次,ARM也保持了核心上的营销和品牌,这意味着我们不会看到CPU以不同的名字出现。总而言之,围绕设计项目的整个营销披露可能有点令人困惑-简单的事实是,X1只是ARM提供的另一个单独的CPU IP产品,针对的是其主要合作伙伴,他们可能愿意为更高的性能支付更高的价格。

归根结底,我们得到的是两种不同的微体系结构-都是由同一个团队设计的,都共享相同的基本设计块-但A78专注于最大化PPA指标并高度关注效率,而新的Cortex-X1能够最大限度地提高性能,即使这意味着牺牲更高的功耗或更大的芯片面积。

对于ARM来说,这是一个令人难以置信的设计理念转变,因为该公司在与苹果(Apple)、AMD或英特尔(Intel)等大公司的超高端性能竞争中不再处于不利地位,同时仍然为交付数亿台设备的更注重成本的供应商保留了他们的设计优势。

让我们从Cortex-A78…开始,首先剖析新CPU的微体系结构变化

发表评论如果我理解正确的话,A78的性能比A77领先约20%,而X1的性能领先约30%?如果是这样的话,这似乎是一个相当小的差别,不是吗?与A77相比,苹果的内核(在某些情况下)是A77的2倍。我看错了吗?

回覆。

AnandTech在第4页上计划从A13到3GHzX1的增量为10-20%。这是不错的IMO。回覆。

这些评论令人厌烦。A13不是基准。A14将在任何X1芯片之前推出,并将击败这款产品。作为一名Android用户,我一直感到失望。回覆。

我同意。但是,比一年前的芯片回复更慢并不是一项成就。

以什么方式失望?在过去的几年里,旗舰手机的速度已经足够快了。在功耗和性能之间有一个平衡-我认为Cortex-A78提高的效率在典型的使用案例中会更有用。它不会赢得基准测试,但如果你认为iPhone在实际使用中(而不是基准测试)的性能要好得多,为什么不干脆买一台呢?回覆。

把它放在上下文中。你花1500美元买一部Galaxy S20 Ultra,它比400美元的iPhone还慢。如果您在大量使用javascript的页面上进行大量Web浏览,那么没有什么比单线程性能更好的了。你不能仅仅通过扔慢一点的内核来改善它。“话语”写得很好,今天仍然有效。https://meta.discourse.org/t/the-state-of-javascri.。回覆。

你还可以获得699美元的OnePlus 8,在性能和成本上都超过了S20 Ultra。有什么不同呢?JavaScript和浏览器在很大程度上依赖于软件优化,而这才是真正的问题所在。回覆

老实说,谁在乎这个呢?这种额外的力量是没用的。在移动设备上玩是不舒服的,对眼睛健康也不好。他们应该只将优先级转化为最大效率。智能手机需要发展的关键点是电池,没有人谈论。三星承诺的石墨烯电池在哪里?我很怀念可以免费使用一周的手机。:(回复。

额外的力量永远不会毫无用处。当然可以,只要你浏览一下脸书。但iPad和Android平板电脑正试图取代笔记本电脑。A13可能可以取代笔记本电脑。没有高通芯片可以做到这一点。我怀疑,当苹果用ARM芯片取代笔记本电脑的英特尔芯片时,它们的速度会更快,电池续航时间也会更长。但是,当微软试图用QCOMM来做这件事时,他们得到的回应要糟糕得多