7/5 nm的性能和功耗权衡

2020-10-29 12:04:45

半导体工程部门与Moortec首席技术官Oliver King、Ansys首席技术专家João Geada、Synopsys公司工程高级副总裁Dino Toffolon、西门子公司Mentor工程总监Bryan Bowyer、ARM物理设计集团营销高级总监Kiran Burli、Cadence数字和西诺夫集团高级产品管理集团总监Kam Kittrell、Rambus IP内核产品营销副总裁Saman Sadr和Kandou首席执行官Amin Shokrollahi进行了讨论。下面是那次讨论的摘录。要查看此讨论的第一部分,请单击此处。第二部分在这里。

SE:安全性在功能和性能等式中处于什么位置?在资源方面肯定是有管理费用的,对吧?

萨德尔:是的,这是风险和成本之间的权衡,你可以将其视为财务成本或电力成本。您是否愿意冒安全风险,这将比增加电力的成本高得多?因此,这绝对是一种权衡,但任何时候在讨论权衡时,安全风险都会压倒对电力的担忧。这并没有改变人们对功率和面积的担忧,但如果你今天观察任何复杂的SoC,你会发现有一个指定的区域用于与安全相关的编码。有很多架构,即使使用FPGA也是如此,其中必须将安全处理器与主处理器分开,这肯定会对面积造成影响。减少这种影响的压力总是存在的,但风险因素通常会凌驾于这些担忧之上。

Kittrell:毫无疑问,这必须内置到现代系统中,从云到边缘,再到你的手机,因为所有东西上都有这么多有价值的数据,而且现在正在以数字方式传输。这是成本的一部分,人们断断续续地来到这里。这也是一些架构更改的推动力,因为他们可能有上一代解决方案没有很好地处理安全性。也许处理器没有安全协议,现在他们必须升级到其他协议。他们正在考虑如何改变他们的体系结构,尽管他们会依附于一系列长期存在的处理器-特别是微控制器类型的设计。安全绝对是所有这些设计的驱动力。

Geada:您确实要为安全性付出代价,但通常最合理大小的设计的安全性只占系统开销的一小部分。这会使其绝对安全,不受逻辑时序和旁路攻击,但我不认为这是一种权衡。这是你在现代系统中必须拥有的东西。你需要为此做设计。当你从整个系统的角度来看,实际的惩罚是足够小的,忽视它是愚蠢的事情。今天的边道要多得多。信息可能通过感应方式泄露,也可能通过热、电源信号、监控电压和定时攻击泄露。

Shokrollahi:人们喜欢芯片方法的原因之一是,他们今天想要创造一种芯片来处理今天的问题,也许以后会用另一种解决明天问题的芯片来取代它。在功率方面,我们需要一种远远超出EDA的软件。所以EDA帮助我们设计芯片。但如果你看的是一个更大的系统,我们需要的软件还需要对系统和这些芯片互连的方式进行建模,并协同工作来解决特定的问题。我们离推出芯片还有很长的路要走,其中一个原因是缺乏这样的软件。如果有人想要生产MCM,他们不知道这些东西将如何协同工作。如果所有东西都在同一块芯片上,那么有一个EDA工具可以做到这一点。但是在包裹里这是不存在的。还有一个问题是,谁将供应这些芯片。

伯利:这涉及到可靠性,这已经成为一个非常重要的问题。如果温度升高,电阻就会上升。如果电阻上升,那么EM(电迁移)就开始成为一个问题。然后,你开始在各处增加保证金,扩大金属范围。这就是为什么,当你开始考虑可靠性、老化、电磁兼容以及所有这些事情的时候,你需要开始思考如何才能保持较低的热预算。温度是你最大的敌人。你需要很多传感器来确保你可以很好地监控系统,你可以做一些动态的事情,你可以一边走一边改变时钟频率-或者你可以安装电路,在电压方面给你带来一些提升,这样你就可以最大限度地减少IR下降之类的东西。在未来,感知将是相当关键的。

SE:当我们开始深入到最高级的节点和高级包时,我们开始遇到过去不需要处理的各种效果。所以像电磁干扰和电力这样的东西

Geada:一种方法是使用物理实体的数字双胞胎。我们能够使用交互组件对大型系统进行建模,其中您只对所有小芯片的必要细节进行建模,而对于其他系统,您可以一直向下对它们进行建模。有些你只是给我们留下了抽象的东西。我们有能力模拟各种交互作用,比如当我的内核激活并从一种模式转换到另一种模式时会发生什么。如果我的SerDes在内存执行该操作时执行此操作,会发生什么情况?所有这些东西实际上都很容易模拟。

托夫隆:嗯,电磁耦合和老化需要微妙的平衡。关键是要有可靠的设计方法,因为单独针对其中任何一个进行优化本质上都是死胡同。如果你试图调整你的设计,以应对所有最糟糕的EM限制,你就不可能达到你的电力预算。或者,如果您尝试将您的设计隔开以减少电磁耦合效应,您将最终拥有更大的块之间的时钟路由,这将耗尽您的电力预算。这就是为什么了解如何平衡任务配置文件以避免过度设计,以及如何在电路中添加冗余,以便在设备老化到可能出现故障的情况下潜在地交换不同路径的原因。一般来说,如果您在设计电路时没有考虑老化-我是说针对老化进行设计,而不仅仅是模拟老化,确保所有时钟停止,以便对电路施加共同压力-这些都是您需要真正在方法论中设计的基本内容,才能尝试优化所有这些参数。

谢尔盖:其中一些东西也在运动,对吗?因此,它正以特定的方式用于特定的用例或用于特定的应用程序。

Toffolon:是的,这就是基于固件和软件的PHY控制真正发挥作用的地方。例如,许多这种宽的、并行的芯片到芯片的链路正在积极地监控老化情况,并在链路上进行持续的环回测试以检查功能。例如,在很多情况下,它们还会添加冗余,因此它们会添加冗余通道。这为从致命故障中恢复提供了一些准备,在某些情况下甚至为包装中的机械故障提供了恢复。您可以进行现场环回测试,检测故障,并在冗余通道中进行交换。

鲍耶:关键是要确保能解决问题的人知道这件事。在此过程结束时,需要整理大量数据。在一个极端的情况下,假设您有一位在MATLAB中工作的架构师,他所做的决定将扰乱您的电力预算或导致通信问题,因为他们完全没有意识到这些问题。要么这些工具需要更好的集成和更好的能力来自动处理这些事情,要么在将这些数据反馈到系统中方面必须有所改进,这样人或工具都可以修复它们。感觉就像每一个新一代,或者每一个流程节点,您需要担心10多件以前没有人知道或从未处理过的事情。

盖达:这是其中一个挑战。当你设计一块芯片时,会产生数兆字节的数据,而实际上只有很少的数据得到了详细的分析。人们看着前数千条路径,或者他们看着这里和那里的热点,但很少有系统能够从整体上看整个设计,并对其进行大规模分析,试图找出模式。大多数EDA工具都不能让您轻松运行推理和机器学习。“也许这是我做过三次的设计的变体。”我之前遇到的问题是什么,这些问题在这里开始显现出症状?您真的需要一个平台,可以轻松地对尚未预制到软件中并且可以在客户端完成的东西进行大规模设计分析。您需要客户端的大规模分析,它可以查看这些TB级的数据,并为您提供可以提供给架构师的有意义的信息。坐在办公桌前的EDA人员根本不可能预见到所有这些问题。这是必须在客户端发生的事情。你需要有工具和能力来做大规模的分析,给你的设计师,你的架构师一些他们可以实际处理的可行的项目。

金:我们在这里谈论了很多关于芯片设计的问题,以及如何发挥所有的利润率来最大限度地利用一片硅片,这是非常昂贵的。你想把所有的利润都降到零,或者接近零。然后芯片就进入了这个领域,总的来说,除了少数例外,它不再是同一个系统的一部分了。设计它的人不知道未来一年、两年、五年或十年后,芯片的真正性能如何。这就是版本

相关第1部分:7/5/3 nm的功耗和性能优化当AI芯片在网线大小达到最大值时会发生什么?本圆桌会议的第2部分:自定义设计、自定义问题、最高级节点的电源和性能问题。