5 nm及以下的老化问题

2020-06-15 06:58:46

导致半导体老化的机制早已为人所知,但大多数人并不关心这个概念,因为零部件的预期寿命远远长于它们在该领域的预期部署。在很短的时间内,这一切都改变了。

随着设备几何尺寸变得越来越小,这个问题变得更加重要。在5 nm,随着新问题的发现、理解和建模,随着工具和流程的快速发展,它成为开发流程的重要组成部分。

Cadence高级产品经理阿特·沙尔登布兰德(Art Schaldenbrand)表示:“我们已经看到,它已经从一种特定设计团队使用的精品技术,转变为一种更像是签字过程中常规环节的技术。”“随着我们深入到这些更高级的节点,您必须处理的问题数量会增加。在半微米,你可能只需要担心热载流子注入(HCI),如果你做的是像电源芯片这样的事情。当你低于180 nm时,你开始看到诸如负偏压温度不稳定性(NBTI)之类的现象。再往下走,你会发现其他一些现象,比如自热,这是一个严重的可靠性问题。

过去的处理方式已经不可行了。西门子公司Mentor的高级产品工程经理艾哈迈德·拉马丹(Ahmed Ramadan)表示:“直到最近,设计师们还非常保守地通过过度设计来解决老化问题,留下了很大的余地。”然而,尽管将设计推向极限不仅是为了获得竞争优势,而且考虑到晶体管的扩展效益不断减少,这也需要满足新的应用需求。所有这些都呼唤准确的老化分析的必要性。“。

在新现象不断被发现的同时,旧的现象还在继续恶化。“老化的驱动因素,如温度和电应力,并没有真正改变,”弗劳恩霍夫IIS自适应系统部工程部门负责质量和可靠性的小组经理安德烈·兰格(AndréLange)说。然而,需要具有最低安全裕度的密集封装的有源设备来实现高级功能要求。这使得它们更容易受到自热和不断增加的场强引起的可靠性问题的影响。考虑到2.5D和3D集成的先进封装技术,可靠性问题,特别是温度问题的驱动因素将变得越来越重要。“。

贡献因素最大的因素是热。Synopsys 3D-IC高级产品营销经理丽塔·霍纳(Rita Horner)表示:“更高的速度往往会产生更高的温度,而温度是最大的杀手。”“温度加剧了电子的迁移。预期寿命可以从一个微小的温度增量指数变化。“。

这成为FinFET的一个更大的担忧。Cadence的Schaldenbrand说:“在平面CMOS工艺中,热量可以相当容易地通过器件的主体逃逸到衬底中。”但是,当您将晶体管侧放并将其包裹在毯子中时,这实际上就是栅氧化层和栅极的作用方式,通道会经历更大的温升,因此器件所承受的压力会显著增加。

越来越多的电子设备发现自己被部署在恶劣的环境中。“在极端条件下运行的半导体芯片,例如汽车(150°C)或高海拔地区(墨西哥城的数据服务器),可靠性和老化相关限制的风险最高,”InterMolical负责项目和运营的高级副总裁Milind Weling说。2.5D和3D设计可能会在底层的硅芯片上看到额外的机械应力,这可能会导致额外的机械应力老化。

设备的属性变得越来越糟糕。Synopsys的AMS高级应用工程师Haran Thanikasalam说:“随着时间的推移,设备的阈值电压会降低,这意味着打开设备需要更长的时间。”“其中一个原因是负面偏向不稳定。但随着器件的缩小,电压缩放比几何缩放慢。今天,我们正在达到物理学的极限。器件在3 nm下的电压约为0.6至0.7伏,而在40 nm或28 nm下的电压为1.2V。正因为如此,电场增加了。一个非常小的器件区域上的大电场可能会导致严重的击穿。“。

这是新的。沙尔登布兰德说:“我们捕捉到这种现象的方式是一种叫做时间相关介质击穿(TTDB)的现象。”“您看到的是场密度如何导致设备故障,并确保设备没有经历过高的场密度。”

老化的另一个主要原因是电迁移(EM)。Thanikasalam补充说:“如果您执行可靠性仿真,如EM或IR Drop仿真,不仅器件会退化,而且在互连上还会发生电迁移。”您不仅要考虑设备,还要考虑设备之间的互连。

模拟和数字当谈到老化时,数字是模拟的一个子集。沙尔登布兰德说:“在数字领域,你最担心的是驾驶,因为这会改变起伏延迟。”“这涵盖了各种各样的罪过。但模拟要微妙得多,增益是你担心的问题。仅仅知道Vt变化了这么多并不能告诉你你的收益会降低多少。这只是方程式的一部分。“。

老化可以用数字来掩盖。Mentor的斋月说:“根据应用程序的不同,系统可能会降级,也可能会因为相同的老化程度而失效。”“例如,微处理器性能下降可能会导致性能下降,从而需要减速,但不会出现必要的故障。在任务关键型人工智能应用(如ADAS)中,传感器性能下降可能直接导致人工智能故障,从而导致系统故障。“。

数字退化这一更简单的概念往往是可以隐藏的。沙尔登布兰德补充说:“这其中很大一部分是在细胞特性水平上捕捉到的。”“所以系统设计者并不太担心这一点。如果他经营正确的图书馆,问题就迎刃而解了。“。

为了获得准确的老化情况,您必须在设计中考虑活动,但这通常不是以预期的方式进行的。Synopsys的霍纳说:“负偏压温度稳定性(NBTS)正在影响一些器件。“但这些设备不一定要在活动状态下运行。设备关闭时可能会发生老化。“。

在过去,分析是在没有仿真的情况下进行的。Synopsys的Thanikasalam说:“你只能从静态的、矢量无关的分析中获得一定数量的可靠性数据。”“这项分析并不关心你给你的系统带来的刺激。它可以进行更广泛的观察,并在不模拟设计的情况下确定问题发生的位置。但事实证明,这是一种非常不准确的做事方式,特别是在较小的节点上,因为一切都依赖于活动。“

这可能会给IP块带来麻烦。Arteris IP负责市场营销的副总裁库尔特·舒勒(Kurt Shuler)表示:“问题是,如果有人在自己的设备上制作自己的芯片、自己的软件,他们就拥有所有他们需要知道的信息,甚至连晶体管级别都有,那就是占空比是什么,”Arteris IP的营销副总裁库尔特·舒勒(Kurt Shuler)说。“但是,如果你正在创建一个其他人将为其创建软件的芯片,或者如果你提供了一个完整的SDK,而他们正在对其进行修改,那么你就不会真正知道。这些芯片厂商必须向他们的客户提供一些进行分析的手段。“。

对于设计的某些部分,可以估计占空比。Schaldenbrand说:“您永远不会想要在系统级别发现块级问题。”“人们可以在区块级别进行分析,而且在那里做的成本相当低。对于模拟模块(如ADC、SerDes或PLL),您可以很好地了解其在系统中的运行情况。你知道它会经历什么样的压力。对于大型数字设计则不是这样,因为您可能有几种操作模式。这将极大地改变数字活动。“。

这是它变成用户问题的根本原因。Thanikasalam说:“这让用户有责任确保你选择的刺激将激活你认为更容易受到老化和电迁移影响的设计部分,而你必须自己做这件事。”“这在终端用户中产生了一个很大的警告信号,因为铸造厂将无法为你提供刺激。他们根本不知道你的设计是做什么的。“。

监测和测试行业的方法正在多个层面上发生变化。埃森哲(Accenture)全球半导体主管赛义德·阿拉姆(Syed Alam)表示:“为了正确评估芯片中的老化,制造商依赖于一种名为老化测试的功能,即通过烹饪来人工老化晶片,之后可以对其进行可靠性测试,”埃森哲(Accenture)全球半导体主管赛义德·阿拉姆(Syed Alam)表示。散热是芯片老化的主要因素,使用率紧随其后,尤其是闪存,因为驱动器上可用的重写次数有限。

而这仍然是许多人依赖的一项技术。弗劳恩霍夫的兰格说:“AEC-Q100是汽车电子产品的重要标准,它包含多项不能揭示真实可靠性信息的测试。”“例如,在高温工作寿命(HTOL)测试中,3×77器件在压力前后要进行100小时的功能测试。即使所有设备都通过了,您也无法判断它们是否会在101小时后失败,或者它们的寿命是否会延长10倍。只有通过扩展测试或模拟才能获得这些信息。“。

一种新兴的替代方案是在芯片中内置老化传感器。Arteris IP的舒勒说:“有传感器,它们通常包含一个计时回路,当电子绕过一个回路需要更长的时间时,它们会向你发出警告。”“还有一种叫做金丝雀细胞的概念,与标准晶体管相比,金丝雀细胞意味着过早死亡。这可以告诉你老化正在影响芯片。你要做的是获得芯片即将死亡的预测性信息。在某些情况下,他们从这些传感器中提取信息,将其从芯片上取出,放入大型数据库,然后运行人工智能算法,试图进行预测工作。“。

附加的3D问题在2D、2.5D和3D设计中存在许多相同的问题,除了某些架构可能会放大散热问题之外。但也可能有一大堆新的问题还没有完全理解。霍纳说:“当你将设备堆叠在一起时,你必须对它们进行背面研磨,以使它们变薄。”“薄模上的压力可能是一个问题,这需要通过分析来理解、研究和解决。此外,各种类型的硅片年龄不同。您谈论的是一个异构环境,在该环境中,您可能会堆叠DRAM,这往往是一种特定的技术-或者CPU和GPU,它们可能使用不同的技术进程节点。您可能有不同类型的TSV或凸块,这些TSV或凸块已在此特定的硅中使用。它们之间是如何互动的?“。

这些接口是一个令人担忧的问题。“芯片上有压力,这改变了器件的特性,”沙尔登布兰德说。“但如果不同的模具加热到不同的温度,那么它们的交界处将会有很大的机械应力。这是一个很大的问题,系统互联在未来将是一个巨大的挑战。“

模型和分析这一切都从铸造厂开始。舒勒说:“TSMC和世界上的Samsungs必须开始提供这些信息。”“当你到达5纳米及以下,甚至7纳米时,这些过程中会有很大的变异性,这会让一切变得更糟。”

“铸造厂担心这一点,因为他们意识到受到较高电场影响的器件退化速度比以前快得多,”Thanikasalam说。他们开始使用适用于设备老化部分的MOS可靠性和分析解决方案(MOSRA)。最近,我们看到这种转变正转向开始使用老化机型的最终客户。一些客户只会使用退化的模型进行简单的运行,这样模拟就可以解释阈值电压的退化。“。

大容量芯片将需要更广泛的分析。“对于大批量生产,多PVT模拟正在成为验证这一点的无用方式,”Thanikasalam补充道。每个人都必须在这个级别上运行蒙特卡洛。在5 nm及以下,用变化模型进行蒙特卡罗模拟是关键.“。

需要更多的型号。“有更多的模型正在创建和优化,”霍纳说。在3D堆叠方面,我们了解对电迁移、红外、热和功率的担忧。这些都是被理解和建模的关键。至于力学方面--甚至是我们放在两层之间的材料及其对热量的影响,以及稳定性结构--虽然已经有了模型,但它们并没有得到增强,因为我们还没有看到足够多的模型。“。

沙尔登布兰德对此表示同意。“我们一直在研究这些模型,并不断更新它们,当人们意识到它们时,就会添加新的现象。”要为高级节点做好准备,需要进行大量更改。对于名义器件,我们可以很好地描述老化,但工艺变化及其对可靠性的影响之间的相互作用仍然是一个研究课题。这是一个极具挑战性的课题。“。

有了FinFET,整个方法论都改变了。Thanikasalam说:“规则已经变得如此复杂,你需要有一个工具来真正解释规则,应用规则,并告诉我们未来两三年可能会出现什么问题。”FinFET可以是多阈值器件,所以当你在一个IP中使用整个阈值电压范围时,我们会有很多问题,因为每一个器件都会朝着不同的方向前进。“。

结论仍然是,正在取得进展。“最近,我们看到许多铸造厂、IDM、无晶圆厂和知识产权公司都在争先恐后地寻找解决方案,”斋月说。“它们涵盖了广泛的应用和技术流程。尽管作为新玩家的起点,标准老化模型可能会很有帮助,但根据目标应用程序和技术流程的不同,还需要进行进一步的定制。在硅集成倡议(SI2)下的紧凑型建模联盟(CMC)目前正在致力于开发一种标准的老化模型,以帮助该行业。2018年,CMC发布了第一个标准开放模型接口(OMI),可以使用统一的标准OMI接口实现不同电路仿真器的老化仿真。

这是一件重要的事情,但前面还有很长的路要走。“中央军委内部的标准化活动已经开始解决其中的一些问题,”兰格说。但在模型复杂性、特征化工作、应用程序方案和工具支持方面,还有相当多的工作要做。

HTOL持续时间的标准是1000小时,而不是100小时。100小时的持续时间,即使在最高可容忍的HTOL应力条件下,也远低于FinFET硅中主要老化机制的等效器件小时数。我最害怕的是热点(芯片上的温度变化),在热成像中观察到的热点最高可达+35摄氏度。众所周知,FinFET硅对热点没有磨损余量,因此我很欣赏本文强调温度是可靠性的驱动因素。