题记:芯片设计的目标包括抵消不断上升的制造成本和限制更长寿命的责任。
对更低缺陷率和更高良率的需求正在增加,部分原因是芯片现在被用于安全和关键任务应用,部分原因是这是抵消设计和制造成本上升的一种方式。
改变的是在初始设计中解决这些问题的新重点。过去,缺陷和良率被认为是晶圆厂的问题。实施了限制性设计规则 (RDR) 以确保以可成功制造的方式设计芯片。但从那时起,有几件事发生了根本性的变化:
RDR 为设计增加了太多余量,尤其是在先进工艺节点上。这会对性能、功耗和面积产生负面影响。
越来越多的芯片正在为特定应用定制,经常使用某种类型的先进封装、不同种类的处理器和存储器,以及过去未批量生产的独特架构——因此也没有尽善尽美。
在某些应用中,芯片的预期寿命更长,这意味着在智能手机中原本不是问题的潜在缺陷现在可能需要代价高昂的召回。因此,设计团队开始在设计中加入传感器,以确定芯片从开启到预期寿命结束的行为。
今天,设备及其进入的产品可能有非常不同的要求。例如,用于汽车传动系统的芯片与为物联 消费设备生产的芯片具有完全不同的应力和期望。设计团队需要了解这些芯片随着时间的推移会如何表现,从环境和使用条件到老化、电热、应力和变化效应。
“可靠性是当今电路设计和仿真中需要解决的最重要的主题之一,”西门子 EDA 的 ICVS AMS 验证产品工程总监 Ahmed Ramadan Hassan 表示。 “我们今天拥有的产品在 2、5 或 10 年后可能不再起作用。如果您现在有一个以特定频率运行的处理器,您可能会认为频率会在 5 年或更长时间后下降,因为电路中的每个设备都施加了压力。这种偏压或温度方面的压力会降低特定设备的整体性能,这是更大设计中的一个元素。因此,设计的功能可能无法执行预期的功能,或者会降低其预期的功能。”
设计人员现在必须在他们的电路设计和验证中考虑可靠性,有效地将有关缺陷、良率和可制造性的担忧从设计到制造流程中一直左右转移。
“过去,由于缺乏良好的可靠性分析和仿真技术以及可靠性模型,设计人员会过度设计,他们会在桌面上留下很多余量。他们在设计中添加了大量防护带,以确保至少在该产品的保修期内不会出现故障。”
这种转变意义重大,但需要从更高的层面来看待它,才能真正了解它的包罗万象。 “多年来,我们作为一个行业一直在努力制造更好、更快、更新的芯片,”Vtool 前数字设计经理 Aleksandar Mijatovic 说 “随之而来的是一系列问题,当我们将技术拉到临界点时就会出现。有时它会打破边界并前往不该去的地方。这意味着如果您尝试使用最大频率来实现芯片上的最大密度,则很可能在给定技术的可能性边缘工作,有时您会破坏它们。但另一方面,这不是工程师的错。我们都知道这一点,但市场要求更好、更新、更快。”
经济学的负担也在向左转移。虽然这种动态在某种程度上一直存在,但随着芯片制造商努力控制成本,它已成为更加关注的焦点。
图 1:每个工艺节点的 SoC 成本上升(以百万美元计)。
“今天的一些公司说,‘我们不想拥有最新的流程。我们希望它可靠。我们不想太频繁地更换芯片。’这并不是什么新鲜事,只是重点已经转移了,“米贾托维奇说。 “有许多公司正在使用非常过时的技术制造芯片。整个汽车芯片制造工作都是使用过时的技术完成的,因为它们已经足够好,经过验证,并且没有太多惊喜。通过追逐新的和最好的,我们忘记了很多时候我们不需要最新的工艺节点。这实际上并不是必需的。”
做出这些考虑考虑到汽车、医疗、工业和数据中心应用,情况更加复杂,在这些应用中,芯片成本不断上升,对更长寿命的需求,更换成本高得令人望而却步,以及出现问题时的潜在责任。
“当我们开始谈论在汽车应用中使用电子产品时,确保此类故障不会发生变得更加重要,即使在更长或更短的时间内也不会发生,只需确保它够用就算了,”哈桑说。 “此外,这意味着在设计方面进行了大量保护。”
与此同时,随着从汽车到机器人和无人机的所有事物都增加了越来越高的自主性,可靠性已成为重中之重。
安全问题
与可靠性密切相关的是安全性,尤其是在汽车、医疗、工业和军用/航空应用方面。
Vtool 的项目经理 Olivera Stojanovic 回忆说,在一次与安全相关的会议上,最终得出的结论是,如果黑客可以把你的车锁在里面,那么安全可能比性能更重要。 “那是安全变得比性能更重要的时候。”
《硅芯片可靠性管理指南》
Mijatovic 指出,当很少有设备连接到互联 时,这不是一个问题。 “这不仅是我们的个人电脑和手机,还有冰箱、微波炉和我们家中的暖气。我们把所有东西都放在 上。”
所有这些都增加了设备的复杂性,这反过来又需要更多的验证和更好的兼容性。
“从设计验证的角度来看,您可以将您提出的每一个附加要求都视为规范中的附加层,”Mijatovic 说。 “规范并不意味着设备必须只执行功能。它需要可靠地这样做。它需要准确。它需要是安全的。所有这些都可以定义为功能,并且在达到此目的时将作为功能实现。您将使用不易出错或不易被黑客入侵的架构,并且您将进行安全检查。最后,它适用于协议,以及从一开始就考虑到的安全性或可靠性概念。这正在推动另一套架构方法,这将在每一方面都花费更多的精力。”
持续监控
这些可靠性问题不仅限于汽车领域。 “我们已经开始看到,对于其他应用,可靠性设计和可靠性验证变得越来越重要,”Hassan 说。 “我们已经看到许多 EDA 供应商与 Compact Model Coalition 等组织合作,从电路设计所需的仿真和建模角度解决这种可靠性问题。”
Compact Model Coalition 开发了一个用于老化和模拟的标准接口,称为开放模型接口,它为代工厂或任何设计公司中的各个团队创建了一种方法来集成老化模型以应对机械退化等影响、热载流子注入 (HCI) 等机制或该界面内的负偏置温度不稳定性 (NBTI)。它还使他们能够使用 EDA 工具运行仿真,并在 5 或 10 年后或在该产品的预期使用寿命内捕获设计的行为。
“这项工作的目的是通过运行这种分析,设计人员将不需要过度设计,因为有了这种老化的模拟,”哈桑说。 “现在他们可以看到并预测他们的设计在一定年限后的行为,并且可以将他们的设计推向极限以获得性能——但不会留下利润空间。当他们开始使用它时,它实际上可以在他们的电路和设计中添加一些补偿技术。”
《片上 络的可靠性、可用性和可维护性》
使用的一些技术包括创建片上监视器和传感器,以检测操作期间设备性能的任何下降。通过这种感应,可以应用补偿来适应这种退化,从而避免设计的整体性能退化。
额外的监视器可能会增加设备和后续产品的面积,并消耗额外的功率或影响性能。但在某些情况下,拥有此类监控器和补偿技术可以确保在不造成伤害或服务中断的情况下采取纠正措施。
老化和应力
虽然老化和各种类型的应力——机械、电气、热——是不可避免的,但能够预测这些影响会对设备执行规范的时间产生重大影响。做出这些决定的关键要素之一是了解芯片的使用环境。
“汽车是我们进行分析的传统领域,例如我们如何对这些压力环境进行建模,以及我们如何让设计工程师相信他们的部件将在未来 15 年内发挥作用,”Cadence 数字与签核小组的产品管理高级总监 Brandon Bautz 说。 “在一辆汽车中,我需要我的设备运行 10 年,但我需要它只消耗这么多的电量,否则我的电动汽车不会走那么远。部件的可靠性和性能之间存在平衡。我如何获得更准确的分析,以便我可以更清楚地了解我的零件的性能与必要的可靠性?尤其是从数字角度进行的老化分析已经有一段时间了,我们发现这是一种悲观的看法。但考虑到我们 10 年前,甚至 5 年前拥有的工具,这就是我们当时需要做的。”
然而,鉴于汽车行业对硅的依赖程度如此之高,出于成本原因,许多较新的领域也寻求高可靠性。 Bautz 说:“您可以使零件非常可靠,但它可能无法按照您需要的方式运行。” “这些与成本、性能、面积和风险的权衡变得越来越激烈,因为零件本身更加复杂。因此,需要进行的分析类型更加复杂。保护带和确保事情可靠是好的,但根据我们所做的一些研究,以及我们在表征和分析算法中所做的改进,我们已经展示了客户所拥有的利润百分比由于这些较旧的方法,一直在谈判桌上。通过更准确的分析,设计团队将能够平衡可靠性和性能。”
这为更多的上下文分析打开了大门,这反过来又会对可靠性产生重大影响。
《多处理器片上系统可靠性的高级估计与探索》
“我们从了解过去二十年的工作方式开始,并认识到 10 年前有限的计算能力无法真正捕捉到问题的真正本质。在这种情况下,我们指的是衰老,以及这种影响对衰老的压力依赖性,”Bautz 说。 “通过在数字分析中将两个部分放在一起,表征过程可以在单元级别捕获设备的性能。然后我们查看设计级别,并在设计的上下文中观察特定的电池和设备性能。如果特征与时序分析相结合,为设计人员提供准确度,更具体地说,让设计人员深入了解他们的电路在整体设计环境中的工作方式,那么将电路置于设计环境中就很说得过去了我们可以分析设备的实际应力。因此,我们可以更准确地分析它对设备的老化影响,并了解它如何影响设备的整体时间。”
模拟可靠性问题
这仅适用于数字设计。模拟设计增加了其自身的挑战。
今天,几乎所有的芯片都包含模拟内容。 Cadence 定制 IC 和 PCB 集团产品管理总监 Jay Madiraju 表示:“即使在拥有数百万个门的系统中,仍然存在一定数量的模拟,而且这个数量还在增加。” “模拟设计团队关心的不仅仅是功能,即他们设计的将与庞大的数字逻辑连接的部分或块。他们想知道它是否可靠。”
可靠性在模拟方面具有多重含义。 “当您查看经典的浴缸曲线时,您认为什么时候产品可靠?可靠性的概念,这实际上意味着什么?这需要它是否随着时间的推移运作良好,”Madiraju 说。 “这绝对是模拟人关心的问题。那么,随着时间的推移,电路如何发挥作用?肯定会变得更糟。我们都知道,从多年的经验。但差多少?就载流子迁移率、阈值电压和其他器件特性而言,这是整个电路按其应有的方式运行的基础,具体情况如何?它是如何随着时间的推移而退化的,我如何在零件消失之前预测它?”
虽然老化技术在模拟中已经存在了几十年,但它们在过去几年中得到了改进,包括了任务概况。
“在任务配置文件之前,工程团队模拟了最坏的情况,”他说。 “‘这将是我最糟糕的情况。该芯片将用于汽车。我将假设这辆车将永远在 120° 的天气里。我如何模拟这种情况? ’你必须通过假设这些最坏的情况来使该设备可靠,但其意外后果是过度设计、过度裕量和保护带。你将设计得如此保守,以至于性能会受到影响——性能来自不同方面,比如速度、时序和功率泄漏,以及芯片应该如何表现的所有不同方面。任务配置文件有助于解决这个问题,因此可以定义不同的条件,包括温度、电压和其他条件我。你可以说有时候这些零件有不同的应力模式,或者在这个操作下,比如在进行校准过程时,它会承受多大的应力。压力会导致退化。不同模式下看起来不同。”
另一方面是制造可靠性,在模拟世界中,这意味着几件事。 “一个是时间的退化。另一个是在制造过程中发生的未通过测试的缺陷,例如零件已经出来并且在将其发布给原始设备制造商之前已经完成了初始测试。例如,在汽车领域,一些零件通过了这些测试,而客户会看到它们。汽车 OEM 会看到这些问题。这是一个大问题,这是人们绝对关心的可靠性方面,”他解释说。
这就是模拟故障模拟的用武之地。它类似于数字端的 DFT,在芯片流片之前的验证过程中注入故障。 “您会看到哪些故障逃脱了,哪些会影响输出,哪些不会影响输出,然后您尝试进行覆盖测量。您正在通过各种测试来验证设计。我的测试是否足够好?我抓住了所有这些吗?当您注入故障时,您想看到的是错误的输出。最终,所有这一切的目标是看看当我使用这些测试集运行这些电路时,我是否捕获了我需要的一切,以便当部件消失时客户不会发现错误?制造过程会产生问题。您是否正在测试所有这些问题?这是可靠性的另一个方面,” Madiraju 说。
电热效应是模拟领域中另一个日益重要的方面,而自热模型中缺少的是热量对相邻或附近设备的影响。这需要电热模拟。
“以前,工程团队只会进行热模拟,测量传播效果,然后他们会将这些信息发送回它如何影响功率,返回模拟,这是电气模拟、电路模拟和热之间单向流动的一部分。 ,“ 他说。 “现在,很明显,这对于现代芯片和高压设备来说是不够的,当然还有汽车领域的那些,以及承受高压条件的工业芯片。您需要一种综合方法。这种反馈效应需要在单个模拟中建模。”
可靠性和存储器
内存增加了它对可靠性的影响,因为内存选择会影响从功率到面积的所有方面。这在 DRAM 中尤为明显,在这种情况下,选择高带宽内存或 GDDR 会对内存在其他组件环境中随时间推移的行为产生重大影响。
Synopsys 内存接口 IP 产品营销经理 Brett Murdock 表示:“与 DDR、GDDR 或 LPDDR 相比,HBM 设备的功耗将更低,需要处理的物理接口更少。” “如何在 SoC 上物理实现它们是狂野的西部。你想做什么,就可以做什么。你可以将一个完整的线性 PHY 放在芯片的一侧,你可以环绕一个角落,你可以将它折叠起来。有无数种方法可以实现该物理接口。但是使用 HBM,您将放下一个 HBM 立方体,而 JEDEC 已经准确定义了该立方体上的凹凸贴图是什么样子。这意味着虽然就放置颠簸的位置而言,灵活性可能较低,但它等同于更好的可预测性和可靠性。内插器有几种不同的选择以及如何将事物连接在一起,但归根结底,如果我看看 GDDR、LPDDR、DDR,我可以构建一百万种不同的电路板,以一百万种不同的方式将它们连接起来,导致有一百万种不同的实现,以及一百万种不同的机会让某人把事情搞砸。而对于 HBM,您放入 PHY,放入设备,并且如何在这两者之间放置中介层没有太多可变性。 SoC 和 HBM 设备之间会有最小间距规则,仅此而已。”
在可能的情况下,重复过去有效的方法可以大大确保它在新设计中有效。 “有助于可靠性的一件事是你做某事的次数,”默多克说。 “我们为每个客户做同样的事情,或几乎同样的事情,这一事?实意味着我们真的很擅长。这是经过验证的。如果我知道它适用于 AMD 和他们出货的数百万台设备,为什么我们第一次向这个新的 AI 客户销售 HBM 会有什么不同?我们不需要重新发明任何东西。”
波动
波动是影响可靠性的另一个方面,了解其对先进节点和先进封装的影响尤为重要。有很多不同从材料中的污染物和 CMP 的剩余颗粒到封装过程中的芯片移位和光刻技术的不一致性,这些变化的原因。他们在什么时候会产生缺陷,以及如何在设计阶段解决这些问题仍然是一个挑战。
“设计团队意识到他们需要对设计中的变化采取一些措施,”西门子 EDA AMS 验证产品的 PLM 软件负责人 Sathishkumar Balasubramanian 说。 “人们围绕这个谈论不同的概念,包括稳健性和可靠性,所有这些在一天结束时都意味着同一件事,即客户希望他们的设备在他们投入最终产品的任何地方工作,以及他们想要多长时间它在给定的合理时间表内工作。”
Balasubramanian 说,这非常重要,以至于开始将变化作为高 sigma 要求包括在内,并将其作为流程的一部分,从库组件的设计流程的早期开始。 “他们希望确保组件坚固耐用。例如,在标准库中,他们想知道对于给定的标准单元库,对于特定工艺,它满足所有不同的 PVT,范围更广,并且仍然满足 3 到 7 sigma。”
结论
将所有这些部分放在设计到制造流程的最左侧是一项复杂的工作。实际上,过去可以在制造中修复的东西已不再足够。现在它必须更早发生,这意味着设计团队现在正在努力处理通常为工艺工程师保留的概念,并且工艺工程师正在将数据反馈给 EDA 供应商以对工具进行调整,以及新的愿望清单能力。
可靠性现在是一个普遍的挑战,从现在开始,从最初的设计到现场产品的监控,整个供应链都需要尽职尽责。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!