原创 消费IC:可靠性设计

2008-6-29 15:42 2305 5 5 分类: 消费电子

 

作者:Michael Santarini, EDN高级编辑; www.ednchina.com 2008-06-09 点击:154


最新的电子产品只有在能保证较长的使用寿命时,消费者才会接受。 IC 厂商必须解决好 IC 的可靠性问题,才能使其在可靠、耐用的产品中得到应用。

  要 点

  大多数公司都期望自己的设备使用寿命能够达到10年之久,因而进行多项负荷测试,以确保其IC能够实现这个目标,甚至超越这个目标。

  基于逻辑设计中软错误逐渐成为较大的问题。

  一些诸如Nvidia和
Xilinx的公司最先采用了新工艺,并且开始与其晶圆代工企业的合作伙伴进行合作。

  IBM对其可靠性进行了整体分析,在技术、设备、封装和系统层面检验了其潜在的可靠性。


  当你购买一台Microsoft Xbox 360 或是Sony Playstation 3游戏机时,销售人员会建议你同时再买个风扇和游戏机一起使用。你可能很不情愿多付这30美元,尽管这个风扇能改善产品固有的设计缺陷。如果你是早期的Xbox 360 用户,可能还会接到Microsoft发来免费更换IC、IC冷却系统的召回通知,否则,这两个部件会造成系统运行缓慢甚至出现故障。就算你不是360用户,你也可能听说过这种召回事件,知道360存在某些设计缺陷,但还是义无反顾地买了回来。


  这在业内是一种愈加有趣的现象。消费者都在购买那些明知用不了多久就会出现故障的产品。在消费电子产品市场中,追求最新最酷的数字“时尚潮”冲昏了消费者的理智,这使得消费电子产品购买已经迅速成了一种冲动的行为。许多人每四年会更换一台新游戏机,每年更换一台新手机和MP3 播放器,每四到六年更换一台电视机和电脑。

  尽管现在消费者愿意为“时尚潮”买单,但如果日后手机没过合同保修期就出现故障了,他们是否还会心甘情愿?即使消费者不担心这个问题,消费产品制造商也会担心。因为,产品早期缺陷迟早会引发成本高昂的召回,甚至会让消费者和OEM 反对该品牌。在游戏机领域,消费者只有三种选择:Xbox 360、PS3和Wii。但在TV、手机及其它消费电子产品缝隙市场,消费者与 OEM的选择则比较丰富,并且能够长久记住它们。

  因此,当考虑到设计与生产为消费性电子产品提供动力的前沿IC日趋增加的复杂性时,产品寿命这样的问题就变得非常让人头疼了。当今的半导体行业主要关注于如何实现IC设计制造的高产出,并保证其IC 通过功能测试。这样就可以进行大规模生产,比竞争产品更早地投入市场。但随着IC 工艺越来越先进,消费者对性能与系统功能的需求也在增长,如果厂商不解决可靠性问题,IC 的故障会越来越普遍。

  军用、汽车及医疗IC 的提供商很久以前就已经开始应用可靠性高的技术,以保证其设备能够长久工作。针对消费者与OEM市场设计与制造IC 时,也非常注重可靠性,一般要求达到至少10 年的MTBF (平均故障间隔时间),这比多数消费者使用产品的年限还要长。专家表示,可靠性向来是半导体厂商所关注的主要问题。但要生产可靠的产品,满足客户对更快、更小、更高性能产品日益增长的需求,他们必须要克服许多困难。多数的消费性电子产品制造商雇佣可靠性工程团队为每一步的设计、制造、封装和老化测试设定指导方针,并密切监控这些步骤的进行状况。老化测试是一个重要的步骤,它通过加速寿命测试,获得设计在高温、高湿的恶劣条件下的最佳性能。在制造商开发新的硅工艺时,这些可靠性工程团队也在不断警惕着新的或重现的故障机理的出现(图1)。如今,他们必须要注意各种趋势,如栅极漏电及工艺变数,这些会使制造可靠IC 的过程更为复杂(参见附文1《移动的硅砂》)。

  “在可靠性领域没有所谓的‘老样子,老样子’的说法。” IBM系统与技术部的系统Z测试技术经理Jack Hergenrother博士说。“我们不断地深入对新故障机理的了解,也在寻找处理潜在损耗与故障机理的新方法。”Hergenrother表示,这种现象并不是IBM独有的。“这是个行业现象。”他说。“在(摩尔定律发展的)过去十年,出现了一些新的机理,我们在质量认证和设计过程中要考虑这些机理。这种需求在芯片与系统可靠性方面都适用。”

  专家表示,业内已经能够妥当而迅速地在开发的各个阶段应对可靠性问题。图形处理厂商Nvidia的技术与晶圆代工业务副总裁John Chen表示,业内将在今后几年内解决这些问题。他说:“设计师要了解这些问题,才能充分发挥技术优势并避免缺陷。” Xilinx 高级产品部的产品开发工程总监Glenn O’Rourke说,Nvidia 与Xilinx 都处在采用新逻辑工艺进行设计的前沿,他们及其晶圆代工企业合作伙伴必须了解可能出现的故障。(参见附文2《采用自己的工厂还是无工厂:可靠性仍是最主要的目标》) “由于图形引擎需要较大的处理能力,我们每18 个月就得将设计中的晶体管数量增加一倍。”Chen表示。

Nvidia的共同创始人Chris Malachowsky在1996 年设计了该公司的首个芯片,含有100万个晶体管的设计在当时是很大规模的了。而该公司最近推出的采用了65nm 技术的图形处理器中,晶体管则超过了10亿个。“我们可以使用更小、更快、性能更好的晶体管,不像某些应用存在着引线限制且不可升级的问题。”Chen说。“我们可以充分发挥摩尔定律的优势,并且我们总能保持在技术的前沿。但是作为首先采用一种新技术的企业之一,新的挑战也会随之而来。”

  IC 故障机理

  对于130 nm、90 nm、65 nm和45 nm 的工艺节点,IC可靠性团队最关注的故障机理有:NBTI (负偏压温度不稳定性)、热载流子效应、EM (电迁移)、栅极氧化层完整性及 SER (软误差率)。NBTI 与热载流子效应是两种经常出现的故障机理,都会导致失去栅极控制(参考文献 1与2)。NBTI 是一个重要的可靠性问题,也是承受负栅电压的CMOS 设备所面临的直接问题。在电子(空穴)获得足够的动能克服势垒,从而成为热载流子后,热载流子效应才会产生,然后该热载流子会迁移到设备的其它区域。在NBTI 和热载流子效应中,晶体管的驱动电流变小,会降低或锁定栅极的时序,继而

可能造成故障。
  



图1,Xilinx 设备用于多种应用中,这些应用都要求有较长的寿命。Xilinx 进行使用寿命性能全面分析,该分析体现了老化测试的各个阶段的设备特性
图1,Xilinx 设备用于多种应用中,这些应用都要求有较长的寿命。Xilinx 进行使用寿命性能全面分析,该分析体现了老化测试的各个阶段的设备特性。



  NBTI 问题在90nm 节点上十分明显,但制造商很快就解决了这个问题。据Synopsys提取与电源完整性(extraction- and Power-integrity)产品研发总监Li-Pen Yuan介绍,对NBTI 的初始研究一般集中于常开型直流电设备,因为该问题在这种设备中比较严重。采用交流工作的设备与NBTI 相比问题要小一些,因为其电流是非连续的,不会对晶体管造成过大的负荷。然而NBTI 仍然是可靠性与设计团队必须注意的问题,特别是当他们的设计应用于直流电系统时,如移动计算或手持设备。

  IBM的Hergenrother说,NBTI 问题并未消失,只是暂时隐藏起来了。 “几年前,它还会造成一些问题,”他说。 “现在不会再听到这种说法了,因为我们已经知道如何解决这些问题了。 如今,我们听到更多的是与NBTI类似的PBTI (正偏压温度不稳定性),只不过它是出现在PFET而不是NFET中。 PBTI与NBTI差别很大,在以后的技术节点中还将是个问题。而这次,业界很有可能对此做出更为充分的准备。”

  IC制造商采用应变工程技术进一步地提高晶体管的速度,最大限度地降低泄漏功率,这是一种通过调解张力或压力增强晶体管沟道性能的技术。应变调节可以增强电子流动性,进而改善沟道的传导性能。该技术的一个副作用,是可能会在设计中引发热电子效应。这些效应会改变电压阈值,缩短IC的使用寿命。Chen说,“如果采用应变工程技术,晶体管速度会更快,功率更大,但会造成更多的热电子或热载流子效应。” 他解释,应变工程技术可在晶体管的漏极一侧感应较强的电场,并使 N 沟道中的电子快速达到饱和状态。电子必须尽可能地快速移动,才能产生电流。他说,“(移动的电子)会撞击其它电子-空穴对,从而生成更多电子。”“这是个雪崩效应——碰撞电离生成了更多电子,电子得到足够的能量后,会跃迁到MOS栅极介电层并被困于此,造成阈值迁移,最终导致设备故障。但制造商已经找到方法来提高阻止电子跃迁到介电层的势垒。这样增加了热电子,但能形成一个壁垒阻止电子进入介电层,其净效应是相等或稍少的热载流子效应。”

  当过多的电流经过连接晶体管的薄金属迹线时,就会出现最常见的故障机理——EM。当两条薄金属迹线靠近,携带电流或瞬时开关时,其中一条会裂开,形成开路。裂开的迹线会接触到相邻的迹线,造成短路,进而引发设备故障。EM 通常会经过一段时间后才出现,在芯片测试很久以后造成故障。半导体与EDA 行业都早已注意到EM问题了。Synopsys的Yuan说:“EDA厂商提供了分析工具来检测易受EM影响的设计区域。”EM问题也随着新工艺的出现有所增长,但并不太严重。“10年前的一个典型设计,会有多个区域容易受到EM影响,” Yuan说。“但是今天,设计中只有10处易受到EM影响。好像该问题并未恶化。”不过由于EM仍在影响设计,EM的预防工具在主流设计师的工具中也越来越普遍了。

  另一种故障机理是栅极氧化层崩溃或其完整性问题,其中电流会造成栅极介电层的缓慢崩溃,进而导致故障。Chen指出,一些新材料,如高k值金属栅极有助于改善这方面的可靠性。Intel 在这种材料方面的研究比较领先,而其它的硅制造商也会紧随其后。Chen 指出,某些45nm和32nm 的设计可能使用含有二氧化铪的高k值金属介电层,而不是传统的栅极氧化层。制造商在制造过程中在硅片上生成栅极氧化层,这样可使表面更加平滑。但在高k值金属制造中,制造商将二氧化铪层沉积在硅上形成一个复合层。“只使用一种层是不行的,” Chen说。使用多个层,就要保证高k值介电层只有较少的针孔,因为排列多个层的针孔比较困难。使用高k值介电材料通常会改善电介质随时间变化而破坏的性能。然而与二氧化硅不同,这种复合层有更多的陷阱,会捕获更多的电子或N型、P型沟道空穴,这会导致软崩溃。这些问题会影响流动性 ,而且从长期来看,会造成阈值的不稳定。制造商已经找到了不同的工艺技巧来解决该问题。“一个方法是在高k值金属层与硅层间插入一个二氧化硅层。”Chen说 。




        SER是另一种故障机理 ,它长期影响军用及航空IC及存储器市场,如今在逻辑设备中的影响也越来越突出(参考文献 3)。封装材料中的α粒子或自然产生的中子撞击现象,是软错误出现的典型原因。实际上,α粒子或中子会撞击设备而产生噪声,触发存储器位,甚至触发电路中的闩锁。“该问题对每一代技术都造成了很大的挑战,” IBM的 Hergenrother说。“

在设备的敏感区、关键区域的设备数量在不断减少,这就意味着只堆积少量的电荷就会对晶体管的工作造成干扰。”因为很难将α粒子从封装材料中消除,所以,必须加强系统对宇宙粒子及a粒子的抗干扰能力。可以在多个层面解决软错误。“(IBM)在技术级别解决SER问题,使晶体管具有容纳软错误的能力;而在电路级别将晶体管设置在闩锁及双稳态多谐振荡器处, 这样即使有一个晶体管触发了,也能保证其稳健的特性,”他说。“然后,在芯片级别寻找错误检测及校正机理,所以即使出现错误,也可找到并予以校正,防止其传播任何无用的数据。除了上述机理外,还有系统级别保护,这是另一层的错误检测与校正机制。”

  几种故障机理会产生可靠性问题。半导体行业一直都在寻找并校正这些故障机理,以把完善的产品交给消费者。但随着设备越来越接近物理特性与CMOS的极限,可靠性问题会越来越难以解决。

  参考文献

  1. Peters, Laura, “NBTI: A Growing Threat to Device Reliability,” Semiconductor International, March 1, 2004,
  www.semiconductor.net/article/ CA386329.

  2. Peters, Laura, “Strained Silicon: Essential for 45 nm,” Semiconductor International, March 1, 2007, 2007,
www.semiconductor.net/article/CA6418539.
  
  3. Santarini, Michael, “Cosmic radiation comes to ASIC and SOC design,” EDN, May 12, 2005, pg 46,
www.edn.com/article/CA529381.


  附文1:移动的硅砂

  虽然半导体行业了解和讨论了故障机制,但硅制造领域的几个趋势也许会使可靠 IC 的设计工作变复杂。晶体管泄漏、多模式和多电压设计技巧、IC 工艺可变性均可能影响可靠性。也许最大的问题是晶体管泄漏。从130 nm节点开始,不断缩小的晶体管在运行于峰值性能时会漏电。这种泄漏会产生热,而热又会造成更多泄漏(参考文献 A)。这个问题对于移动设备设计公司至关重要,这是因为泄漏会浪费总功率的比例越来越大,并因此缩短电池寿命(参考文献 B)。但在高性能微处理器和图形处理器领域,泄漏及其热量曾驱使许多处理器公司转向多核体系结构,来代替提高时钟速率,后者是他们对单处理器体系结构的传统处理方式。

  泄漏是为什么许多消费设备,特别是游戏机系统,需要精心设计的散热片和风扇系统,以及厂商经常推荐消费者购买额外制冷系统的原因之一。并且,随着设计转向 45 nm工艺,泄漏将导致损失设计功率的一半以上。半导体行业目前没有把晶体管泄漏当作可靠性问题,这是因为该行业在寻求新的设计方法来降低功率,并且加工厂在使用新材料比如高 K 金属栅极来降低功率。设计工程师采用数种技巧来优化设计方案的功率。其中一种技巧就是多电压多模式设计:设计者按照性能和功率要求把设计方案的功能分组。该方法有可能会使可靠性测试变得复杂一些。传统上,设计者把设计方案送去出带,运行晶圆级测试,把设计放入封装,然后在峰值速度和性能,在最坏的温度和湿度条件下测试它们。但是,采用多模式设计的 IC 在切换工作电压以及通断过程中,会承受一定大小的应力。例如,手机在用户接电话时有一种峰值工作模式,在用户回复电子邮件时有一种低功率模式,在用户未使用该设备时有一种待机模式。因此,对采用多模式IC 的设备做可靠性测试,可能与正常寿命测试有所不同。


多模式设计还易遭遇静电放电 (ESD) 故障。Apache Design Solutions 公司首席执行官 Andrew Yang说:“与随时间推移导致金属层疲劳的电迁移(EM)不同的是,ESD故障源于突然的涌流,后者导致金属或过孔熔化。ESD故障在较小工艺节点变得更糟,这是因为器件密度增加,金属变得更薄。另外,多电压域技巧等先进低功率技术使设计更易遭遇ESD故障。”他说,ESD导致了 20% ~ 30% 的 IC 故障。设计者们添加 ESD 防护电路,并需要准确的分析工具来确定防护电路的有效性。
高 K 金属的使用有望解决泄漏问题。在 Nvidia 公司技术和加工厂运营副总裁 John Chen 看来,高K金属在两个方面有帮助。他说:“较高K的材料能做更厚的栅极介电层,因此,通过栅极的泄漏更少。但泄漏并不只来自栅极,它还来自源极、漏极和结。用高K金属还使我们能进一步增强晶体管。当关断晶体管时,仍然消耗微弱电流。过去,不担心这股电流,

因为在一片芯片上没有那么多晶体管。现在,它是个大问题。”

  除了新材料以外,各公司还能采用温度较低的封装或制冷系统,比如散热片或风扇,来进一步消散较新型器件的热量。如果 Nvidia 公司继续每 18 个月就把栅极密度提高一倍多,那么公司的超 10 亿晶体管图形处理器的后续型号将拥有数十亿晶体管。没人知道这种增加将如何影响器件的热状况。Chen 表示,Nvidia 公司在发布设计的数年前,就会对其加工厂伙伴做广泛研究和资格鉴定,并在封装后和老化测试期间,对其器件做全面测试。

  另一个可能影响可靠性的未知因素是工艺变化。随着工艺几何尺寸继续缩小,IC 制造商还必须对其新工艺和制造设备做极端的校准和建模。并且随着每一次新工艺的缩小,装配线的一个小变化都可能使生产出的 IC 与预定性能和功率目标大相径庭。Chen说:“工艺变化导致器件内的电变化。如果改变栅极介电层厚度或晶体管长度,电流就会相应变化。当电流变化时,它可能导致产品寿命不同,而这(不同)就是一个可靠性问题。”

  IBM 公司系统与技术部 System Z Test 技术经理 Jack Hergenrother 博士也认为可变性很关键。他说:“当从一种技术转到另一种时,越来越难以把所有尺寸都控制在相同的相对准确度水平。按 1% 精度来印刷 300nm线路,比 30nm线路更容易。”他说,该公司已面临掺杂剂波动等基本问题要处理。

  一些变化可能导致芯片分选错误。微处理器和图形处理器厂商传统上一直从其最高性能的器件获得最高利润率。但是如今,利用最新工艺的厂商必须放弃那些超过其最高性能目标的器件,这是因为泄漏和相应的散热量也可能增加,并导致早期产品故障。Chen 说:“当我们完成制造后,我们会测量自己的 IC,以便获得器件性能的真实分布。” 该性能范围是 330MHz ~ 450MHz,泄漏范围是 100mA ~ 1A。最高性能的器件往往具有最高的泄漏值,因此工作频率超过 450MHz 的器件一般会超过 1A 泄漏目标值。他说:“晶体管运行很快,但是泄漏也太多。我们无法销售这些零件,我们必须把它们扔掉。”

  参考文献

  A. Santarini, Michael, "Thermal integrity: a must for low-Power-IC digital design," EDN, Sept 15, 2005, pg 37.
  
  B. Santarini, Michael, "Taking a bite out of power: techniques for low-power-ASIC design," EDN, 2007-5-24, pg 46.




  附文2:采用自己的工厂还是无工厂:可靠性仍是最主要的目标

  IC 可靠性对有自己的制造工厂和没有自己的制造工厂的企业来说都是一个至关重要的问题。例如,IBM 自己开发制造产品,可以解决可靠性问题,甚至可以在产品开发的各个级别进行折中:技术与晶体管开发、电路级设计、芯片设计、封装设计及系统实施等。而另一方面,“无工厂”企业,如Nvidia 和Xilinx,则必须依赖外部的晶圆代工企业为其制造产品。由于这两种企业都面临着市场竞争异常激烈的,他们都会在代工企业推出新工艺时,抢先采用该工艺。但在他们开始采用该工艺进行设计之前,他们要确保其已通过严格的质量认证,如ISO (国际标准化组织) 9000x、ISO 14000及OCEA (Office of the China Economic Area) 标准。



图A,Xilinx 与其它大型企业在IC 开发的多个阶段检查设计的可靠性
图A,Xilinx 与其它大型企业在IC 开发的多个阶段检查设计的可靠性。



Xilinx高级产品集团的产品开发工程高级总监Glenn O'Rourke 表示,该公司以UMC (联华电子股份有限公司) 及东芝为供应商,所以,必须保证这两家厂商能够制造符合标准的Xilinx产品。为了实现此目标,Xilinx 开发了一个其设计的参考模型,并要求两家供应商都能达到其要求。“我们预先开发了一个硅参考模型,而且……,两家制造工厂都在竭力达到该目标,” O'Rourke说。他还指出,由于Xilinx的芯片用于多种应用中,该公司还要分析其设计的寿命性能(图 A)。“我们通过一项加速老化测试来模拟检验产品的寿命,”他说。“我们在各种温度与电压下进行全面的分析,以了解产品性能在其使用寿命期间如何变化。我们利用这些数据体现了产品在其整个使用寿命周期中的使用与规格。”完成测试后,Xilinx 向客户提供测试报告。

文章评论0条评论)

登录后参与讨论
我要评论
0
5
关闭 站长推荐上一条 /2 下一条