原创 稳定压倒一切:电脑可靠性问题透视(1)

2006-12-6 01:09 5970 10 10 分类: 测试测量

置身于信息时代,电脑是我们学习、工作和生活中形影不离的伴侣。如果它常常死机甚至崩溃,将会给生活带来麻烦,给工作带来混乱,因此,电脑的可靠性比它的速度更加重要。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />


    产品的可靠性是指在规定条件下和规定时间内完成规定功能的能力,而电脑功能的实现有赖于硬件和软件两个系统协同工作,因此电脑的可靠性涉及硬件的可靠性和软件的可靠性。但在这里,我们只谈硬件。


一、电脑的总体可靠性状况如何?


购置电脑,总希望它能很好地发挥作用,而不是常常给我们带来麻烦,但往往事与愿违。PC World杂志2003年度的用户调查结果(见1)表明,台式机和笔记本电脑的部件失效率均在20%以上,能够得到及时服务也仅占一半。与外围设备相比,台式机主机的故障率最高(如1),一年内会至少发生一次故障的机器占有46%的比例。因此,在购买电脑时,考察电脑的可靠性高低是每个电脑用户来说都是很重要的。


1  PC World杂志2003年度用户调查结果




调查项目


调查数据(%


 


台式机


笔记本


部件失效率


(至少更换一次失效元件)


问题突出


17.5


16.3



1931.8


20.224.7


一般


35.7


28.830.4


平均值


26.4


22.8


可靠性满意度



75.6


74.1


一般


66.962.6


68.867.4


不好


57.854.8


62.7


平均值


67.5


72.4


服务满意度



64.6


69.3


一般


57.554.3


60.952.5


不好


47.939.7


47.841.5


平均值


53.9


53.8


 

8e4180e3-642a-4700-b2f5-da6202dfe4a5.gif

图1  台式电脑的故障率最高

二、电脑为何不够可靠?


<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />



1 各类设备故障率比较

<?xml:namespace prefix = w ns = "urn:schemas-microsoft-com:office:word" />产品的可靠性受设计、制造和使用环境等各种因素的影响。据调查,在影响产品可靠性的原因中,设计占40%,元器件的选择占30%,制造、工艺上的原因占15%,还有15%来自使用和维护上的原因。

1.       设计因素  机器设计对稳定性、可靠性、安全性等问题考虑不周,存在bug。如某品牌的显示器,因其开关电源电路中无开关管保护电路,导致机器损坏开关管,更换开关管后,不久又损坏。


2.       制造工艺因素  机器在制造过程中,因采用落后的或不当的生产制作工艺,或由低水平的操作工人生产出来的产品。


3.       环境因素 环境条件对可靠性的影响是指产品在贮存、运输和工作过程中可能遇到的一切外界影响,包括气候条件(温度、湿度、风、雨、水、尘土、盐、雾等)、机械条件(振动、冲击、碰撞等)、电的条件(电场、磁场、闪电等)及生产条件(霉菌)等,以上环境条件都有可能导致产品电性能改变,机械变形,材料腐蚀使产品的可靠性和寿命降低。


4.       人为因素  操作不当,以及缺乏必要的维护等。


5.       时间因素  机器经长期使用后会因机械磨损、元件失效等原因而导致可靠性下降。


可以看出,电脑的可靠性问题贯穿于设计、制造、运输和使用的全部过程。


三、如何评价电脑的可靠性?


一台崭新的电脑,用户还未使用,如何得知其可靠性究竟如何呢?厂方如果将每一台电脑都去试验一下,譬如将电脑开机几百个小时甚至几千个小时,这样的电脑还有谁愿意购买呢?因此要有一套科学的评价体系来验证产品的可靠性。通常的做法是,从一批产品中随机抽取一定数量,然后让它们在规定的试验条件下经受一定时间的考验,记录它们的失效率,最后以一定数学方法计算出MTBFMean Time Between Failures,平均故障间隔时间)。可见,可靠性是对某种类型的一批产品而言的,而不是针对某一件产品。


为了规范和统一电子产品的可靠性评价标准,国际电工委员会(IECInternational Electromechanical Commission)于1962年在美国召开了第一届国际可靠性及维修性学术会议,1965年成立了TC56(技术委员会,56代表可靠性委员会),制定了IEC605(设备可靠性试验)和IEC812(系统可靠性分析技术)等一系列可靠性技术标准。1991年国际电工委员会把IEC/TC56可靠性、维修性技术委员会正式更名为可信性(Dependability)技术委员会,把可靠性工程、维修性工程、维修保障工程和测试性工程等四个关系密切的项目归入一个技术机构。


我国在产品可靠性评价体系的建设起步较晚,1978年在钱学森倡导下召开了第一次全国可靠性学术会议, 19866月成立的“全国电工电子产品可靠性维修性标准化技术委员会”也制订了一系列可靠性标准,如GB5080.1-86(设备可靠性试验一般要求)和GB7288-87(设备可靠性试验:推荐的试验条件)等。最新的国家标准为GB/T9813-2000《微型计算机通用规范》,该标准由“国家电子计算机质量检测检验中心(http://www.nctc.org.cn)”负责实施。GB/T9813-2000规定,家用电脑产品的MTBF4000小时,凡达到这一标准的产品即属合格产品。




小知识: NCTC3C认证


国家电子计算机质量监督检验中心(NCTC)于19866月成立,是国家技术监督局和电子工业部授权的专门从事计算机、计算机外部设备、IC卡、IC卡机具等信息技术产品质量检验的唯一国家级计算机质检中心。2002年国家认证认可监督管理委员会指定NCTC为计算机及相关产品的3C认证机构,也就是说,电脑产品必须经NCTC认证后方可向国家认证认可监督管理委员会申请3C认证标志。





2  振动试验台

可靠性认证标准对不同产品的可靠性试验所规定的试验项目和试验条件有所不同,如高温、低温试验、振动和冲击试验(如2)、电磁干扰试验等,试验条件往往比设备正常工作条件要更为恶劣,经过这种试验后,根据相关计算方法对时间参数进行处理,最后得出MTBF数值。

d71ac82d-35b8-4e7d-b6a6-e7e9e5fbf216.jpg


图2  振动试验台


四、电脑中的可靠性设计


在影响设备可靠性的所有因素中,设计因素占首要地位。因此,大型的电脑制造商的设计师都必须对可靠性知识十分精通,并且有专门的工程师负责电磁兼容性和可靠性设计和审核。可靠性设计内容十分广泛,电脑系统一般采用如下几种措施来保证可靠性。


1.    合理选用元器件


各种元器件的电气性能和物理性能均不相同,应在不同场合下合理地选用,保证完成特定功能的情况下保持良好的稳定性。下面是通常的选用原则:


(1)        多采用集成电路,减少分立器件的数目。因为集成度越高,元器件数量越少,可靠性就越高。元器件数量多了,也就意味着增加了出现故障的环节和几率。


(2)        集成电路尽量选用CMOS材料而不采用TTL(晶体管-晶体管逻辑)电路,因为前者的功耗低、发热量小;


(3)        半导体分立元件尽量选用硅材料而不采用锗材料,因为前者的耐压值和稳定性相对较高;


(4)         电源电路中的开关管选用MOSFET而不使用大功率晶体管,因为MOSFET驱动电流小,可以直接用集成电路来驱动,因而能免去一级驱动电路,达到减少元器件数量,提高整体可靠性的目的;


(5)         尽可能选择金属封装、陶瓷封装、玻璃封装的器件,少用或不用塑料封装的器件,因为塑料封装的器件受潮时会产生裂纹(爆米花效应)而损坏;


(6)        尽可能采用容量较为稳定的固体钽电容,其次是液体钽电容,而铝电解电容的容量变化就比较大;


(7)         线路抗干扰的小容量电容器,应使用失效率很低(10-7h)的瓷介质电容和独石云母电容,相比之下,塑封云母电容失效率较高(10-5~10-4h),不宜采用。


2.    降额使用元器件


为了提高可靠性,考虑到供电电压的波动、输入信号的起伏、以及环境温度、湿度等条件变化等因素造成的元器件参数漂移,同时还要防止静电或浪涌电压(流)等瞬态事件造成设备损坏,对关键元器件在参数上留有余量或降额使用。电子元器件的基本失效率取决于工作应力(包括电、温度、振动、冲击、频率、速度、碰撞等)。除个别低应力失效的元器件外,其它均表现为工作应力越高,失效率越高的特性。大部分元器件的失效率取决于电应力和温度,因而降额也主要是控制这两种应力。2是对常用元器件通常采用的降额系数,从表中可以看出,不同元器件降额标准亦不同。元器件在电路中的重要性和安全性不同,降额系数也不同。譬如开关电源中开关管的反向耐压按照理论上600V就够了,但一般选择800V以上,有些高档电源甚至高达1200V,这样即便保护电路失效,不仅不会造成大面积损坏,而且电源还能正常工作。


2 元器件的降额系数




元器件种类


降额系数


电阻


功率0.10.5


普通铝电解电容和无极性电容


电压0.30.7


钽电容


电压0.3


二极管


功率≤0.4;反向耐压0.5


功率开关管


电压0.6;电流0.1


电感和变压器


电流0.6


3.    电路板可靠性设计


(1)          简化设计 由于可靠性是电路复杂性的函数,降低电路的复杂性可以相应地提高电路的可靠性,所以,在实现规定功能的前提下,应尽量使电路结构简单,最大限度地减少所用元器件的类型和品种,提高元器件的复用率。这是提高电路可靠性的一种简单而实用的方法。


(2)          低功耗设计  电子系统向着小型化和高密度化发展,使得其内部热功率密度增加,可靠性随之降低。尽量采用低电压供电的CMOS电路而不用TTL电路以降低电路的功耗,是减少系统内部温升的主要途径。实际上,现在主板上的CPU、内存和南、北桥芯片等大规模集成电路都已经采用了CMOS工艺。


(3)          抗干扰设计  电脑板卡常用的抗干扰主要有三种方式,第一种是增加PCB层数,第二种是合理布线,第三种是设置抗干扰电容。板卡上密密麻麻的陶瓷贴片电容几乎全部用于抗干扰目的,如3所示。



图3  CPU插座下面和旁边的贴片电容用于抗干扰


4.    供电系统设计


优质供电是硬件系统稳定工作的基本条件,如果供电系统的设计、用料和工艺较差,会造成供电电压值不符合设计要求,或者供电质量不高(主要表现为纹波系数大和瞬态特性差),系统虽然可以勉强工作,但会有随机性死机、重启动和蓝屏等表现。主板上几个大功耗部件(CPU、内存、北桥芯片和AGP显卡)的供电质量尤其重要,优质主板通常使用多相供电(3相以上)来保证供电质量,如4




图4 史上最牛的CPU供电:技嘉GA-965P-DQ6主板采用12相供电(数一数,有24个MOS管)


5.    电磁兼容性设计


来自交流电源的传导干扰 (如5)和来自空间的辐射干扰等都会影响电脑的稳定性,造成死机或重启动等故障。高可靠性电脑的EMCElectro-Magnetic Compatibility,电磁兼容性)设计往往十分周全,譬如:电源盒带金属屏蔽壳,并在交流电源输入端加入EMC电路。3C标准要求电脑的电源必须安装PFCPower Factor Correction,功率因子校正)电路,防止电脑作为容性负载影响交流供电系统的功率因数,对电脑来说,PFC电路也有滤除干扰的作用(如6)。


a22b81de-8dfa-4921-b806-f07be2640056.JPG


图5  来自电网的5中异常波形



图6  主机电源盒里的PFC元件


连接电脑设备的信号线如果太长,容易产生天线效应,引入来自空间的干扰,需要安装铁氧体磁环对干扰进行吸收,如7


a5bb3009-d3bd-4852-b722-b76c9912598a.gif


图7  信号线上干扰吸收磁环


为了改善机箱屏蔽效果,提高防静电和抗电磁干扰能力,机箱应该保持良好接地,机箱盖板之间的接触电阻应该很小。8所示的EMC弹性触点就是一种减少接触电阻的设计。


eb5ba76d-d0b7-4bab-ae9d-0c8271130507.JPG


图8  机箱上的EMC弹片


6.    过流、过压保护电路


电脑可能会受到来自交流电源的浪涌电流和尖峰脉冲的影响,造成电路工作不正常,严重时会导致内部器件的损坏。为此,在电路设计中,有必要根据具体情况设计必要的保护电路。


目前电脑各种电路中都使用了具有自愈能力的保护器件,如热敏电阻(如9)和TVS(瞬变电压抑制二极管)等。与传统的熔断型保护元件相比,自恢复保护器优越性十分明显,它一方面可以减少维修成本,另一方面也减少了停机时间,因此在现在的电脑设备中得到了广泛应用。


9bdde85c-5548-4567-a546-1330999ad1f6.jpg


图9  用于过流保护的热敏电阻


7.    冗余设计


 冗余设计也称余度设计,它是在系统或设备中的关键部位设计两个或两个以上的功能通道,当一个功能通道发生故障时,可用另一个通道代替,使得局部故障不会影响整个系统或设备的正常工作。目前PC机已经采用了RAIDRedundant Array of Independent Drives,冗余独立磁盘阵列)和ECCError Correction Code,错误校正码)内存两种冗余技术,这些技术的采用,可以利用可靠性不太高的部件构成高可靠的容错系统。



容错系统是靠硬件冗余实现的,冗余势必意味着要多花钱。过去容错技术只是银行、证券等重要应用的专利,随着硬件制造成本的降低,普通PC机的关键位置也将会更多地应用容错技术。


8.    防呆设计


台式电脑通常允许用户自行变更系统配置和升级。为了防止硬件安装或更换部件中因连接错误而导致硬件损坏,对连接器要采取防呆设计(如10);对并行口和键盘、鼠标接口这些不支持带电插拔的端口也要采用带电插拔的设计,防止误操作而损坏接口电路。


点击看大图


图10  并行ATA硬盘接口的防呆设计


9.    自我保护设计 


为了防止意外事故导致电脑损坏,电脑中对一些关键部件设计了自我保护功能。如硕泰克研发的保护CPU 及主板的ABS II烧不死技术,当CPU风扇失效导致CPU核心温度上升时,一旦温度上升到85℃ABS II功能将使系统不断地进行复位动作,直至侦测到CPU温度恢复正常,才允许系统正常工作,这样就确保了CPU及主板的安全。


Intel处理器上的VID(电压识别)引脚也是一种自我保护设计,该引脚为DC-DC降压电路提供标准电压设定值,防止过高供电电压危及CPU安全。


10.    机械强度设计


电脑机箱是所有板卡的载体,劣质机箱很容易发生变形,导致板卡歪斜,造成连接处接触不良,甚至电路短路的严重后果。因此,电脑的机械结构应该设计合理,用料应达到一定的厚度,使得整体结构具有足够的机械强度(如11),以便能够经受振动、冲击和热应力等机械力的作用,保护PCB板的铜箔不断裂,焊盘不翘起,接插件不松脱,板卡变形保持在允许的尺寸内。


67cb03df-566a-4252-b2bf-c698ee04b7b4.JPG


图11  机箱设置了加强筋


11.    耐环境设计


在系统硬件的设计上,充分考虑各种环境因素的影响,采用适当的冷却、抗震、防尘等技术措施,以提高系统抵御外部环境侵袭的能力。合理的散热设计保证进入机箱的大部分冷空气顺畅地流向各主要发热部件(如12),并且不存在散热死角,。对于发热较大的器件(如CPU等)应留有足够的散热空间和通道,并且避免晶振、集成电路、精密电阻和电解电容等温度敏感元件与之靠近。


96edd09b-0cd3-4e05-bbd8-46ba8c8fb06d.JPG


图11  发热量最多的CPU位于风道


(未完待续)

PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
EE直播间
更多
我要评论
0
10
关闭 站长推荐上一条 /3 下一条