原创 引蛇出洞:对付偶发性故障的诱发诊断技术

2006-12-2 12:15 5470 9 9 分类: 测试测量

“玩电脑游戏本来很开心的,可隔一段时间就重新启动一次,不知道什么原因,特来请教。”一个同事这样描述道。


“我这破机子真是烦死了,有时一开机就死机,有时用了一段时间死机。”这位朋友一边说,一边摇头,一脸的无奈。


电脑用户经常带着这样的问题来找我,他们的电脑故障并不是彻底坏了,只不过是不稳定。像是得了精神病,不知什么时候犯病。这样的电脑虽然还能勉强用着,但心里总不踏实,不愉快。想把病给彻底治好,又找不到问题在哪儿,谁遇这种事都会感到有点烦。


电脑故障从发生时机来说就这么两种,一种是永久性故障,另一种是偶发性故障。永久性故障就是彻底歇菜,不用详细解释了。而当屏幕上出现一闪而过的条纹,当机器内偶尔发出的“咯噔”响声,当机器时不时地死机或重启动时,这些都是偶发性故障。和永久性故障一样,偶发性故障也是大家经常遇到的。


一、偶发性故障的成因<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />


电脑出现偶发性故障的原因很多,大致可分为固有缺陷、配置不合理和外部因素三种类型。


首要原因是电脑硬件存在固有缺陷,也就是娘胎里带来的先天不足。固有缺陷包括设计缺陷、制造工艺缺陷和元器件性能缺陷等,并由此带来稳定性、可靠性、安全性等问题。电脑产品如果存在这些缺陷,总是要在某个时候表现出来的。


设计缺陷虽然少见,也是有的。笔者曾经修过一台显示器,有时一切正常,有时候不能启动,屏幕全黑。原来,为了保险起见,厂家选用的启动电阻比一般的都要大,换上一个稍小的启动电阻,故障再也不出现了。


设计缺陷常常还体现在电磁兼容性(Electro-Magnetic compatibilityEMC)方面,一台品质优良的电脑,通常具有电磁兼容性标志,如美国的FCCUL、欧共体的EC、日本的VCCI等,我国最近颁布的中国强制认证CCC标志也包括电容兼容性测试项目。一台通过认证的电脑设备,除了自身不产生干扰,还具有对外部干扰的抵抗能力。而一台劣质机器,不仅不能低于外来干扰,自身还要产生干扰。


制造工艺缺陷是机器在制造过程中因采用落后的生产制作工艺,或由不熟练的操作工人生产出来的产品。最常见的问题是元器件引脚虚焊,动一动,引脚与电路板分开了,再动一动,又连上了。虚焊的毛病维修起来虽然并不算太难,但查找虚焊点却要很长时间。劣质机箱也是组装机出故障的一个主要原因,由于机箱用料差,容易产生机械变形,稍微搬动一下机器,甚至稍有振动,机器就会死机、重启或黑屏。


元器件性能缺陷不仅侵犯了消费者权益,也是令制造商担忧的问题,如果一批产品使用了一个有缺陷的元器件,就可能导致产品危机召回所有已经售出的机器,经济损失和名誉损失都很大。例如,2002年,一些消费者同时发现某品牌显卡在低温环境下出现花屏现象十分普遍,消息经媒体报道后,举国哗然。导致此次严重产品危机的直接原因竟是一只小小的铝电解电容。


导致偶发性故障的第二位原因是配置不合理,组装电脑中普遍存在这个问题。由于装机者对市场上的电脑配件性能不是很清楚,对配件间的参数搭配细节更是模糊,这样组装起来的电脑一定有许多不协调的地方。笔者自己装过一台机器,前后解决了9个问题,性能才慢慢稳定下来。


主板和机箱不匹配。机箱后面的预留口与主板的各种接口的大小一般是是相吻合的,但如果机箱上的铜锣丝与主板的预留孔偏离,即便免强能装上螺钉,还是留下了后患。维修中碰到这样一台电脑,立起来黑屏,放平了就能正常。最后用锉刀将机箱后面的预留口扩大一些,让主板轻轻松松地躺在主板里面,原先那种讨厌的现象才算消失。


扩展卡与机箱不匹配。电脑的所有配件,外形尺寸都应该按标准进行设计和制造,但实际产品却往往存在偏差,导致扩展卡安装不到位,使用中容易发生倾斜,造成接触不良或信号短接问题。


电源供电能力与负载不匹配。由于电脑启动、执行程序都很正常,只是偶尔出现死机、重启动现象,一般很难想到会是电源供电不足的问题。系统中某些设备工作失常,例如一读光盘就死机、找不到U盘等,往往是电源供电不足的原因。一些微机电源的实际负载能力与标称值之间存在差距,而且瞬态过载能力也不够,当设备投入运行或插入新设备时,高于正常工作电流的启动电流将导致电源输出电压瞬间跌落,从而导致死机和重启动。因此,在对电脑超频或增加部件时,一定要考虑更换功率更大的电源。 


参数设置与配件性能不匹配,也是组装机普遍存在的问题,尤其是BIOS设置中的“Advanced Chipset Features(高级芯片组特性)”对系统稳定性影响极大,因为内存控制参数的选择与北桥芯片类型、内存条类型有密切关系。参数设置不当会造成两种结果:一是参数设置过于保守,不能发挥系统效能导致运行速度慢,二是参数设置过于冒险,系统工作在临界状态,因此很不稳定。


最后,外部因素也是导致偶发性故障的一个重要原因,这些外部因素通常是受污染的交流供电、过高或过低的环境温度、静电、潮湿、灰尘等。


我们知道了造成偶发性故障的诸多因素之后,在遇到电脑故障时,我们就会从这些方面去考虑。但是,有这么多种因素,我们该从何处入手呢?请继续看下面的内容。


二、从“诱发电位仪”到“诱发诊断技术”


永久性故障意味着电脑板卡或电路元件的永久损坏,通过观察法和替换法容易找到故障部位,但对于偶发性故障,判断起来就困难多了,因为维修者等待故障出现时,它却很久不出现。这种情况下,维修者该如何是好呢?笔者从医生使用诱发电位仪诊断心脏病的做法中得到了启示。


医生看病,难在诊断上,只有摸透病因,才能对症下药。中医虽有望闻问切的辩证论治思想和方法,但对某些疑难疾病也没有有效的手段,因此要走中西医结合的路子,说穿了,就是要借助于西医的生化、物理、放射等诊疗设备和技术。例如,可导致病人休克或心脏猝死的心律不齐和心室颤动这类心脏疾病,一直是医学上的一个难题。由于这种疾病发作没有规律,不仅难以捕捉疾病信息,更难确定病灶部位。不过,现在有了诱发电位技术,就能够对这种心脏病进行确诊了。医生通过一根导管在病人的心脏内放置若干条电极,然后向电极发送电信号刺激心脏,诱发出病人心律不齐或心室颤动症状,根据反馈的心电图便可确定引起心律不齐的病灶部位,最后对病灶部位进行射频消融治疗,症状即可消失。


电脑维修之难,同样难在故障诊断,要排除电脑故障,首先要对故障进行准确定位。电脑作为一个复杂大系统,由许多板卡和成千上万只元器件组成,当我们遭遇电脑的偶发性故障而一筹莫展时,如果通过改变电脑的某些工作条件,让电脑故障立即呈现出来,这跟医学诊断上的诱发电位刺激法不是有异曲同工之妙吗?


事实上,诱发诊断技术在工程上早就得到了应用,电子设备维修人员所采用升压/降压法、加热/冷却法、升频/降频法和敲击振动法等都属于诱发诊断术。本文的价值在于总结、归纳并提升了这些技术方法,阐明了诱发诊断技术的合理性和科学性,并使上升为一种理论。


三、诱发诊断技术及其应用


诱发诊断技术的优势在于迅速定位故障,提高维修效率。下面就把具体方法介绍给大家。


    ● 升压/降压法


升压/降压法是指升高和降低整机或部分电路的工作电压,使故障暴露的一种诊断方法。以CPU故障诊断为例,其工作状态与供电电压之间存在着间接关系,提升核心电压往往可使故障消失,而降低电压又能使故障再现。详情请见《微型计算机》2004年第1期文章“提升电压能增加超频稳定性吗”。除了CPU,电脑中还有其它对电压敏感的设备或配件,如内存条、显卡等,不少主板都能在BIOS设置中对这些部件的供电电压进行调节。


对于一些交流供电设备,可以使用调压器在设备供电许可范围内进行调节,例如某显示器的标称电压为100V240V,诊断时可在这个电压范围内调节供电电压,人为地形成恶劣的工作电压条件从而使处于临界失效状态的不稳定元器件承受不了而暴露出来。


    ● 升频/降频法


组装电脑时,应尽可能选择频率相匹配的板卡,如果各板卡的频率上限不同,在进行参数配置时只能“就低不就高”,否则就要出问题,组装机由“拉郎配”而导致的系统不稳定问题是普遍存在的现象。


avan写过一篇名为“电脑故障降频诊断法”(《微型计算机》2003年第17期)的文章,对组装机性能不稳定性的原因进行了剖析。作为组装机偶发性故障的一个有效手段,就是对电脑整机或局部进行升频或降频,让故障暴露出来。


    ● 加热/冷却法


某些机器开机正常,而工作相当长的一段时间后才出问题,关机休息一段时间后,电脑又恢复正常。之所以出现这种现象,是因为温度升高后某些元器件参数变化,致使整机工作失常。诊断这种故障时,可使用电烙铁或热风机给电脑可疑部位升温,让电脑故障重现,这样可以迅速地找到故障点。


在电脑主机中,CPU、北桥芯片和供电电路中的大功率晶体管工作电流大,功耗大,发热多。如果散热不良,可能造成温度过高,而使功能紊乱或因过热保护而停止工作。针式打印机的打印头温度也随工作时间的延长而升高,当超过极限温度(+100)时,打印机也会停止打印工作,进入保护状态。


一般说来,半导体器件的温度上限在+80度左右。如果手指接触到元件时会下意识地缩回来,说明温度已经很高了。可以用镊子夹上一小团蘸有无水酒精的棉球放在该元器件上面,观察电脑工作状态有无变化。如果这时恢复了正常工作状态,说明该器件散热不良,需要改善散热条件。


    ● 振动敲击法


振动敲击法是检查虚焊、脱焊等接触不良故障的有效方法。用橡皮锤或螺丝刀柄敲击机箱外壳或电路板,可以让虚焊或接触不良的问题暴露出来。此外用指尖轻压被怀疑的电路板,可以找到印刷电路断裂的地方。


   ● 干扰信号法


来自交流供电系统的有线干扰和空间的无线干扰,是电脑偶发性故障的外部原因。对于在电容兼容性方面有设计缺陷或工艺缺陷的电脑设备来说,尤其如此。由于电脑使用的场合干扰源相对稳定,完全可以采取相应措施对干扰信号进行屏蔽或消除,譬如在某些敏感部位增加屏蔽罩,或在交流输入电流增加EMC滤波器等。


为了测试电脑的抗干扰能力,通常使用手电钻、电吹风机等作为干扰源。使用电动设备作为干扰源,既存在有线干扰,也有无线干扰,可以一箭双雕。具体做法是,将手电钻电源与微机电源插头连接自同一个接线排上,反复开、关手电钻,观察电脑有无异常情况出现。


增加负载法


  

电源使用久了,元件老化会使负载能力下降。我家的电脑就有过这个毛病,电脑经常无故重启。开始不知道什么原因,杀病毒,重装系统,换内存条,都没有解决问题,折腾了一个礼拜。最终还是换了电源,电脑才恢复稳定。

除了元件老化的原因之外,不断增加配件造成电源力所不及,也是电脑故障的一个成因。如果去掉一些配件,故障就消失了。


按照这样的思路,如果怀疑电源负荷能力不足而导致一些故障,可以通过增加负荷的办法来消除疑点。如果增加负载(譬如多接几块硬盘)后,故障由偶发性变成常态化,就可以确定是电源的问题了。


上面介绍的几种诱发故障的手段,在实际维修实践中可根据故障现象和初步判断进行合理选择。


三、诱发过程中应注意的问题


诱发诊断技术是引发故障重现、快速定位故障点的有效手段,应用过程中需注意以下问题:


1)在进行故障诱发操作之前,要对电脑进行清洁处理,并将板卡的金手指擦拭干净后重新插回,排除接触不良的可能性。开机检查散热风扇运转情况,如果存在阻力大,噪声大的现象,应予以排除。


2)仔细观察故障现象,根据故障出现时机判断引起故障的可能原因,采取相应的诱发手段,避免盲目使用诱发手段。如果故障出现时机与开机时间长短没有关系,而与运行何种程序有关系,一般是频率问题,可以使用升频诱发手段。如果故障仅出现在用电高峰(全国各地用电高峰时间段有所不同,一般白天电压低,夜间电压高)而夜间很少出故障,可能是交流供电问题,可以用升压/降压的方法来重现故障。


3)如同做心导管检查存在一定的风险,诱发诊断术也有风险性。为了减少风险,在进行升压、升温诱发操作时,时间要短,不能发现故障立即停机,以防故障范围扩大。不提倡盲目地在大范围内逐个对元器件加热或冷却,低频、低压、低功耗的小信号电路一般也不宜采用升压和升温方法,因为这种电路因温度和电压出现故障的可能性极小。


4)并非所有的偶发性故障都可以通过使用诱发诊断予以发现,因为某些故障触发因素难以在人工环境中模拟或重现,例如宇宙射线干扰导致的偶发性死机故障。


五、诱发诊断技术是对付偶发性故障的手筋


本文开头谈及的那台“隔一段时间就重新启动一次”的机器,使用调压器对交流供电进行升压/降压试验,故障现象反复重现。原来,这台电脑对交流供电的适应性比较差,家里的冰箱压缩机启动时造成供电电压瞬间跌落,电脑受到干扰就重新启动了。要在家里继续使用这台电脑,电冰箱也不能搬走,就只有为电脑配一台稳压器或者UPS


那台“刚开机就死机,重启后过一段时间又死机”的电脑,通过对CPU外频进行升频/降频操作,暴露出内存条的问题,更换内存条,故障可以排除。如果不更换内存条,而将前端总线的频率由266MHz外频降至200MHz,故障也排除了。这样虽然性能上降低一点,但机器的性能却稳定下来,经过如此处理,用户很满意。


作为一个电脑医生,avan常用诱发诊断技术查找电脑故障,效果真不错!

PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
EE直播间
更多
我要评论
0
9
关闭 站长推荐上一条 /3 下一条