原创 如何排查电子产品在用户现场偶发的故障?

2016-5-3 07:51 4429 28 9 分类: 消费电子

工作中,不少朋友,几乎每位工程师,都遇到过电子产品在用户现场偶尔发生故障,如死机、复位、数据传输错误等。维修工程师在现场跟踪排查时,故障又不会再现,拿回实验室,怎么试验又都是好的。使人陷入一种无从下手的窘境。找到通用方法作为此类问题的解决思路,成了电子设计行业共同的问题。

自然科学领域的题目不容易解开的时候,束缚住了的思维难以突破,不妨跳出来,进入到社会科学领域,通过哲学、通过思维方法论来找到突破口。朱清时说过“我通过化学科学的方法好不容易解决了一个问题,却发现佛学早就在那个科学的顶峰等着我了”(本句话文责由朱清时老师负责)。

那面对偶发故障的问题,一个解决它的方法论或许就是类聚原理。

 

在日常生活中,有一种说法叫“物以类聚,人以群分”,意指不是一类人不进一家门。如果一个人很上进,跟他朋友圈里的亲密朋友基本也差不多都是上进类型的。因此推断一个陌生人是否上进,看他周围的朋友的状态就可以了。如果他周围的亲密朋友都很成功了,那他即使现在不成功,离成功也不远了,起码他的成功潜质很大了。绝对的潜力股。如果是这样一个相亲对象,赶紧抓住他,绝对的低价原始股。

当然,根据他的历史推断他的将来,也是有迹可循的,古人不是说“三岁看大,七岁看老”嘛,从他的现在看过去,从他的现在看未来,都是有一定道理的。虽然不敢肯定100%全对,但基本差不到哪里去的。关键是您也不是暂时没有别的办法了解他更多嘛。也只好死马当活马医喽,更何况这批马没死停当呢,还有得救。

 

同理,一个电子产品,它偶尔才发生故障,那您以为它不发生故障的时候,就会完全正常吗? 表面装得再若无其事,测谎器根据其生理状态的波动,也是能发现蛛丝马迹的异常的。测谎仪的测量指标是人的生理参数,那针对一台曾经发生过故障但现在正常的设备,测谎的指标则是——波形。一是这台设备正常工作时的波形质量,就会有信号隐患的特征;二是同类设备也很可能会有信号波形或数据隐患能被测和分析出来。

有隐患的机器,即使从性能上看暂时都没事,但其波形,也一定会有所偏差或波动或异常,只不过波形变异暂未超出导致设备工作异常的参数范围而已。我们去测隐患机器未发生故障时的工作波形,分析波形里隐藏的信息密码,就可发现问题的隐患和缘由。如下列举部分波形异常现象及其所对应的潜在隐患问题。

在讲波形异常及隐患分析之前,得先说清楚一个专业名词——电压容限。这是信号异常与否的关键。

对于数字电路(如图1),输出器件的信号分别为高电平(用VoH表示)和低电平(用VoL表示),这两个电平的电压都是一个允许的电压范围,只要在VoH范围内的输出电平,都认为是合理可接受的高电平,只要是VoL范围内的输出电平,都认为是合理可接受的低电平。同理,接收端能接受的高、低电平也是一个范围,分别为VIH和VIL,不同的是,VoH和VIH、VoL和VIL并不是相等的电平,而是有一个电位差Δ,这里的Δ就是电压容限。

数字电路里,我们所研究的器件参数选型计算、EMC、SI等技术措施,都是为了让从输出端发送出的电平信号,经历一系列的传输线缆衰减、空间辐射干扰耦合叠加、传输线信号反射、外界环境导致器件参数漂移、电源地线波动引起相对电平变化等等问题后,接收端所接到的信号电平,相对于输出端电平,都没超过Δ的允许波动范围。满足了这点,即便是有些外来干扰破坏,电路仍能照常工作。

1.jpg

图1 数字电路电压容限示意图

    对于模拟电路,也有一个电路精度要求,即电压容限值±Δ%(图2),设计中所要控制的,就是在任何的波动干扰下,模拟输出量都不能超出±Δ%的范围。

2.jpg

图2 模拟电路电压容限示意图

 

基于以上的理论基础,下面列举的就是常见的几种波动和作用机理了。

1、电源或地线的电平波动厉害

VCC波动低了,大部分时候并没超出Vcc的允差范围Vccmin,但在现场条件组合应力严重的时候,一下子给弄超了就可能造成误触发,刷寄存器或触发不期望的功能。这时通过测量Vcc波形,就可能发现(如图3)的波形,即使没低到足以触发问题的地步,但只要有类似症状,就有隐患,就必须在电源的稳定上做文章了。必须确保电源的最大波动范围距离临界值很远才把握。

3.jpg

图3

地线波动同理,可以通过测量地线上任意两点之间的波形,正常情况应该是一条基本接近于0V的平直线(如图4中红线),如果出现了向上的尖峰(图4红圈),则可能带来风险,因为地线上升,带来的就是片选信号、reset信号等敏感信号的电位差下降,Vreset-Vgnd小于了某个临界值,芯片就会当成一个复位低电平输入信号了。较常见的是给设备打+6000V静电接触放电时,地电平上被耦合或传导进去,极易引起复位就是类似道理。

4.jpg

图4

2、数据传输速率与传输线器件特性参数匹配不良导致波形变异

正常情况下,因为数据线过长、线间电容、接收端输入电容较大、导线上串入电阻较大、接收端输入端口防护器件结电容等的影响,会导致形成(图5)里的上图黑色波形。在速率比较低的时候,数据传输的正确率是能保证的。但当软件工程师不管不顾地加快数据传输速率时,会导致上升沿还未冲到接收端的电压容限值下端VHmin时,就不得不因为周期问题而走下坡路了,形成图5上图中的红色波形部分,最高点低于了VHmin值,接收端自然就读不到数据了。如果就是所有的都不正常了倒还好查找了,最担心的是处于导致波形在正常与非正常之间的传输速率临界点,就可能在现场偶发传输数据错误了。可能的现象是把导线剪短点、或换个小点的电阻值、或者拆掉个电容、或减少个终端,数据就会好了。

5.jpg

图5

3、波形出现回勾

回勾的波形如(图6),它的形成是因为导线有高频特性,可理解为小电感和小电阻的串联,而数字电路输入端口,又可以理解成一个Pin-Gnd的对地电容,以及一个输入跟随器特性,走线的特性和器件的输入等效特性合并在一起,就有了如图6的电路特**。V4给出10MHz方波信号,右图上5点就可以测得接收左图回勾变异波形。

本实例虽然有回勾,好在回勾部分在上升沿时并未穿越VHmin限值,下降沿时也未触发VLmax限值,因此不至于引起信号质量问题。但如果导线特性参数和器件输入特征参数有变,导致回勾特性的上升沿上移了,或下降沿的回勾下降了,危险岂不大哉?

6.jpg

图6

 

按说写到这里,这个类聚原理的道理应该能说明白了。但是还有好几个常见的类似波形质量隐患问题,所以还是捺着性子写下去吧…

 

4、波形出现台阶(图7)

有时,我们会测量到(图7)或(图8中间图)中间平台形状的波形,这种是由容性负载与布线联合作用引起的。这种波形的危害在于,有的接收器件,接收到信号后,判别上升沿的方式是通过对上升沿作微分,然后根据微分后的尖峰阈值判读是否为上升沿。如果中间出现了平台,微分电路则会导致出现两个有一点时间间隔的尖峰。如果两个尖峰都很高,则会导致重复误触发;如果都低,则会无触发;这两种情况都导致错误。

(图8上图)为源端输出波形,是标准的方波;(图8下图)为导致(图8中图)平台波形的电路结构。该图为仿真效果。

7.jpg

图7

8.jpg

图8

5、波形有过冲

波形里常有过冲现象,如(图9)。如果振荡幅度不够大,不会经过VHmin和VLmax的限值,则万事皆无。但如果振荡的幅度超出了VHmin和VLmax的临界值,则可能会产生误触发,因为很多芯片是以上升沿中过VHmin的电平跃变做为上升沿触发信号,如果越界了,则有造成2次上升沿触发的风险。

导致这条曲线特征的是信号线或地线的走线感性特性与线间电容、器件输入电容、PN结电容等相互作用的结果。地线上的类似衰减性振荡波动术语叫“地弹”。

9.jpg

图9

6、电压跌落

电源线上有串电感或电容了,电源启动、负载启停的瞬间,因为电感的反向电动势、容性负载大电流导致的电源瞬间塌陷,都会有电源瞬间跌落的风险。如(图10)。这个波形在负载突然启动或突然掉点马上又上电的时候可能会发生。如果幅度大了,掉电的时间长了,极可能就有复位、刷E2存储器、误触发等风险了。

10.jpg

图10

以上描述了几种常见的可能导致电路工作异常的变异波形,其故障作用机理理解了仅仅是改善的第一步,下一步还需要理解是什么设计问题导致了这些波形的产生,是哪些特性参数影响到了变异波形的哪个参数?通过设计改善哪一点才能使这些变异不再发生或不至于导致问题成为显性故障? 这些都是未来的文章里要讨论的问题。

 

简单总结:就是遇到偶发故障问题产品了,即使手头没有该故障产品,或者有也激发不出问题来的时候,您就找完全相同设计的产品,查找怀疑器件的信号波形,如果都是特标准的波形,那就先暂时放过,如果稍有异常,就把它记录下来,随后仔细分析这些异常如果再大一点的话,有没有可能触发现场的偶发故障,如果是,那就针对这个异常波形改进设计,改进好了,让它远离激发故障的电平临界值了,偶发故障基本就很可能被根除了。这种原理就是类聚原理。由“一个大坏蛋的同伙至少一定也是个小坏蛋”的道理推演而来。

也许会有人问了,这么个有用的方法,这么有实际指导意义的原理,谁发现的呢?告诉您吧,是我!那名字为什么起类聚原理而不是群分原理或其它的名字呢?嘿嘿,瞎起的!希望对您有用就好。

文章评论7条评论)

登录后参与讨论

用户1018474 2016-6-20 13:24

good idea! tks

wuyeqing_363494696 2016-5-5 15:11

一步步来嘛,哪能一顿就吃够了呢,对不?

用户1244485 2016-5-4 09:39

武老师的这篇文章很有实践, 总结的比较全面了。 工程师生涯中也碰到过几次,调试的时候痛苦万分,最后发现就是信号质量的细微差别。 喜欢这种从实践中来,能解决问题的干货。 期待看到更多这种有质量的文章。

taipeirayon_606615363 2016-5-4 09:37

真是實用,找出問題點如果再給些解決之道就更好了.

用户1454308 2016-5-4 09:31

Good

用户1678053 2016-5-4 09:24

看看

wuyeqing_363494696 2016-5-3 10:52

实用

用户1536628 2010-7-20 14:46

致绮科技专业提供LED散热方案,美国BERGQUIST 授权一级代理商。有用于JED 行业替代传统导热膏的SIP-PAD800及900S,导热双面胶以及间隙填充料等。另有替代陶瓷板的铝基板、铜基板。如有需要敬请联evsz_liu@everfame.com.tw

用户1324522 2010-4-15 14:54

韩国毕竟与中国不一样。

用户1272672 2010-4-15 12:45

“对于换用LED照明灯的消费者,韩国将提供最高达50%的费用补贴。企业也可享受10%的税收抵免,以降低其安装成本”这种政策的确值得敬佩,有利于科技发展,科技进步,社会进步,我国是否也应采用类似方法呢?大概难以实现吧?!人家的长处的确值得学习,借鉴,
相关推荐阅读
武晔卿 2017-05-13 06:38
接地线缆的选型错误
无论是Ⅰ类设备(有PE保护接地Earth),还是Ⅱ类设备(浮地或整机浮地但有内部的金属板充作保护公共地使用的),常见一些与EMC与可靠性的接地线错误应用,因此导致EMI干扰,该泄放的高频干扰泄放不掉而...
武晔卿 2017-03-17 07:43
电磁兼容设计整改三要素分析:电压容限、高频特性、回流路径
深入浅出抓本质 电磁兼容公益讲座 讲解内容: l 打静电时会复位重启,复位端、地线端、电源端发生了什么?——电压容限 l 浪涌发生时,有防雷防护,为什么后面电路仍然坏?为什么有起火? ——失效机理 l...
武晔卿 2017-02-23 14:11
一个工程师风花雪月的事
一位新毕业研究生电子工程师A的故事。 研究生三年,小A一直暗恋本校另外系的一个女生,但又怯怯地不敢表白。做毕业论文的时候,在实验室里,心绪烦乱,幻想着她羞涩一笑中牵她手的样子,不由得偷笑出来。但一想到...
武晔卿 2016-06-29 10:42
对开关管损坏做失效分析的一种方法
        电路板工作中不可能不发生芯片或半导体器件的损坏,损坏后,要想从器件的尸体上发现其死因,并能知晓导致其死伤的应力和作用路径,自然就可以很容易的...
武晔卿 2016-06-29 10:31
电路及元器件故障探查及原因分析方法
        电路板上器件故障之后,哪里坏掉了?坏到了什么程度?怎么坏的?会因其隐蔽性而难以查找具体故障点,也因为对故障原因故障机理不清楚而导致无从下手,或者只能用倒推法,用逐个实验的方式,将各...
我要评论
7
28
关闭 站长推荐上一条 /2 下一条