热度 27
2013-3-27 15:35
2761 次阅读|
11 个评论
国家兴亡匹夫有责,从神九用到 CAN 总线讲起( 5 )逃不掉的严要求 这篇文章要介绍现场的环境是如何恶劣,即使用屏蔽电缆,也会出很多错。另外,要看看别人是确定了什么样的数值界限。你看了之后就会觉得充耳不闻、视而不见、自欺欺人是不智的。 CAN总线即使有不安全的隐患,但是否在可容忍的界限内?要回答这个问题,必须要弄清楚现场会多恶劣,其次,可多大的失效概率是容许的界限。 从功能安全的角度,一个系统功能失效(它会造成人身和财产严重损失)的概率应该小于10-7/h。考虑到系统内部件的总多,分配给通信息系统的失效概率是10-9/h。这是与风险大小/当前由技术水平决定的投入的成本之比有关所作出的判断。当每小时有1千万辆车在开时,每小时10-7次故障意味着每天要有24辆车出或重或轻的车祸,也许死更多的人。中国今天的车保有量是1亿2千万辆,想想吧! 常识告诉我们电磁环境恶劣时干扰多,误码率就高,失效率就高。所以讨论容许的误码率就一定要先说在什么环境之下。 误码率的统计是以一段时间内出现错误的个数除以总的传送的码的个数,这里统计的时间长度又对统计的结果有很大的影响。这是因为干扰并不是均匀分布的,例如雷击时的干扰就比晴天要多,(还记得2011-7-23动车组出轨那天的雷击吗,碰巧那里的CAN总线也出了问题),在工业环境里开关一个感性负载时比该负载运行时干扰大。如果在传送中正好碰到负载切换,以一帧长度来统计误码率就会很大,但是如果一小时内只有开关了一次负载,那么按一小时来统计误码率就会很小,绝对的错数被大大摊薄了。 在通信通道的错误的模型上,就把这种情况以好坏二种状态来表示,一个通道可以用一种概率处于好的状态,以另一种概率处于坏的状态,上面所讲的雷击或感性负载开关的时候就是坏的状态。 那么选多长的时间统计是合理的?这也要看干扰的性质与要对付的失效的性质。 这是对感应耦合干扰的实验结果: FEI REN,“PERFORMANCE IMPROVEMENTS OF AUTOMOBILE COMMUNICATION PROTOCOLS IN ELECTROMAGNETIC INTERFERENCE ENVIRONMENTS”,A THESIS Presented to the Faculty of the Graduate School of the UNIVERSITY OF MISSOURI-ROLLA, 2007] http://scholarsmine.mst.edu/thesis/pdf/Ren_09007dcc80487aed.pdf 图中数据帧的长度为0.22ms(有4个帧多点),干扰由测试设备隔离的独立的电池经开关通断一个在车中常用的继电器产生,它的电线与CAN电缆松散地平行放置,长度各为2米,开关为每秒切换二次,平均地说每次切换会引起0.49ms的干扰(the average length of EMI is 0.49 ms.)。他统计的是收到帧中真正出了错的bit数(When receives frames, if any errors occurs in this frame, the receiver node can record the number of errors, and then request retransmission. The bit error rate can be gained by dividing the number of errors by the total number of received bits.)。 由这个实验可见,干扰发生在有负载切换的时候;它可以很密集,甚至在一个帧内有多次误码。 下表是他用屏蔽电缆的实验结果,他认为在实验中没有数据丢失(表中写为 100% ),但是实际收到的还是有差别,例如在 2 米线时作 40 次开关干扰时( 20 秒内 40 次坏状态),少收了 2bps ,即丢 2/904861=2.2*10 -6 。又如开关 60 次时( 20 秒内 60 次坏状态)少收 4bps ,可见误码数与干扰概率的比例关系,即每次坏状态时的误码率是相近的。由每次开关干扰长度 0.49ms 计,坏状态占运行状态的概率分别为 2*0.49ms/1s=1*10 -3 和 3*0.49ms/1s=1.5*10 -3 ,因此可推出坏状态时的误码率分别为 2.2*10 -3 和 2.9*10 -3 ,所以即使是屏蔽电缆,坏状态时误码率也是很高的。注意,我从他的实验结果得到了与他不同的结论。 抛开学术上分类方法的讨论,这里讨论二类通信失效:如果误码引起的错可以被通信协议的查错规则发现,那么误码率的影响就反映到帧出错的概率,只要一个帧的出错概率小于 1 ,那么总有成功送达的帧。 如果误码引起的错不可以被通信协议的查错规则发现,那么误码率的影响就反映到错帧漏检的的概率。错帧漏检率是非常重要的指标,因为人们为了节省成本与时间,不想再添加其他检验措施,而认为只要通信协议检验通过了就可以直接用,或者因受系统的别的约束,难以采取其他补救措施(我在文( 10 )中将讨论这一点)。 这种严格要求来源于系统可信赖性( system dependability )的分析。系统可信赖性分析时把故障分为能检测出的和不能检测出的二类。能检测出的故障往往可以采取措施,使系统回到安全状态,而不能检测出的故障则无法采取措施,它的概率就百分之百地算到系统失效概率中去了。 所以,涉及安全时就要考虑一帧长度时的误码率。如果有帧的多次多通道的重复传送,以解决正确帧和漏检错帧的拜占庭错时,容许一帧有错帧漏检,可以放宽误码率的要求。 我们看看有关的通信协议是如何处理误码率数值的: PROFIsafe System ( 2010 年版)中提到他们为保证错帧漏检的贡献小于 10-9/h ,选择额外的 CRC 时要对付的误码率是 10 -2 。 见: PROFIsafe System Description ( p.10 ) http://www.profibus.com/nc/downloads/downloads/profisafe-technology-and-application-system-description/download/9594 For the transmission, PROFIsafe is allowed a mere 1% contribution, meaning that the permissible probability of dangerous failures is 10-9/h. This permits suitable CRC polynomials to be deter- mined for the intended PROFIsafe message lengths. The resulting residual error probability of undetected corrupted PROFIsafe messages at a maximum bit error probability of 10 -2 guarantees the required order of magnitude. 在 CAN 协议错帧漏检率的分析报告中( p.9 ),他们计算实例时采用的误码率是 2*10 -2 。 见: J. Unruh, H.J. Mathony, K.H. Kaiser: "Error Detection Analysis of Automotive Communication Protocols". SAE Int. Congress, No. 900699, Detroit , USA , 1990 。 可见误码率为 10 -2 是一个合适的界限,就是坏的状态时的误码率界限。如果通信系统处于坏状态的概率定为 10 -3 ,那么平均的误码率就只相当于 10 -5 了。 中国古语说取法于上得乎其中,取法于中得乎于下,所以你如果真的想赶上国外的先进水平,就不能懈怠了。你看,CAN已经尽力想达到这样的要求,但仍未达到,可见得乎其中了。 有朋友告诉我,他印象中,误码率 10 -4 已经很坏了,现场恐怕只有 10 -8 ,不会达到 10 -2 吧。这一方面是因为没有区别统计误码率的时间长短的结果,另一方面把干扰源低估了。有些干扰源可以加措施于以削弱,但是有些干扰源是无法预防的,例如雷击、人为攻击。我们设计的系统可能在雷雨区、雷雨季节使用,可能在电磁战的战场使用,你就必须考虑在高的误码率下存活。 有人喜欢玩弄辨论“技巧”,说这样要出事的话就是“不可抗力”的因素了,到时候当然是可以免责的。 2011-7-23 动车事故中有一段: 事故调查组检验测定,因雷击... 轨道电路与列控中心信号传输的 CAN 总线阻抗下降,导致 5829AG 轨道电路发送器与列控中心通信故障。 那是硬件有损的查得到的证据,如果雷打不得不那么大,设备没损坏,但已经出了许多误码,而由于隐患而软件出错的证据就难查了,所以必须在认证的阶段查实。 对于强的现场干扰(有电磁辐射的无线电站附近,高压线附近),运载工具还要用;雷电发生时你也可能在运载工具中,你仅希望自己不中“头彩”而不顾及不幸“中彩”的人吗?你能免除你心灵上的责任吗?当敌人采用电磁攻击而我们的设备不敌时,那些保卫我们的战士就危在旦夕,我们自然也危在旦夕,你能免除国家兴亡之责吗?可见不同的取向反映了人责任心的不同。 这事没有人提出,没有办法解决,可以说“不可抗”,有人提出,不作研究,就不是“不可抗”而是“不作为”。