十一年弹指一挥间,当年同事口中的小强,现在已变成老何。这几年,曾多次被供应商问到一个问题:“何工,你们华为的TQC以前都是干啥的?都那么懂技术吗?”,每次我都感怀七年研发积累的技术功底,才让我有底气在采购领域,继续围绕着质量二字,不断深入浅出,越做越靠前。

66.jpg

从单板级失效分析开始


2007年4月,我来到2012实验室下的工艺技术研究部,主要从事单板级可靠性与失效分析工作,这是个什么性质的工作呢?

大家都知道我司是从网络设备起家的,俗称做“盒子”,那各式各样的盒子里面最重要的部件就是单板,单板一旦失效(挂掉),盒子基本也就废了。

一块单板上面往往有成百上千个元器件,密密麻麻地挤(焊接)在一起,在这样一个大前提下,单板失效的原因就太多了,比如:PCB(印刷电路板)及元器件来料不良、焊接问题、短路烧板问题、设计或操作引起的应力失效、现场漏水或盐雾引起的化学反应失效等,就连蚂蚁、蛇、鼠等入侵导致的设备故障也多次碰到。

而单板的可靠性问题分析起来更为棘手,因为它时好时坏,规律更难循。我亲历过一个匪夷所思的案例:2008年无线有个射频模块在网运行一年后开始出现偶发性失效,之后历时整整一年,项目组就像刑侦破案一样,绷紧神经,穷尽不同供应商、元器件和辅材组合进行试验验证,最终在高温密闭腔体条件下,找到根因并规避。

所以,新员工面对一块块的失效单板,往往是束手无策,只能在主管和老专家的带领下,学习产品知识、可靠性设计和失效分析方法、试验设备操作、经典案例、工作逻辑思维等,并在参与攻克一个个疑难杂症的过程中积累实战经验。

印象特别深的是,有一次专门请广州昆虫研究所的专家帮我们研究,为什么一种热带蚂蚁喜欢爬到设备中啃食导热材料,如何修改配方才能让它们失去兴趣。

刚毕业那几年,除了工作之外,最大的乐趣就是每晚混迹于小木虫等各大专业论坛,下载各种技术文档和培训资料来学习。回头看来,这种无目的性的涉猎,较为有效地拓展了自己的知识广度,也训练了自己对质量问题的敏感度。

知其然,还要知其所以然,更要防范于未然


2009年8月,有同事拿着一块失效的外购板卡来找我们部门帮忙分析,说供应商已经分析三个月了还没找到失效原因,并称国内已陆续有七十多个站点出现类似失效,真的是火烧眉毛了。我搭眼一看,咦?这不就是蔓延腐蚀嘛!

原来早在当年3月,我在实验室分析一块现网返还的失效单板时,发现在单板测试孔上,出现了许多大小不一的灰色圆圈,部分形状不规则,非常奇特。
恍惚想起以前查阅的一篇国外文献中描述过类似现象,于是一番翻箱倒柜终于找了出来。原来老外把这种问题称之为“Creep corrosion”——蔓延腐蚀,意思是腐蚀产物会不断蔓延、扩展的一种失效现象,七八十年代曾在元器件上出现过。

元器件级的失效模式,为什么单板上也会出现?带着这个疑问,我们与U国某大学、台湾某实验室合作开展了研究,发现当电子产品上的铜保护不足时(如器件的铜引脚、电路板铜线路等有裸露部分),如果这些电子产品所处的外界环境条件含有硫化氢,那么在一定湿度条件下,硫化氢就会迅速将裸露在外的铜硫化生成硫化亚铜,腐蚀物会随着湿度梯度的变化不断蔓延,最终造成短路失效。

虽然现象和根因很快确定,但知道问题不代表能解决问题。腐蚀源从何而来?市场风险如何评估?后续规避措施如何制定?

问题紧急,我们立即出差前往现场,在两个失效集中省份的十几个机房现场分析,也正是这次出差让我第一次感受到安装环境的复杂性:

有的机房位于十余层高的老旧民居上,却连个电梯都没有;有的在地下停车场内,一片漆黑、闷热难当;有的位于厕所、垃圾堆旁,周围臭气熏天(腐蚀源)。诧异的是有些综合环境尚可的机房也出现失效,这些机房内均放置了一种红色橡胶垫(作用相当于踏脚垫),十分可疑。我们借鉴某产品所用的密闭空间材料评估方法,反复验证,发现此胶垫在常温下就会释放出腐蚀性的硫化氢,高温条件则会大大加速这个过程。后来我们陆续在高端服务器机房中也发现,地板/墙壁使用的保温泡棉,有些牌号也会释放出危害性硫化氢气体,并造成设备腐蚀。

当时,公司正计划在存储服务器、高端路由器等产品上批量导入一种新的单板表面处理技术,其具有平整度好、可焊性佳、成本低等优势。但按照我们的研究结果,这种技术出现蔓延腐蚀的风险仍然不低,在视数据安全为生命的存储产品上,哪怕出现一例失效,对公司品牌的损伤都是灾难性的。

在部门领导的支持下,我们到公司质量部汇报,最终暂停了该技术的引入,我由此探索并制定了“环境气体腐蚀简易测试方法”、“密闭空间材料腐蚀性快速验证方法”等技术规范,并将部分非保密结果作为研究论文发布在国内外期刊上。

随后,通过技术化验,对机房保温泡棉选用进行了规范,总体上控制并降低了气体腐蚀导致的设备故障现象,获得了次年研发工艺技术论文大会的一等奖。

将质量管理前移、前移、再前移


随着公司采购策略转变为“质量优先”,我们不断主动走出去帮助供应商提升质量管理能力,尤其是华为提规格要求、技术复杂度高、质量影响大的定制件品类。之前的定制件质量管理可以说是“前端介入不足,后端检验过度”,具体表现在:在产品开发和小批量验证阶段参与度不足;在量产产品的质量检验上,与供应商存在较多重复项,拉长了交付周期;同时在专用测试装备领域的研究和投入较少。

2017年初,定制件供应商质量管理作为ISC战略预备队场景之一,从华技、终端各选取了2个关键定制件物料作为变革项目的试点,我所负责的双工器便是其中之一。

▲双工器外形实物图

要做质量前移那就要驻厂,每周至少有两天时间在供应商那里,跟供应商一起琢磨有没有可以改进的地方。

打蛇打七寸,双工器这个东东在制造过程中,有个很特殊的“调试”工序,占据了生产周期的30%、制造成本的35%,是产能和成本的双瓶颈。

这个工序是干嘛的呢?主要是通过上下旋动调谐螺杆、改变腔体内部的电磁场分布,进而将其通带、指标调到合格的过程。由于双工器上平均都有五六十颗调谐螺杆并存在交互影响,且调试过程中要不断读取网络分析仪的图谱,因此调试员的门槛很高,一般而言,培训一个合格的调试员至少需要3个月以上,且其调试效率与工作经验积累强相关。

▲双工器调试示意图

所以老调试员变成了行界非常吃香的一个技能岗位,其工资也是普工的2~3倍,于是夫唱妇随的夫妻工成为其特色,尤其在交付高峰期,行业经常出现争夺调试员的现象,造成用工成本激增,质量/交付可控性差。调试员如此抢手,甚至催生了多个以调试员为主的人力外包公司。

双工器质量前移团队通过与各供应商深入交流,发现近年来多个厂家也在尝试开发辅助调试软件,但终因软件和算法开发能力不足,未能形成规模应用。这时候公司大平台的优势体现出来:

双工器团队及时求助了2012实验室装备开发部,借助他们常年积累的丰富软件开发经验和强大算法实力,开发了一款全新的计算机辅助调试软件,并在试点供应商和产品上不断摸索改善。最终将原来只有专业调试员能看懂的“网络分析仪上的复杂图谱”,转化为“电脑显示器上的柱状图”,降低了新员工识图能力要求。

同时调试软件中内嵌算法,在调试的同时检测指标,并立即“提示下一步需要调试的螺杆位号和调试手法”,将原本需要丰富经验积累的过程简化,新员工培训周期由原来的3个月降低为3天,调试周期缩短15%,后工序测试通过率提升6%。

▲网络分析仪调试界面

2017年下半年,国内某客户某黄金频段集采项目,X供应商一次性招聘50名新员工并配套了这款辅助调试设备,将主力编码的双工器产能由240台/天提拉到1200台/天,稳定保障了交付。

项目组不断探索创新,还实现了远程厂验,缩短开发周期十余天,生产过程质量数据实时分析和预警,并在供应商生产过程中建立起数据分析和告警IT系统,已拦截二级物料和人员操作导致的批次性不良3起;同时,组织华为IQC团队对供应商质量检验人员开展培训和考试上岗,将“检验能力前移”,最终试点编码的生产失效率下降了70%,试点编码均达成免检标准。

当然,目前的试点还只是一个开始,后续采购技术质量认证部会联合公司相关部门一起,在更多供应商、更多物料上继续验证,不断完善丰富质量前移方法论。

采购是一个专业岗位,转眼自己做TQC也四年了,为了做好T(technical)和Q(quality),就要继续保持对技术的好奇心和求知欲,不断创造、坚持钻研,在平凡的岗位上,围绕质量,不忘初心。

原创: 何敬强 心声社区
本文来自《华为人》,转载请注明作者及出处。