原创 AI浪潮下的光模块可靠性 压力与挑战并存

2024-8-13 09:44 210 1 1 分类: 汽车电子 文集: 环境可靠性

        人工智能(AI)技术的快速发展对数据处理和传输提出了前所未有的挑战。在深度学习、自然语言处理和计算机视觉等AI应用中,训练和学习需要巨大的数据量传递和交互。2023年GPT-4模型所需训练的参数量有1.8万亿,要完成这么大的数据量的运算,需要上万个GPU同时工作。如此庞大的数据传输对于传统铜缆而言是个巨大的挑战,因此光模块在数据传输中发挥着非常重要的作用。光模块在AI和数据中心中负责数据的转换,将1bit的电信号转为光信号,把1bit的光信号转为电信号。400G模块,能转换0.4T bit,800G光模块,转换0.8T bit,以GPT-4的训练参数计算,完成一次计算所需要调用的光模块数量就可能多达数万。而随着大模型的不断进化和训练参数的急速增加,对光模块的需求量只多不少。


AI场景对光模块的故障率要求

         因为训练数据量大,所以AI场景架构采用GPU运算更合适,这与传统的数据中心的服务器类型有所区别。CPU是串行运算,通常有较少的核心(一般在2到32个核心之间),每个核心都非常强大,适合执行复杂的单线程任务,适用于传统数据中心的串行结构。GPU是并行运算,拥有大量的核心(数百到数千个),每个核心较简单,适合执行大量的并行任务,因此更适用数据量超大的AI场景。传统的数据中心结构,是基于串行方式的,对时延的要求虽然很看重,但不像AI场景中对时延的苛刻要求。并行任务的结果就是成千上万的并行数据要传输,整个数据的完成是以时延最大,最慢的那个bit为准的。其他再快也不行。


        光模块的故障率比传统的电学芯片的要高很多很多,光模块选择热插拔,也是因为光学器件的故障率很高,用热插拔方便维修和更换。传统的数据中心,光模块对于故障率的要求比传统通信更宽松,少量的故障并不会影响到整体的运行传输,所以遇到光模块故障后及时更换就可以了。但对于基于AI的这种场景就不适用,大数据量的并行计算,而且不是实时保存的。如果有任何一个数据传错了,那么整体要重来,重新计算一遍。中国移动也曾提到当前人工智能中主流万卡集群的GPU网络每月最大会发生上千次闪断,其中34%是与网络相关。其中每年大概会有60次左右的光模块故障导致的训练中断,而且故障定位也通常会需要数天到数十天之久。所以光模块失效率高会导致大的丢包率和维护成本,从而给设备服务商带来巨大的运营压力。因此在AI场景中对光模块可靠性的要求非常苛刻。

图1 AI大模型中丢包率导致训练所需时间增长


AI场景光模块的可靠性问题

        综上所述,对于传统数据中心而言,一般会把可靠性的要求放宽,是因为通常在实际部署中,数据中心的树形网络结构是配置了冗余的,从而这此前提下放宽了对模块故障率的要求。冗余越大,有更多的节点可以实现业务传输,光模块的失效率略大一些是不影响整体通信的。因此传统数据中心的光模块,有很长一段时间,是非气密封装,因为非气密封装,故障率会高一些,但成本也会下降很多。


        但AI大模型与传统数据中心不同,AI场景所采用的并行计算,如上一节所讲,对故障零容忍,对光模块的稳定性要求极高。因此,非气密封装已经不能满足可靠性要求了,各家厂商又开始使用气密封装降低失效率。光模块中产生的可靠性问题主要是光器件失效引起的,包括激光器、探测器和其他元器件,其中激光器失效最高。阿里曾经做过统计,在光模块众多的元器件中,超过90%以上的失效是与激光器相关的。

图2 阿里统计的光模块各元件失效占比统计


         光模块自身已经面临非常高的可靠性风险了,然而光模块从400G、800G发展到1.6T,模块功耗随着芯片功率、射频损耗,DSP补偿等迅速增加,功耗增加提高了光模块实际的工作温度,同样也使得光模块寿命急速缩短,可靠性急剧下降。光模块温度升高,激光器芯片的发光效率降低,废热更大,也会带来可靠性风险。

图3 功耗增加机柜温度升高可靠性下降


        现行可供参考的可靠性标准如GR-468,一方面从标准提出到现在已有二十余年时间,另一方面该标准是作为通信用光电子器件的可靠性标准,对AI场景并不适用。近年来,大模型使用方以及光模块厂商都对光器件提出了更严格的可靠性要求。在2023年CIOE上,阿里提出了自身对于光芯片可靠性的认证要求,要求光模块FIT小于125,即有1000个光模块在工作,5年后,只允许5个出现故障。同时也对激活能Ea,和n做了限定,限定激活能 Ea=0.35,n=0。老化公式的n,是加速压力的指数,可以是电流,温度,或者湿度,关键取决于芯片设计里哪个因素的影响最大。以电流为例,如果n按照3取值,老化电流是工作电流的1.5倍,得出激光器工作寿命是10年。如果相同条件下n取为0,那么寿命就只有3年了。Ea和n都取最小值,会得到很小的加速系数,最终会计算出很大的FIT值,这样一来对可靠性的要求就更为苛刻了。

图4 可靠性中加速系数计算公式


如何提升光模块可靠性

         光模块的可靠性重点关注的就是激光器。激光器从发光原理、制造工艺来看,降低优化的程度有限,并不能完全达到电芯片的尺度,近期内也不会有颠覆性的技术改良大幅提高可靠性。对于光模块的可靠性控制重点还是在实际使用时的早期失效和随机失效,早期失效可以通过选用一定参数的加速老化进行剔除,老化的条件,时间都需要通过科学的计算,避免老化时间过短剔除不到位或者时间过长降低产品寿命。对于随机失效,目前有些方案如finisar等公司采用的备份激光器,通过增加多组激光器作为备用降低失效率,一个坏了立刻切到另一个好的激光器去工作,但是增加一组备份,成本、空间、功耗,又增加了很多难度。海思设计过一种智能光模块,通过实时监控光模块多种参数状态,采用大数据训练主动对光模块做预警,提前判断光模块即将失效,这要求厂家对自身产品数据要有十分全面的掌握。


广电计量光电器件可靠性分析

         光模块市场近两年随着AI浪潮的出现展现出了广阔的想象空间,但也给光模块的可靠性带来了更高的挑战。过去厂家不重视模块的可靠性,缺乏对产品的失效评估,而现在解决产品可靠性问题,将会是占领用户市场,打通产品从送样到批量供货的关键。


       广电计量是国内第一家完成激光发射器、探测器全套AEC-Q102车规认证的国有第三方上市检测机构,具备VCSEL、LED、APD、SPAD等激光器和探测器批次性验证试验能力,具有丰富的光电器件可靠性验证经验。在人才队伍上,形成以博士、专家为核心的光电器件测试分析团队,可以协助客户定制可靠性评估方案,建立准确的产品失效模型,满足客户在可靠性、失效分析领域的认证检测需求。


广电计量半导体服务优势

  • 工业和信息化部“面向集成电路、芯片产业的公共服务平台”
  • 工业和信息化部“面向制造业的传感器等关键元器件创新成果产业化公共服务平台”
  • 国家发展和改革委员会“导航产品板级组件质量检测公共服务平台”
  • 广东省工业和信息化厅“汽车芯片检测公共服务平台”
  • 江苏省发展和改革委员会“第三代半导体器件性能测试与材料分析工程研究中心”
  • 上海市科学技术委员会“大规模集成电路分析测试平台”

        在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证,并支持完成多款型号芯片的工程化和量产。

        在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近400份AEC-Q及AQG324报告,助力100多款车规元器件量产。

文章评论0条评论)

登录后参与讨论
我要评论
0
1
关闭 站长推荐上一条 /2 下一条