tag 标签: AEC-Q

相关博文
  • 热度 1
    2024-8-13 09:44
    373 次阅读|
    0 个评论
    人工智能(AI)技术的快速发展对数据处理和传输提出了前所未有的挑战。在深度学习、自然语言处理和计算机视觉等AI应用中,训练和学习需要巨大的数据量传递和交互。2023年GPT-4模型所需训练的参数量有1.8万亿,要完成这么大的数据量的运算,需要上万个GPU同时工作。如此庞大的数据传输对于传统铜缆而言是个巨大的挑战,因此光模块在数据传输中发挥着非常重要的作用。光模块在AI和数据中心中负责数据的转换,将1bit的电信号转为光信号,把1bit的光信号转为电信号。400G模块,能转换0.4T bit,800G光模块,转换0.8T bit,以GPT-4的训练参数计算,完成一次计算所需要调用的光模块数量就可能多达数万。而随着大模型的不断进化和训练参数的急速增加,对光模块的需求量只多不少。 AI场景对光模块的故障率要求 因为训练数据量大,所以AI场景架构采用GPU运算更合适,这与传统的数据中心的服务器类型有所区别。CPU是串行运算,通常有较少的核心(一般在2到32个核心之间),每个核心都非常强大,适合执行复杂的单线程任务,适用于传统数据中心的串行结构。GPU是并行运算,拥有大量的核心(数百到数千个),每个核心较简单,适合执行大量的并行任务,因此更适用数据量超大的AI场景。传统的数据中心结构,是基于串行方式的,对时延的要求虽然很看重,但不像AI场景中对时延的苛刻要求。并行任务的结果就是成千上万的并行数据要传输,整个数据的完成是以时延最大,最慢的那个bit为准的。其他再快也不行。 光模块的故障率比传统的电学芯片的要高很多很多,光模块选择热插拔,也是因为光学器件的故障率很高,用热插拔方便维修和更换。传统的数据中心,光模块对于故障率的要求比传统通信更宽松,少量的故障并不会影响到整体的运行传输,所以遇到光模块故障后及时更换就可以了。但对于基于AI的这种场景就不适用,大数据量的并行计算,而且不是实时保存的。如果有任何一个数据传错了,那么整体要重来,重新计算一遍。中国移动也曾提到当前人工智能中主流万卡集群的GPU网络每月最大会发生上千次闪断,其中34%是与网络相关。其中每年大概会有60次左右的光模块故障导致的训练中断,而且故障定位也通常会需要数天到数十天之久。所以光模块失效率高会导致大的丢包率和维护成本,从而给设备服务商带来巨大的运营压力。因此在AI场景中对光模块可靠性的要求非常苛刻。 图1 AI大模型中丢包率导致训练所需时间增长 AI场景光模块的可靠性问题 综上所述,对于传统数据中心而言,一般会把可靠性的要求放宽,是因为通常在实际部署中,数据中心的树形网络结构是配置了冗余的,从而这此前提下放宽了对模块故障率的要求。冗余越大,有更多的节点可以实现业务传输,光模块的失效率略大一些是不影响整体通信的。因此传统数据中心的光模块,有很长一段时间,是非气密封装,因为非气密封装,故障率会高一些,但成本也会下降很多。 但AI大模型与传统数据中心不同,AI场景所采用的并行计算,如上一节所讲,对故障零容忍,对光模块的稳定性要求极高。因此,非气密封装已经不能满足可靠性要求了,各家厂商又开始使用气密封装降低失效率。光模块中产生的可靠性问题主要是光器件失效引起的,包括激光器、探测器和其他元器件,其中激光器失效最高。阿里曾经做过统计,在光模块众多的元器件中,超过90%以上的失效是与激光器相关的。 图2 阿里统计的光模块各元件失效占比统计 光模块自身已经面临非常高的可靠性风险了,然而光模块从400G、800G发展到1.6T,模块功耗随着芯片功率、射频损耗,DSP补偿等迅速增加,功耗增加提高了光模块实际的工作温度,同样也使得光模块寿命急速缩短,可靠性急剧下降。光模块温度升高,激光器芯片的发光效率降低,废热更大,也会带来可靠性风险。 图3 功耗增加机柜温度升高可靠性下降 现行可供参考的可靠性标准如GR-468,一方面从标准提出到现在已有二十余年时间,另一方面该标准是作为通信用光电子器件的可靠性标准,对AI场景并不适用。近年来,大模型使用方以及光模块厂商都对光器件提出了更严格的可靠性要求。在2023年CIOE上,阿里提出了自身对于光芯片可靠性的认证要求,要求光模块FIT小于125,即有1000个光模块在工作,5年后,只允许5个出现故障。同时也对激活能Ea,和n做了限定,限定激活能 Ea=0.35,n=0。老化公式的n,是加速压力的指数,可以是电流,温度,或者湿度,关键取决于芯片设计里哪个因素的影响最大。以电流为例,如果n按照3取值,老化电流是工作电流的1.5倍,得出激光器工作寿命是10年。如果相同条件下n取为0,那么寿命就只有3年了。Ea和n都取最小值,会得到很小的加速系数,最终会计算出很大的FIT值,这样一来对可靠性的要求就更为苛刻了。 图4 可靠性中加速系数计算公式 如何提升光模块可靠性 光模块的可靠性重点关注的就是激光器。激光器从发光原理、制造工艺来看,降低优化的程度有限,并不能完全达到电芯片的尺度,近期内也不会有颠覆性的技术改良大幅提高可靠性。对于光模块的可靠性控制重点还是在实际使用时的早期失效和随机失效,早期失效可以通过选用一定参数的加速老化进行剔除,老化的条件,时间都需要通过科学的计算,避免老化时间过短剔除不到位或者时间过长降低产品寿命。对于随机失效,目前有些方案如finisar等公司采用的备份激光器,通过增加多组激光器作为备用降低失效率,一个坏了立刻切到另一个好的激光器去工作,但是增加一组备份,成本、空间、功耗,又增加了很多难度。海思设计过一种智能光模块,通过实时监控光模块多种参数状态,采用大数据训练主动对光模块做预警,提前判断光模块即将失效,这要求厂家对自身产品数据要有十分全面的掌握。 广电计量光电器件可靠性分析 光模块市场近两年随着AI浪潮的出现展现出了广阔的想象空间,但也给光模块的可靠性带来了更高的挑战。过去厂家不重视模块的可靠性,缺乏对产品的失效评估,而现在解决产品可靠性问题,将会是占领用户市场,打通产品从送样到批量供货的关键。 广电计量是国内第一家完成激光发射器、探测器全套AEC-Q102车规认证的国有第三方上市检测机构,具备VCSEL、LED、APD、SPAD等激光器和探测器批次性验证试验能力,具有丰富的光电器件可靠性验证经验。在人才队伍上,形成以博士、专家为核心的光电器件测试分析团队,可以协助客户定制可靠性评估方案,建立准确的产品失效模型,满足客户在可靠性、失效分析领域的认证检测需求。 广电计量半导体服务优势 工业和信息化部“面向集成电路、芯片产业的公共服务平台” 工业和信息化部“面向制造业的传感器等关键元器件创新成果产业化公共服务平台” 国家发展和改革委员会“导航产品板级组件质量检测公共服务平台” 广东省工业和信息化厅“汽车芯片检测公共服务平台” 江苏省发展和改革委员会“第三代半导体器件性能测试与材料分析工程研究中心” 上海市科学技术委员会“大规模集成电路分析测试平台” 在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证,并支持完成多款型号芯片的工程化和量产。 在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近400份AEC-Q及AQG324报告,助力100多款车规元器件量产。
  • 热度 5
    2024-3-19 11:45
    681 次阅读|
    0 个评论
    2022年8月汽车电子委员协会(AEC)正式发布了AEC-Q102-003光电多芯片模组(OE-MCMs)的认证标准。Q102-003标准颁布的目的是在AEC-Q104多芯片模组的基础上对含光电多芯片模组的实际测试细节进行规范指导,满足目前逐渐增加的光电模组的认证需求。主要面向的对象是矩阵前照灯、智能RGB led及红外传感器(重点是激光雷达模组)等产品。 认证范围 AEC-Q102-003中定义的OE-MCMs是由至少包含一种光电器件的多个有源或无源器件组成,这些子组件通过焊接或胶粘方式相互连接到线路板上构成复杂电路封装在单个多芯片模组内。构成模组内的子组件可以是封装(例如塑封)和/或者未封装(例如裸芯)的形态。从标准规范、测试认证、商业和维护的角度考虑,多芯片模组在认证上是不可分割的,因此需要注意的是,如果产品仅以OE-MCM的形式通过认证,则模组中的任何单个子组件都不能被视为通过AEC认证。 OE-MCMs的主要目的是检测光信号或发射光信号,但有一些OE-MCMs是利用其自身内部光电信号功能(例如,光耦、光栅传感器)。标准中给出了OE-MCMs五种常见类型分类,见下图1,具体如下: · Type A 由不同家族光电器件组成MCM模组(例如红外线反射式光电开关)。 · Type B 由不同家族的光电器件组成,这些光电器件不是用来作为光信号的输入、输出,只是利用其内部的光电信号功能(例如光耦、光栅传感器)。 · Type C 由光电器件与其他IC器件组成(例如RGB LED灯)。 · Type D MCM或PCB上的光电器件和其他芯片不可分割组成(例如矩阵式LED头灯)。 · Type E 包含光电器件的IC封装(CMOS传感器)。 · Type F 带有光电和其他子组件的PCB或基板,但不被作为单独个体,被用于直接连接到电路板(例如,通过焊接或胶粘方式)作为组件出售(例如,脉冲激光模组)。需重点说明的是,在实际情况下可能会很难明确产品是否符合该类型,需要兼顾产品的实际使用情况,客户需求进行灵活调整。 图1 OE-MCMs五种常见类型分类 OE-MCM认证流程 OE-MCM的认证应覆盖所有子组件的失效、组件到基板的连接性能及子组件之间相互作用构成的失效。因此,OE-MCM的认证除了所有子组件需要进行的必要测试外,还需要补充一些额外的测试,各子组件中一些相同的测试可以同时进行或者替换。完整的一套认证流程如图2所示: 图2 OE-MCM认证流程 · Step1:针对一个完整OE-MCM创建超集认证测试如图3。如果OE-MCM中至少包含一个IC集成电路,Q100测试应该是测试超集的一部分。如果至少包含一个分立半导体器件,Q101测试应该是超集的一部分。同样的方法也适用于光电器件(Q102),MEMS器件(Q103),无源器件(Q200)和其他未来可能会发布的元件组。在此之外,还需要有针对整个OE-MCM模组的特定测试,如板级可靠性、X-Ray和超声波扫描。 · Step2:将测试超集中相同失效机理的测试项合并为一组。 · Step3:评估每一组是否可以用一个测试条件和时间覆盖所有的测试项目。如果可以就只进行这一项测试。这里要注意,测试条件不得超过模组产品规格书宣称的范围。 · Step 4:可以使用通用数据和来自子组件级认证测试做替代测试。例如,可以使用其他封装的AEC-Qxxx测试的通用数据,但与封装相关的测试认证仍然必须在OE-MCM级别进行完成。如果在完整的OE-MCM中不能处理和测试所有子组件功能,可以优先考虑在子组件级别进行测试,然而,子组件级别的测试可能无法检测出不同子组件之间相互作用产生的失效机制和可靠性问题。子组件级的测试并不能完全排除供应商在OE-MCM中可能存在的风险和确保子组件可靠性的责任。因此还需要进行其他额外测试,以排除不同子组件之间可能出现的相互作用,包括: 1)均匀或非均匀热应力; 2)机械应力; 3)来自LED辐射产生的光电流; 4)与来自OE-MCM挥发有机物质反应。 · Step 5: 在OE-MCM级别上执行未在步骤3和4中省略的所有超集测试。 图3完整OE-MCM超集图示 超集创建注意事项 光电多芯片模组内子组件种类繁多,图3中的超集图示也不能完全涵盖所有种类。例如,AEC-Q103在超集中没有被提及。如果OE-MCM包含MEMS子组件,应以同样的方法创建超集并考虑AEC-Q103测试。同样,后续AEC-Q标准持续更新新项目也应同理纳入超集认证范围。 一些测试只适用于AEC-Q标准中的某些组件类型。例如,AEC-Q102中的低温工作寿命试验(LTOL)只适用于激光组件,不适用于LED组件。在这种情况下,不含激光组件的OE-MCM不需要考虑AEC-Q102 LTOL。每个AEC标准都会不时地更新,这可能会对超集产生影响。供应商和用户在制定综合鉴定测试计划、数据展示和超集模板时应使用标准最新的有效版本。每个标准都可在http://www.aecouncil.com单独下载。在测试中,可以根据实际情况调整OE-MCM的具体测试条件。例如,由于热限制或OE-MCM的设计概念,可能无法同时操作D型OE-MCM的所有LED模具(像素)。具体的测试条件和变化需经过供应商和用户双方达成协议并详细记录实验数据。 失效判据 1)不符合OE-MCM规范。 2)整体OE-MCM以及每个单独的芯片性能和光参数(如通量,颜色,亮度)的漂移超出允许值。 3)对于一些OE-MCM (例如,用于高分辨率前灯矩阵功能的led),额外失效标准可由供应商和用户双方协商确定。 样品数量 认证所需样本数量在超集定义文件中有明确规定,具体超集文件可从http://www.aecouncil.com下载。对于非常复杂的OE - MCM(例如,用于非常高分辨率前照灯矩阵功能的led),受成本因素影响,在供应商和用户之间的达成协议的基础上,样本数量可以从3 x 26个减小到3 × 10个。此外,对于复杂性非常高的OE - MCM,根据供应商和用户之间的协议,测试ELFR的样本量也可以减少,数量由供应商和用户确定。 广电计量服务优势 ●测试能力全:覆盖现有发布标准类测试和客户所需定制化的测试,满足不同测试需求。 ●测试经验丰富:专业测试团队由技术专家和资深测试人员组成,具备成熟的测试分析和开发能力。 ●专业测试场地和设备:既有标准化专业测试场地,也有个性定制化公开道路,测试场景丰富,可全面、高质量完成测试任务。
  • 热度 7
    2022-12-22 17:10
    1935 次阅读|
    0 个评论
    集成电路工程化量产测试 贯穿四大产业链环节
    集成电路测试贯穿芯片设计、制造、封装、测试和应用等产业链大环节。 集成电路tape out(设计完成)之后会进入芯片工程化,进而进入小批量测试,再到大批量量产测试,最终进行对市场量产并出售芯片。 为抢占应用市场先机,芯片公司普遍希望新产品能够快速推进从工程化到量产。因此如何在控制成本的前提下,提高测试质量、提高故障覆盖率、低成本地快速实现工程化量产、延长产品生命周期,是芯片公司在芯片设计完成后最关注的核心挑战。 这个测试的过程在行业内被称为集成电路工程化量产测试。 集成电路工程化量产测试技术概述 集成电路工程化量产测试是保证芯片设计符合性、产品质量、生产交付、推向应用等方面的重要技术手段,主要集中在封装前后的各测试环节,包括以下四个阶段: 1、CP工程化量产测试:晶圆级模块功能和性能测试 2、FT工程化量产测试:封装级产品功能和性能测试 3、SLT工程化量产测试:系统应用级功能和性能测试 4、RT工程化量产测试:产品级质量可靠性筛选 图1 集成电路工程化量产技术环节分类 集成电路工程化量产测试涉及晶圆测试(CP)、封装成品测试(FT)、应用系统测试(SLT)和产品可靠性测试(RT)过程中的关键测试技术。CP(Chip Probing,亦称WS(Wafer Sort) )是芯片在wafer阶段,通过ATE+Prober+probe card对裸芯片进行模块功能和性能参数测试。通常考虑高效的测试模式,对各模块功能进行覆盖性测试,同时考虑关键参数测试。FT(Final Test)是芯片在封装完成后进行的产品功能和性能测试,是产品质量控制的最后环节,通过ATE+Handler+loadboard检测并剔除制造缺陷和封装工艺等生产环节问题的芯片。要求覆盖产品功能和全管脚性能参数,重点考虑CP未覆的功能和参数。SLT(System level test)通常是系统级应用功能性测试,作为成品FT测试的补充。是在系统环境下进行测试,模拟芯片在实际应用的工作环境,来检测其好坏。RT(Reliability test )为确保产品质量等级,满足不同的工况应用要求,对产品进行相应等级的可靠性测试,如HTOL、ELFR、HAST、TCT等系列试验项目,通过摸底并综合选取适合等级要求的筛选条件进行测试。 广电计量积累了多年的可靠性测试方案设计能力,可针对老化方案开发、ATE测试开发、配套测试硬件设计、环境可靠性试验等进行全流程的定制化服务。 广电计量拥有一支经验丰富的IC工程化量产技术服务团队,拥有业界主流ATE测试平台和量产配套设备,满足各种芯片质量等级要求的温度条件测试。广电计量可提供各类芯片从测试方案开发、测试硬件开发、程序开发调试、工程验证、小批量量产到产品应用验证等全流程一站式的服务,同时提供高附加值的集成电路检测服务。帮助客户提升测试质量管控、提升量产良率、降低测试成本,实现高附加值测试价值目标。 图2 集成电路测试技术服务项目 图3 广电计量工程化量产服务流程 广电计量积累了多年的可靠性测试方案设计能力,可针对老化方案开发、ATE测试开发、配套测试硬件设计、环境可靠性试验等进行全流程的定制化服务。 图4 广电计量集成电路可靠性服务 服务覆盖标准 通用标准:GB、GJB等 行业标准:IEEE、JEDEC、AEC等 客制标准:产品手册、详细规范、测试方案等 关于广电计量半导体服务 广电计量在全国设有元器件筛选及失效分析实验室,形成了以博士、专家为首的技术团队,构建了元器件国产化验证与竞品分析、集成电路测试与工艺评价、半导体功率器件质量提升工程、车规级芯片与元器件AEC-Q认证、车规功率模块AQG324认证等多个技术服务平台、满足装备制造、航空航天、汽车、轨道交通、5G通信、光电器件与传感器等领域的电子产品质量与可靠性的需求。 我们的服务优势 1、配合工信部牵头“面向集成电路、芯片产业的公共服务平台建设项目”“面向制造业的传感器等关键元器件创新成果产业化公共服务平台”等多个项目; 2、在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证; 3、在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近300份AEC-Q及AQG324报告,助力100多款车规元器件量产。