百佳泰/Blake Chu 现今 SSD 主流已从当初的 2.5 吋 SATA SSD 进化到体积只有一半不到的 M.2 NVMe SSD 。当体积越小,代表了速度将有明显地提升,延迟也会降低,而体积小的 SSD 也更能应用在更广泛的地方,如车载系统、亦或是未来 5G 架构系统的应用。 NAND Flash 为 SSD 内部担任储存数据的组件,一般来说,影响 NAND Flash 数据保存,除了抹写次数( PE/Cycle ),温度也是另一个因素;如在极端的条件下使用,在长时间与不同的温度变化也会对 NAND Flash 数据保存( Data Retention )造成影响。为何这两点会影响到 SSD 数据保存呢?我们简单概述一下 NAND Flash 基本原理。 NAND Flash 基本操作的主要三动作: 写入 、 读取 、 抹除 。 写入 : 数据在 NAND Flash 中是以电子形式( electrical charge )储存。储存电子的高低电位,取决于 Control Gate 所被施加的电压(图 1 ),当一正电压加于 Control Gate 时,传送电子通过第一个绝缘体进入 Floating Gate 内,当 Floating Gate 被注入负电子时,在位中 1 就会变成 0 ,此时为写入。 读取 : 当读取数据时,同样会在 Control Gate 施加电压,吸住 Floating Gate 里的电子,利用电流来感应 Floating Gate 里的电子数量,靠感应到的电子数量转换为二进制的 0 与 1 ,最后输出成数据,此时为读取。 抹除 : 当 Control Gate 加进负电压时,会将电子传送到 Floating Gate 外,而当负电子从 Floating Gate 移除后,位也就从 0 变回 1 ,此时为抹除。 图 1 随着读取、抹写次数上升,电子多次穿越将造成漏电情况,也就是电子无法维持在 Floating Gate ,而导致数据错误。此类型情况也会随着芯片制程提升( TLC ),导致薄膜层越薄,使电子穿越所能承受的次数变的更少。另一方面,当 SSD 处于高温下,也会影响电子的行为导致无法正确保存数据。针对上述情况, JEDEC 固态技术协会已对一般客户及企业订出了温度规范(图 2 ),可见温度对于 SSD 数据存储的影响不可小觑。 图 2 SSD 高温老化测试案例分析 由于车用乃至于工业用的 SSD ,特别注重数据保存能力以及可在高温下维持功能与性能(如延迟时间( Latency ))。百佳泰针对温度是否会对 SSD 数据保存( Data Retention )造成影响,特别挑选四个市面上常见 M.2 NVMe SSD 来进行高温老化测试,利用长时间高温加速老化,观察这些 SSD 在接近寿命终点时的情况。 在进行测试实验前,我们已将这些 SSD 维持相同的条件:已经使用过一段时间、并写入了大量的数据(写入数据内容依据 JEDEC 协会规范制定)。在确认 SSD 状态以及 SMART ( Self-Monitoring Analysis and Reporting Technology )皆正常后,将 SSD 断电放进烤箱,设置 4 种不同时间与温度进行测试。当完成指定的长时间温度测试后,再将 SSD 从烤箱取出,最终在测试仪器上执行 SSD SMART 检查以及全碟读取检查。 ( 图 3) 图 3 Phase 0: 40°C/24HR 第一阶段测试我们先用正常温度 40°C 来检视这 4 个 SSD 状态,作用于基准值并跟后续高温测试进行比较。从图 4 来看,经过 40°C/24HR 后, 4 个 SSD 在执行全碟读取检查的运行时间相差不大;但 SSD A 所需的时间较其他三个长一些。 另从全碟读取检查的指令响应时间统计百分比来看(图 5 ), SSD A 的延迟时间在 Rank B 区间较其他三颗稍多了些。 图 4 图 5 (Rank A 低于 0.5mSec ,代表延迟低,性能好;而当 Rank 高于 10mSec ,则代表延迟高,性能差。故 Rank 能集中在 AB 是相对好的 ) Phase 1: 125°C/24HR 第二阶段测试我们进入高温状态( 125°C )并连续 24 小时烘烤 SSD ,来观察 125 度高温是否对 SSD 有影响。从图 6 来看,经过 125°C/24HR 后, 4 个 SSD 在执行全碟读取检查的运行时间都因为高温而变长;而 SSD A 在这阶段的测试里所需的时间也相较于其他 3 颗明显变得更长,从结果判断得知 SSD A 会因高温而影响效率。 从全碟读取检查的指令响应时间统计百分比来看, SSD A 开始在 Rank C/D 出现些许延迟的现象; SSD B 也表现出轻微的延迟, SSD C & D 则未有明显的影响。到目前为止 4 个 SSD 尚未出现状态错误( SMART error ),或 command error 的情况发生。 图 6 Phase 2: 125°C/120HR 从 Phase 1 结果来看, 4 个 SSD 的性能尚未分出胜负。这一阶段,我们一样维持 125 度,但将时间拉长 5 倍到 120HR 观察。从图 7 来看,经过 125°C/120HR 后, 4 个 SSD 都因为长时间高温让执行全碟读取检查的运行时间拉长,尤以 SSD A 来看,所需的时间竟拉到了近 5 小时之高。 从全碟读取检查的指令响应时间统计百分比来看, SSD A 因在长时间及高温的状态下,呈现高延迟现象;相较于 Phase 1 的 Rank D 数据,竟达 12 倍之多的差距( 18.8% )。此外, SSD B 也不遑多让,延迟时间相对提升;而 SSD D 也在此时开始出现延迟的情况( Rank B )。 在这一阶段测试环节中, SSD C 全身而退,尚未出现任何影响。到目前为止 4 颗 SSD 也还未出现状态错误( SMART error ),及 command error 情况发生。 图 7 Final Phase: 150°C/168HR 从先前 3 个测项结果来看, 4 个 SSD 尚未出现状态错误( SMART error ),但已有两个 SSD 出现明显延迟,导致性能显著下降。为了测试极端状况并加速老化速度,在最后一项测试环节我们将温度提升至 150 度,时间拉长 7 倍,总共 168HR ,从中观察这 4 个 SSD 在极端条件会出现什么样的情况。 从测试结果中(图 8 )我们发现 SSD A 在烤完拿到仪器上开始执行全碟读取检查时就出现问题,除无法正常读取外, SSD 固件回报也呈现状态错误( SMART error )。而 SSD C & SSD D 则是在全碟读取检查撑了一段时间后才出现 error 无法完成读取,随后也出现 SSD 固件回报状态错误( SMART error )。在最终测试环节中,只有 SSD B 脱颖而出,能完成全碟读取检查; SSD A 、 C 、 D 在全碟读取检查过程均发生 command error 情况,只有 SSD B 未出现状态错误( SMART error )及无 command error 的情况产生。 图 8 测试总结 纵观上述测试,我们可以发现随着长时间与温度的增加,部分 SSD 在执行全碟检查时效率下降;其中 3 个 SSD 也因时间不断的拉长以及温度的提升最终导致因数据保存出现问题而产生读取错误的情况。从低延迟时间级距 Rank A 来看,随着温度与时间不断增加,造成延迟时间的情况也随之加深,并导致控制器纠错时间增加,响应时间拉长。 值得一提的是, SSD B 表现优异,除顺利通过长时间高温测试外,在全碟读取检查延迟时间也都保持在高水平之上,相对其他 3 个 SSD 可靠不少。 图 9 结语 经过长时间高温的严峻测试,大部分 SSD 已无法负荷而出现数据保存问题,然而,还是有 SSD 能通过严苛的测试环境。虽现今 M.2 NVMe SSD 会因体积及散热等问题出现资料保存错误情况,但还是可以透过原料控制,以及控制器固件调校技术,让 SSD 能在严苛的条件中执行存取任务,完整保留数据,维持数据正确性。除了本次的测试案例外,百佳泰也可依照客户需求,针对温度 / 时间进行客制化、阶梯化设置,为您的产品迅速找出极限点;并从所提供的详细测试报告中协助您改善产品弱点,提升市场竞争力!