Allion Labs / Franck Chen 在 上一篇 文章中,我们大致介绍了目前主要的语音助理应用、未来发展趋势、潜在风险以及百佳泰的测试能量。本篇将分享评测结果与分析。 如同上篇所提到的测试规划如下: 语音助理响应速度与稳定度测试 语音助理执行率与正确率测试 – 简单情境 语音助理执行率与正确率测试 – 普通情境 语音助理响应速度与稳定度测试 测试情境 – 在电视主画面(Home Screen)下,按下 。 – 电视显示语音助理接口。 测试项目 从 “按下 ” 到 “电视显示完整语音助理接口” 之时间。反复执行操作,总计执行300次。 量测结果 结果分析 平均响应速度: ⇨ 表现最佳为 Amazon TV – Alexa , 是唯一低于反应灵敏建议值(1,000 ms)以内的组别,整体反应含UI呈现都相当灵敏与直觉。 ⇨ 表现最差为 LG TV – AI ThinQ , 许多数据已贴近或大于1,500 ms,达到足以令人察觉到有点延迟的临界值,其整体流畅度有待提升。 相同语音助理在不同电视操作系统之比较: 以Alexa为例,在Samsung TV上平均1,234 ms的表现远不及于在Amazon TV上平均446ms的表现,因此可以推断整体响应速度主要还是受到该电视效能与设计上的影响, 并非同一个语音助理系统在不同系统上的表现都会一样 , 消费者在选购时应特别留意。 语音助理执行率与正确率测试 – 简单情境 测试情境 – 在电视主画面(Home Screen)下,按下 唤醒语音助理。 – 语音输入“Go to YouTube”后等待10秒 – 按下 key回到电视主画面Home Screen。 测试项目 – 语音助理是否能正确唤醒。 – YouTube是否能透过语音助理正确开启。 量测结果 (300 次 ) 在使用百佳泰开发的 ACSTS 测试套件 执行测试下轻松得到测试结果,若是透过一般人工检测难以发现此潜在问题,更遑论取得关键log进行分析与改善。 结果分析 表现总评 ⇨ 表现最佳为 Samsung TV-Bixby/Alexa 。 每一个组别的语音助理执行率与正确率皆有达到要求95%以上,其中又以Samsung TV-Bixby/Alexa表现最佳,没有出现任何错误。 ⇨ 表现最差为 Amazon TV-Alexa , 总计出现了最多错误(6次),并且有连续4次发生“语音助理没有唤醒”的严重问题,绝对会让消费者有不好的使用体验。 相同语音助理在不同电视操作系统之比较 ⇨以Alexa为例,在Samsung TV上的表现优于在Amazon TV上的表现,同样呼应 之结果, 并非同一个语音助理在不同电视系统上的表现都会一样 。 ⇨可能影响的因素包含各家遥控器的收音能力、语音数据传输能力、电视系统/UI设计、抗干扰能力….等等因素而造成语音助理整体表现上的落差。 厂商在开发时不能只依赖语音助理本身的能力,而是要搭配使用者实际的情境应用做全方位的模拟测试。 问题摘要 Sony TV-Google Assistant 数次出现辨识到语音指令”go to YouTube”,但是下一刻却又无所适从的窘况。 Amazon TV-Alexa 出现几次语音助理启动后,却执行错误的问题。 仅执行上面简单的情境验证便产生了一些问题和差异化,以下透过复杂一点的使用者情境进一步实测,其结果会是如何呢? 语音助理执行率与正确率测试 – 普通情境 测试情境 – 将电视 关机后等待 5 分钟 – 将电视 开机后等待 30 秒 – 按下 按键,语音输入“Open Netflix”后等待10秒 – 按下 按键,语音输入“Go to YouTube”后等待30秒 → Go to 测试项目 – : 语音助理能正常唤醒、Netflix能透过语音助理正确开启…1stAccuracy – : 语音助理能正常唤醒、YouTube能透过语音助理正确开启…2ndAccuracy 量测结果 (100 次 ) 结果分析 表现总评 ⇨ 表现最佳为 Amazon TV – Alexa 、 Sony TV – Google Assistant 。 两者表现不分轩轾,开机后第一个语音执行正确率都有达到标准,而第二个语音执行甚至没有任何错误发生。 ⇨ 表现最差为 LG TV – AI ThinQ 、 Samsung TV – Bixby LG – AI ThinQ 第一个语音指令执行正确率仅有76%,第二个语音指令执行正确率虽有提升至82%,但距离标准95%仍有一大段距离。主要问题除了”语音助理没有唤醒”外,也发生多次”可进行语音识别,但执行结果错误”的问题: Samsung TV – Bixby 第一个语音指令执正确率只有 1% ,主要原因是即使在电视 开机后等待 30 秒 ,唤醒语音助理时仍然都显示为 loading 中的相关讯息而无法使用(左下图),导致第一个语音指令几乎全都失败。有时候即使已显示“Go on, I’m ready”的信息接口(右下图),但实际上没有辨识功能。 第二个语音指令执行正确率有大幅提升至 91% ,但因为发生了多次语音助理在有唤起的状态下(左下图),却发生无法辨识或无法执行的问题(右下图),让整体执行正确率仅剩91%低于需求的95%以上。 测试总结与目前排名 目前的排名由 Amazon TV-Alexa 取得领先,而 LG- AI ThinQ 则是处于落后局面。 进阶测试与分析 由于LG-AI 、SAMSUNG Bixby这三台在普通情境出现严重问题,基于实验精神,我们进一步将这三台做进阶测试以利分析原因。我们将 当中的” 将电视开机后等待30秒”延长至40秒及60秒进行验证。 结果分析 LG – AI ThinQ 将开机后等待时间延长至40秒、60秒后,无论是第一或第二个语音指令,整体正确率并无明显提升仍低于要求的95%。显示电视关机/开机后整体处理程序影响到了语音助理的功能性。 Samsung TV – Bixby 将开机后等待时间延长至 40 秒 后 ⇨第一个语音指令:语音助理loading时间过久的问题大幅减少,然而伴随而来的问题是语音助理无法识别语音, 造成整体正确率仍是 0% 。 ⇨第二个语音指令:语音助理无法辨识的问题大幅减少,但整体89%的正确率仍低于要求标准(95%)。 将开机后等待时间延长至 60 秒 后 ⇨第一个语音指令:语音助理loading时间过久的问题仅剩1次,然而伴随而来的是语音助理无法识别语音, 造成整体正确率仍是 0% 。 ⇨第二个语音指令:语音助理无法辨识的问题仅剩2次,整体正确率提升至97%合乎标准(95%)。 Samsung TV – Alexa 将开机后等待时间延长至60秒的情境验证在Samsung-Alexa ⇨第一个语音指令:发生了语音助理无法唤醒或是可进行语音识别,但执行结果错误的问题,造成 整体正确率同样是 0% 。 ⇨第二个语音指令:没有发生任何问题, 语音指令执行正确率大幅提升至 100% 由上述验证几乎可以得到一个结果即是,该Samsung TV无论是使用Bixby或是Alexa在关/开机后的第一次的语音助理功能皆有问题,对比Amazon TV-Alexa的实测结果,再次证明 并非同一个语音助理在不同电视系统上的表现都会一样 ,无论您是语音助理系统厂商或是电视制造商在开发阶段或是消费者在选购上都应特别留意此部分 。 还在为产品负评烦恼吗 ? 从以上简单的实验案例可以了解到,若要 执行精确量测 以及提早在产品上市前拦截 机率性严重问题 ,除了需要善用 自动化工具 外, 情境设计 也是至关重要的一环,两者缺一不可。