tag 标签: 语音助手

相关帖子
相关博文
  • 热度 26
    2018-8-24 14:14
    2499 次阅读|
    0 个评论
    你的语音助手可以实现互联互通吗?
    在上一篇文章:「『你听懂了吗?』 语音助手的验证困难」中,我们提到了语音助手透过无线连接和语音辨识技术,不但能执行各种多媒体播放,信息搜寻,还能控制家中、办公室、酒店、校园等各种智能环境中的其他物联装置。总的来说,一台语音助手必须和其他产品兼容串联运作,才能称作是一台「智能」语音助手,例如要能够顺利透过路由器连网或是透过蓝牙同步连接手机。百佳泰根据语音助手互联互通的使用特性,设计了一套语音助手验证方案来测试不同语音助手的互操作性。在使用 6 台不同厂牌的语音助手,并搭配 20 台手机以及 20 台路由器进行串联配对实验后,我们竟发现了不少语音助手兼容性问题。我们认为,即使语音助手通过了 Wi-Fi 或者是蓝牙认证,当其跟市面上各式各类的产品进行串联时,仍旧会发生各类兼容性问题。因此,我们将会针对百佳泰 Wi-Fi 和蓝牙兼容性验证的测试结果,加以分析并阐述产品互操作性上发生的问题,包括延迟性,连接失败,不一致的用户体验和功能性问题,并更进一步提供建议和意见。 语音助手的常见应用面 在上一篇文章,我们提到了语音助手常见的三大应用面(信息搜寻、多媒体资源播放和智能家居控制),其中,以多媒体资源(例如:听音乐、广播电台等)应用最为广泛,技术也最为成熟。根据 Voicebot AI 报告( 2018/01 )显示,有超过 75% 的用户每个月都会使用语音助手来播放音乐。除此之外, Kim Bayley (英国娱乐零售商协会的 CEO )和 Geoff Taylor (英国唱片协会 CEO )联合撰写的报告也指出,有超过 80% 的使用者会利用智能语音助手听音乐( 2018/03 )。 图一:语音助手的应用(数据来源: Voicebot AI ) Wi-Fi 兼容性问题 智能语音助手可以透过使用 802.11 协定的 Wi-Fi 技术来连接多个音乐播放平台(例如:百度音乐、 QQ 音乐、考拉 FM 、喜马拉雅 FM 等)播放音乐及各类有声资源。然而,由于市面上各种类型的语音助手和路由器之间的搭配组合众多,不同的配对组合容易引起 Wi-Fi 互操作性问题。百佳泰挑选了市面上最流行的智能语音助手(例如:亚马逊、联想、小米、阿里巴巴等)与 20 款路由器(例如:苹果、谷歌、贝尔金、美国网件等)进行配对,发现了延迟现象以及连接失败等情况,而这些问题都是会降低品牌的用户满意度。 图二:「百佳泰全球设备资源库」路由器列表(数据库含括上千个不同测试平台) 延迟性问题 当语音助手接收到指令或要求时,它会先通过网路连接到它的数据库,然后再给出相应的答复。因此,百佳泰记录 6 款语音助手(分别命名为“ P, M, I, A, D, 和 L ”)透过 20 台不同的路由器(分别命名,从字母“ A ”到 “ T ”)连接云端数据库后,再播放 10 次指定歌曲的平均反应时间 ( 按秒计算 ) ,与此同时,我们还使用 ping 量测所有的路由器和语音助手之间的吞吐量。 图三: 6 款语音助手与 20 款无线路由器的兼容性测试 通过实验结果,我们发现在与不同的路由器连接时,智能语音助手“ I ”,“ A ”和“ D ”的平均吞吐量随着组合变化有较大改变。例如,语音助手“ I ”的平均吞吐量记录范围为 17.52 (Mbps) 至 149.66 (Mbps) 。然而当被测设备 ( 即语音助手 ) 以及测试台 ( 即路由器 ) 的距离增加时,该设备的平均吞吐量的区间范围下降至 4.25 (Mbps) 到 115.23 (Mbps) 之间;而语音助手“ D ”的平均吞吐量区间范围变化最大,大幅下降至 5.67 (Mbps) 到 235.06 (Mbps) 之间。必须注意的是,不同的吞吐量会影响被测设备的反应时间,终究会导致设备产生不同程度的延迟性问题 ( 即吞吐量越低,被测设备反应时间越久 ) 。 连接失败现象 除了上文提及的延迟性问题,语音助手与路由器间不良的互操作性也会导致各种连接失败的现象。例如,为了给用户提供一个良好的娱乐体验,品牌“ P ”的应用程序允许用户在同一个 Wi-Fi 网络下将他们的媒体资料从不同的设备(例如:电脑、手机等)串流到语音助手上。然而,在初始设置过程中,实验发现在接收到来自移动设备上的应用程序的连接请求后,路由器“ B ”和语音助手“ P ”之间发生却连接失败现象,而这个问题最终导致整个系统崩溃。 蓝牙 互操作性问题 有些用户会通过蓝牙连接手机和语音助手同步多媒体资源(例如:音乐、视频等播放列表)。然而当我们将 6 台测试设备(语音助手)和 20 台智能手机(例如:苹果、谷歌、索尼、 OPPO 等)进行配对之后,我们实验观察到一些不一致的用户体验以及功能性问题。 图四:「百佳泰全球设备资源库」手机列表(数据库含括上千个不同测试平台) 不一致的用户体验 在蓝牙互操作性验证过程中,我们发现在开启手机的蓝牙功能时,只有部分的语音助手会自动与之前配对过的手机进行连接。例如,当我们使用语音助手与美国的智能手机进行串联时,语音助手与手机间比较少主动进行蓝牙配对,这表示这些装备在开启蓝牙功能后并不会持续向对方发送连接请求,此举不但可以有效降低电池用量,还能更有效地保障用户的隐私权。这结果和我们在使用和他国智能手机进行串联的结果 ( 即用户体验 ) 大不相同。 功能性问题 除了蓝牙的连接性问题,在蓝牙同步语音助手以及智能手机的过程中,我们还发现一些功能紊乱的状况。例如,使用智能手机“ S ”,却无法控制语音助手“ L ”、“ I ”、“ A ”和“ D ”的音量调节功能。语音助手“ I ”的播放“下一首”和“前一首”的功能键在和手机串联的过程中并不能正常运作。另外,当跟智能手机“ G ”进行匹配时,我们尝试按“下一首”,结果反应却是“快进”,按“上一首”却呈现“倒退“。 复杂配对揭示的潜在问题 百佳泰的专家特此针对上述的延迟性( Wi-Fi )、连接失败( Wi-Fi )、不一致的用户体验(蓝牙)以及功能性(蓝牙)等问题,列出了根本原因,例如在 Wi-Fi 互操作性的问题上,因两种设备(语音助手“ P ”和路由器“ B ”)的广播技术设计不同,造成无法互相交换资讯,从而导致连接失败。于用百佳泰备有的测试台是采用不同的芯片厂商,包括高通( Qualcomm )、博通( Broadcom )、联发科技( MediaTek ),不同芯片的设计是会直接影响联网的速度,因此,厂商在产品设计初期,是必须将芯片解学方案纳入考虑之中的。而在透过蓝牙连接语音助手和智能手机所衍生的不良用户体验以及功能性问题,可归因于语音助手不支持音频 / 视频远程控制配置规范( Audio-Video Remote Control Profile:AVRCP )和通用访问配置规范( Generic Access Protocol:GAP ),或不兼容的情况而造成。然而,这些问题在 Wi-Fi 和蓝牙的标准认证测试中是无法发现的。 总结 在这篇文章中,我们针对 Wi-Fi 和蓝牙互兼容性的验证测试结果,加以分析并阐述产品互操作性所发生的问题,包括延迟性问题,连接失败现象,不一致的用户体验和功能性问题,并更进一步提供建议和意见。在物物相连的物连网世界,即使产品通过了 Wi-Fi 认证以及蓝牙认证,产品间不同的配对组合亦会引起兼容性问题。 针对兼容性问题,百佳泰设计了多样化的电子产品互操作性组合,并加以运用设备数据库中成千上百的产品(包括,无线路由器,移动电话,智能家居设备等),进行互操作性测试,进而发掘潜在问题,确保您的产品拥有卓越的市场通用性。除此之外,百佳泰亦是 Wi-Fi 和蓝牙授权的认证实验室,能够提供标准测试认证、产品侦错以及技术咨询。百佳泰所提供的一站式验证解决方案,将协助您解决整个产品开发过程中所遇到的诸多问题,期望能缩短您的开发时程,让您领先竞争对手、拔得头筹。 若您对我们的服务感兴趣,请联系我们。
  • 热度 19
    2015-1-13 13:27
    1246 次阅读|
    2 个评论
      快捷语音助手      有用户可能会问,Apple Siri,Google Now这样的语音助手,很智能的,为什么不能帮我打开应用程序呢?Apple Siri和Google Now要在技术上实现这点是没问题的。但为什么不好用呢?   首先可能是因为乔布斯定下的图标打开应用程序的思维定式太深,研发、设计、产品都 没突破这个思维;其次,Apple Siri和Google Now,要先将你说的“帮我打开某某程序”,通过手机信号或WiFi信号,将语音传到服务器,进行识别,还要理解你说的话的意思是想要打开一个程序,然后 把结果传回手机执行。其识别率,准确率很难保证,而且其效率还比不上用户滑动找到图标,点击图标。   解决这个问题的方法,是做一个运行在本地的减缩版快捷语音助手,包含所有应用程序 名称的语音库。每当用户下载或购买一个新的应用程序时,系统会同时将这个新应用程序的名称的语音,从云端服务器,下载并加入到应用程序名称的语音库中去。 当用户卸载或删除某个应用程序时,系统会同时在语音库中,将这个应用程序名称的语音删除。   这样语音库中,就总是包含了用户所有的应用程序的名称的语音。而且一般用户也就安 装几十个应用程序,最多也就几百个。所以系统每次只须通过麦克风记录用户说出的应用程序的语音,通常应用程序名称也比较短,只是一个词,而不会是句子,然 后在包含所有的应用程序名称的语音库中进行对比,然后打开语音符合的应用程序。因为只须在几十个,最多几百个应用程序名称的语音中进行对比,所以速度和准 确性非常高,而且可以非常快速方便的打开应用程序,对用户非常的友好,方便,直观。    iPhone 5S问世后,M7运动感应协处理器,很多人集中讨论在感知用户步行、跑步、开车状态,计步器等健康领域的应用。下面就来看看M7在手机操作系统上能有什么作用。    智能手机打开程序将全面进入语音和手势的时代。     智能手势   运动协处理器配合笔者发明的算法,就可以实现用最自然的手势打开最常用的应用程序    举起手机拍照      当用户在主屏状态或者休眠锁定状态拿起手机对着拍摄对象时,手机会自动打开相机程序,用户直接拍照,当用户拍好照片,放下手机时,手机会自动打开照片程序,而且用户刚才拍的照片就在屏幕上,用户直接观看!      M7配合笔者发明的算法会在背后自动实现这一切。而且不但从手上拿起手机自动拍照,不管是从桌子上,还是从包里或者从裤兜里直接掏出手机,举起来对着拍摄对象,智能算法也都会自动识别,自动打开相机程序,用户不会错过任何一个精彩的人生镜头。       转动手机看视频         用户转动手机屏幕,系统自动打开视频程序,自动从上次播放处接着播放。或者转动手机屏幕时在主屏幕上自动出现用户已安装的所有视频应用程序的图标,例如优酷,PPS,爱奇艺,搜狐等视频应用程序的图标供用户点选。       上下抖动打开IM程序      在主屏状态,上下轻轻抖一抖手机,自动打开微信。上下抖得幅度大一些,超过60度,就直接打开微博。或者上下轻轻抖一下手机的时候,主屏上自动出现用户已安装的所有IM应用的图标供用户点选。酷!    向前左右摆动手机打开地图      不认识路?把手机伸向前面左右摆动,让手机给你指路吧,系统会自动打开地图程序。哪怕是盲人用户,也会语音提示当前的位置,并带路。    滑动解锁不见了      滑动解锁从iOS 1的一个滑动块,引导教会用户滑动解锁;到iOS 7简化成文字。笔者在这条追求极简设计的路上,更进一步,连字都没有了,自动解锁。   滑动解锁这个功能是随着触摸屏手机的诞生而诞生的,这个功能的主要目的是防止手机在用户的口袋里被误触摸,误操作,误打电话,在用户并不需要的时候,在口袋里点亮屏幕,浪费手机的电池。   笔者发明的智能算法,很好的解决了手机在口袋里误触摸的情况。所以滑动解锁这个功能就没必要存在了。   用户无论从口袋中、还是从包中掏出手机,或者从桌子上拿起手机的时候,系统都自动解锁,直接进入主屏或者输入密码的界面,而不会有误操作。每次用户掏出手机时,都少了一个按Home键的步骤。   拿起手机就直接使用,无需一个中间过度步骤--滑动解锁,顺畅,自然。引用艾维的话:“ 归根结底,设计决定了用户体验 ”。你再也无需每天 解锁上百次了,自动 解锁时代来临。   iPhone有指纹识别Touch ID,可以在滑动解锁界面,用指纹识别完成解锁和输入密码两个步骤,但如此先进的功能,之前还要按一下Home键。如果没有按一下Home键步骤,不设密 码的情况下,M8直接自动进入主屏幕,设密码的情况下,M8直接自动进入输入密码界面,然后Touch ID指纹识别直接自动进入主屏幕。       后图标操作时代         在图标操作时代,用户打开一个应用程序的唯一方法,就是找到那个应用程序的图标,然后点击。就像在怪物公司里一样,每个门,对应着一个房间,一个世界,你想进入那个世界,就一定要找到那扇门,应用程序的图标就是那扇门。         后图标操作时代,首先图标的设计变得不那么重要了,其次,我们使用手机,就像阿拉丁神灯一样,心里想要什么应用程序,马上就出现在你的面前。   用户一旦有了后图标时代的用户体验,是不会再愿意回到图标时代的。每次技术变革的时候,都是一次重新洗牌的时候。当应用程序需要使用时,立刻就在眼前立刻就在手边;不需要使用时,就立刻从眼前消失,不被干扰,达到呼之即来,挥之即去的,随心所欲的使用的境界。   最常用的程序,用最直观的手势,直接打开,或者是智能动态图标技术,自动出现在主屏上。不太常用的程序,用快捷语音助手,说一下自动打开;或者在中全域应用程序图标界面中手动打开。   用户一旦有了后图标时代的用户体验,是不会再愿意回到图标时代的。每次技术变革的时候,都是一次重新洗牌的时候。      乔式的伟大的设计往往就是,当你没说出来,就没有任何人想得到;当你说出来,所有的人立刻认识到,本来就该这样的,这太简单了。 很多的行业从业者,都会觉得他也能想出来。笔者早知道会有这样的情况,所以留了可不止一手,没说出来的和说出来的一样多,甚至没说出来的比说出来的更多。 谁恶意抄袭,我就帮付费的竞争对手设计手机软硬件,不敢说 妙杀 iPhone,但妙杀任何其他手机还是小菜一碟。 或者 视频链接 :http://v.youku.com/v_show/id_XNzgxOTA5MTUy.html
  • 热度 18
    2015-1-12 13:39
    1320 次阅读|
    1 个评论
       快捷语音助手      有用户可能会问,Apple Siri,Google Now这样的语音助手,很智能的,为什么不能帮我打开应用程序呢?Apple Siri和Google Now要在技术上实现这点是没问题的。但为什么不好用呢?   首先可能是因为乔布斯定下的图标打开应用程序的思维定式太深,研发、设计、产品都没突破这个思维;其次,Apple Siri和Google Now,要先将你说的“帮我打开某某程序”,通过手机信号或WiFi信号,将语音传到服务器,进行识别,还要理解你说的话的意思是想要打开一个程序,然后把结果传回手机执行。其识别率,准确率很难保证,而且其效率还比不上用户滑动找到图标,点击图标。   解决这个问题的方法,是做一个运行在本地的减缩版快捷语音助手,包含所有应用程序名称的语音库。每当用户下载或购买一个新的应用程序时,系统会同时将这个新应用程序的名称的语音,从云端服务器,下载并加入到应用程序名称的语音库中去。当用户卸载或删除某个应用程序时,系统会同时在语音库中,将这个应用程序名称的语音删除。   这样语音库中,就总是包含了用户所有的应用程序的名称的语音。而且一般用户也就安装几十个应用程序,最多也就几百个。所以系统每次只须通过麦克风记录用户说出的应用程序的语音,通常应用程序名称也比较短,只是一个词,而不会是句子,然后在包含所有的应用程序名称的语音库中进行对比,然后打开语音符合的应用程序。因为只须在几十个,最多几百个应用程序名称的语音中进行对比,所以速度和准确性非常高,而且可以非常快速方便的打开应用程序,对用户非常的友好,方便,直观。    iPhone 5S问世后,M7运动感应协处理器,很多人集中讨论在感知用户步行、跑步、开车状态,计步器等健康领域的应用。下面就来看看M7在手机操作系统上能有什么作用。    智能手机打开程序将全面进入语音和手势的时代。     智能手势   运动协处理器配合笔者发明的算法,就可以实现用最自然的手势打开最常用的应用程序    举起手机拍照      当用户在主屏状态或者休眠锁定状态拿起手机对着拍摄对象时,手机会自动打开相机程序,用户直接拍照,当用户拍好照片,放下手机时,手机会自动打开照片程序,而且用户刚才拍的照片就在屏幕上,用户直接观看!      M7配合笔者发明的算法会在背后自动实现这一切。而且不但从手上拿起手机自动拍照,不管是从桌子上,还是从包里或者从裤兜里直接掏出手机,举起来对着拍摄对象,智能算法也都会自动识别,自动打开相机程序,用户不会错过任何一个精彩的人生镜头。       转动手机看视频         用户转动手机屏幕,系统自动打开视频程序,自动从上次播放处接着播放。或者转动手机屏幕时在主屏幕上自动出现用户已安装的所有视频应用程序的图标,例如优酷,PPS,爱奇艺,搜狐等视频应用程序的图标供用户点选。       上下抖动打开IM程序      在主屏状态,上下轻轻抖一抖手机,自动打开微信。上下抖得幅度大一些,超过60度,就直接打开微博。或者上下轻轻抖一下手机的时候,主屏上自动出现用户已安装的所有IM应用的图标供用户点选。酷!    向前左右摆动手机打开地图      不认识路?把手机伸向前面左右摆动,让手机给你指路吧,系统会自动打开地图程序。哪怕是盲人用户,也会语音提示当前的位置,并带路。    滑动解锁不见了      滑动解锁从iOS 1的一个滑动块,引导教会用户滑动解锁;到iOS 7简化成文字。笔者在这条追求极简设计的路上,更进一步,连字都没有了,自动解锁。   滑动解锁这个功能是随着触摸屏手机的诞生而诞生的,这个功能的主要目的是防止手机在用户的口袋里被误触摸,误操作,误打电话,在用户并不需要的时候,在口袋里点亮屏幕,浪费手机的电池。   笔者发明的智能算法,很好的解决了手机在口袋里误触摸的情况。所以滑动解锁这个功能就没必要存在了。   用户无论从口袋中、还是从包中掏出手机,或者从桌子上拿起手机的时候,系统都自动解锁,直接进入主屏或者输入密码的界面,而不会有误操作。每次用户掏出手机时,都少了一个按Home键的步骤。   拿起手机就直接使用,无需一个中间过度步骤--滑动解锁,顺畅,自然。引用艾维的话:“ 归根结底,设计决定了用户体验 ”。你再也无需每天 解锁上百次了,自动 解锁时代来临。   iPhone有指纹识别Touch ID,可以在滑动解锁界面,用指纹识别完成解锁和输入密码两个步骤,但如此先进的功能,之前还要按一下Home键。如果没有按一下Home键步骤,不设密码的情况下,M8直接自动进入主屏幕,设密码的情况下,M8直接自动进入输入密码界面,然后Touch ID指纹识别直接自动进入主屏幕。       后图标操作时代         在图标操作时代,用户打开一个应用程序的唯一方法,就是找到那个应用程序的图标,然后点击。就像在怪物公司里一样,每个门,对应着一个房间,一个世界,你想进入那个世界,就一定要找到那扇门,应用程序的图标就是那扇门。        后图标操作时代,首先图标的设计变得不那么重要了,其次,我们使用手机,就像阿拉丁神灯一样,心里想要什么应用程序,马上就出现在你的面前。   用户一旦有了后图标时代的用户体验,是不会再愿意回到图标时代的。每次技术变革的时候,都是一次重新洗牌的时候。当应用程序需要使用时,立刻就在眼前立刻就在手边;不需要使用时,就立刻从眼前消失,不被干扰,达到呼之即来,挥之即去的,随心所欲的使用的境界。   最常用的程序,用最直观的手势,直接打开,或者是智能动态图标技术,自动出现在主屏上。不太常用的程序,用快捷语音助手,说一下自动打开;或者在中全域应用程序图标界面中手动打开。   用户一旦有了后图标时代的用户体验,是不会再愿意回到图标时代的。每次技术变革的时候,都是一次重新洗牌的时候。      乔式的伟大的设计往往就是,当你没说出来,就没有任何人想得到;当你说出来,所有的人立刻认识到,本来就该这样的,这太简单了。 很多的行业从业者,都会觉得他也能想出来。笔者早知道会有这样的情况,所以留了可不止一手,没说出来的和说出来的一样多,甚至没说出来的比说出来的更多。 谁恶意抄袭,我就帮付费的竞争对手设计手机软硬件,不敢说 妙杀 iPhone,但妙杀任何其他手机还是小菜一碟。