原创 智能语音交互的进化

2015-1-16 09:55 967 21 21 分类: 消费电子
  语音交互的进化历程   回顾人类发展历史,不难看出,随着人类不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。   而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。   而作为这种功能在移动端延伸,手机相关的语音交互功能最早要追溯到十几年前的功能机时代。它最初是以语音拨号的形式来实现这种交互,当时以摩托罗拉、诺基亚为首的一批国外手机厂商,通过预先录制预存用户的语音样本,然后使用时由用户进行语音口述,比对预留样本,从而实现语音拨号的功能。   这项功能后续进行了进一步的发展,例如摩托罗拉在其A系列上从语音拨号进化到语音控制层面,就是通过语音能控制手机发短信、打开应用程序诸如音乐等。但是,这一阶段的语音交互技术有个致命的问题,就是准确性不高。因为它采用的是通过预存样本比对的技术来实现,这样的技术受限度很大,主要有以下三个:   A、受外界背景噪音干扰:因为是采用的样本音频分析对比,所以对来源音频的质量要求较高,如果来源音频背景噪音太严重,会造成与预留样本不符而比对失败。想想,你在一个安静的环境里录完音,然后在大街上去使用,这种成功率会高吗?   B、使用者发音前后不一干扰:   同样的道理,你预留的样本音频是健康时的,而使用时因为风寒感冒了,很可能会造成比对失败,这样也会影响成功率。   C、其它使用者无法使用:你的样本是你自己的,如果换成你的爱人,或者小孩,按照这种样本对比,就根本无法使用了。   以上这些因素,造成之前的手机语音功能识别率太低,如同鸡肋,所以也没有在手机中起到决定性的作用。 《电子技术设计》网站版权所有,谢绝转载   语音交互的新时代来临   进入到智能操作系统时代,手机、平板、可穿戴、智能家居、智能汽车等不断出现,各种业务、软件、应用也迅速普及,而且越来越多应用也开始引入语音功能,有助于培养用户使用习惯,语音交互迎来了春天般的新时代机遇。   据咨询公司统计和预测,近两年国内智能终端语音交互市场使用群体或将达到惊人的规模:   分析当前语音交互的热潮,主要具备了以下几个主要原因:   A、人工智能算法突破   前述我们讲的过去的语音识别主要原理是模式匹配法,即在训练阶段,用户将词汇表中的词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。   而现在的技术突破方向是“机器学习”,通过语音识别声学模型训练,使用带预训练的多层神经网络,语音识别错误率可降低30%,是近20年来语音识别技术方面最快的进步。   B、大数据的灵活应用   随着及手机、平板、可穿戴等各种移动智能终端的普及应用,已经可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。   而在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累成为现实并将提升到战略高度。   C、高速移动数据网络打通大动脉   2/3G时代,流量的限制使得语音交互技术无限制使用的条件不足,海量语音资料库累积较慢,限制了语音辨识与语义理解的提升;而如果局限于本地模式下,又缺乏大数据处理的支撑导致语音辨识率低,影响用户体验,使用频次下降,形成负反馈,就如同前十几年那种鸡肋的局面。   4G时代,手机网速大大提高,语音应用的频次和范围不断增加,海量语音资料库迅速增长;语音辨识准确率以及语音分析能力大大提升,而语音辨识精确度与语义理解能力的提升,又将进一步推动语音交互发展提升体验,形成正向反馈,带动语音交互应用更加丰富。   简单总结,就是人工算法实现功能上的智能化,大数据形成大量的声学模型,保障误别的成功率,而4G高速网络能讲样本快速上传并下载相应的识别结果,提升用户体验。从这个层面上讲,现在语音识别已经不仅仅是“听”这个层面上,更多的是朝听完之后“懂”的层面上发展,成为用户真正的助力帮手。 《电子技术设计》网站版权所有,谢绝转载   语音交互的未来   随着人类对智能设备的依赖和人机之间的交互日益频繁,原有的操控方式变得越来越复杂、效率低下,迫切需要诞生一种新的更简便的操作方式;而语音一旦成为主流的交互手段,可以做到各种设备指令统一、简洁,大大降低人类对智能设备操作的要求、节省人机互动的时间。   哪些人群会在语音交互的这股浪潮中得到益处?语音交互的智能化又能给行业带来什么样的新动向?   首先,随着智能设备和应用的影响逐渐扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。   其次,语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后,第四代的入口。语音识别将使人机交互能够以人类最熟悉的方式进行,其优势以及价值一旦发挥出来,天然的交互入口起到导流作用,将对即时通讯、搜索、购物、LBS等垂直应用服务市场产生巨大的影响,而且语音交互将凌驾于搜索引擎、浏览器等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链,前景极为看好,这也正是产业巨头纷纷在这一领域投入巨大资源的根本原因。 《电子技术设计》网站版权所有,谢绝转载   语音交互产业链的形成   当前,从整个产业链条来看,在语音交互技术领域,涌现出一大批优秀的中国企业,经过多年的积累,语音技术已不再是国际巨头一家独大的局面。如在核心技术研发环节,有小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所;人机交互技术及服务提供商,如科大讯飞、捷通华声、车音网等语音技术提供商及微信、QQ等平台服务商。在数据和内容提供商环节更是百花齐放,应用领域包括影视(百事通、优酷、土豆等)、音乐、餐饮(大众点评、订餐小秘书)、财经(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等细分行业;智能终端设备提供商中包括以中兴、联想、华为等为代表;智能电视领域有长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等。 《电子技术设计》网站版权所有,谢绝转载

文章评论0条评论)

登录后参与讨论
我要评论
0
21
关闭 站长推荐上一条 /2 下一条