手机语音识别应用中DSP的选择策略-面包板社区

手机语音识别应用中DSP的选择策略手机语音识别应用中DSP的选择策略 3G手机的数据速率将高达2Mbps，因而能支持包括数据服务和因特网连接在内的各种多媒体应用，相对2G产品而言，其主要特点是屏幕更大、键盘更小。为了解决用小键盘进行拨号和单词输入的难题，利用自动语音识别(ASR)功能完成语音拨号将成为3G手机的新特点。本文介绍高性能低成本、低功耗DSP芯片在下一代无键盘手机应用中的选择策略。随着DSP技术的进步，计算能力更强、功耗更低和体积更小的DSP已经出现，使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前，基本ASR应用可以分成三大类：1. 语音-文件转换(语音输入)；2. 讲者识别；3. 语音命令控制(语音控制)。这三类功能包含了3G所需的众多ASR性能。语音－文件转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出内存中的个人数据，从而满足信用卡订购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口，它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音卷标。语音识别的两种方法 3G手机的ASR应用设计可分为两类，即以终端为中心和以客户/服务器为中心的应用。如图1所示为以终端为中心的设计方法，3G手机(终端)执行整个语音识别过程并送出识别结果。在图2所示的客户/服务器方法中，终端只是执行预处理特征提取，然后通过一个误码受保护的数据信道将这些参数发送给中心服务器，中心服务器最终完成语音识别。如果采用以主从架构为中心的设计方法，3G手机应使用数据信道而非行动信道来将语音发送给服务器进行识别，因为行动信道所用的低速率语音编码会严重影响语音识别的性能。各种ASR系统的差异主要体现在词汇量上。一个简单的网络设备可能只需要16字的词库就能实现所要求的语音识……