作者:Majeed Ahmad/Digi-Key
随着用户越来越依赖语音作为用户界面,设计人员面临着多重挑战,既要以尽可能小的功耗和响应时间来实现最准确、最可靠的用户语音界面 (VUI),又要满足更紧凑的空间、更低的成本预算并缩短设计进度的要求。为了帮助设计人员达到这些目标,多家供应商推出了一种先进的微机电系统 (MEMS) 麦克风,这种麦克风具有多个性能特征,有助于实现强大的唤醒词检测和 VUI 语音指令处理。
MEMS 麦克风(也称为硅麦克风)已普遍在智能手机、智能手表、无线耳塞、汽车、智能电视以及遥控器中使用。这在很大程度上归功于大获成功的个人语音助手(例如亚马逊的 Alexa、谷歌语音助手和苹果的 Siri)。这些助手会收听特定的语音指令,使用唤醒词识别算法从周围环境中提取语音指令。设计人员的诀窍是:以经济高效地的方式快速实现这种提取功能,同时尽管存在环境噪声,也要提高可靠性、准确性和远场语音采集能力。
本文将讨论影响 VUI 设计的 MEMS 麦克风的关键特性,包括信噪比 (SNR)、动态范围、灵敏度和启动时间。然后介绍来自 TDK InvenSense、CUI Devices、STMicroelectronics 和 Vesper Technologies 的硬件和软件解决方案,并展示如何将其应用于语音激活设计中。
MEMS 麦克风如何工作
一个 MEMS 麦克风封装中通常包含两个组件:将声波转换为电信号的 MEMS 膜,以及用作阻抗转换器向音频信号链提供可用模拟输出的放大器。如果需要数字输出,还可在其芯片上再集成一个组件——模数转换器 (ADC)。
图 1:MEMS 麦克风的基本结构显示了其两个关键构建块:MEMS 变动器和信号处理链(位于 ASIC 中)。(图片来源:CUI Devices)
除了支持具有模拟或数字输出的微型麦克风外,MEMS 技术还实现了出色的相位匹配和漂移性能。MEMS 麦克风的关键特性
对于语音控制设备设计人员而言,需要在 MEMS 麦克风中查找的关键参数如下:
- • 信噪比 (SNR):这是参考信号电平与麦克风输出信号的噪声电平之比。SNR 测量值包括麦克风元件和 MEMS 麦克风封装中集成的任何其他设备(例如 IC)产生的噪声。
- 灵敏度:响应 1千赫 (kHz) 正弦波时的模拟或数字输出值,其声压级 (SPL) 为 94 分贝 (dB) 或1 帕斯卡 (Pa),后者为压力测量值。
- • 灵敏度公差:任何给定的单只麦克风的灵敏度范围。严格的灵敏度公差可在使用多个麦克风时确保一致性。
- • 动态范围:麦克风线性响应的最大和最小声压级的差异测量。
- • 频率响应:麦克风能够工作的频率范围。
- • 启动时间:响应触发事件时麦克风被唤醒并输出有效信号的速度。
虽然可以规定每个麦克风具有一定的灵敏度水平,但细微的结构变化可能会导致各种变更。但是,由于 MEMS 麦克风是使用严格控制的半导体制造工艺开发,因此具有匹配严格的灵敏度公差,这是任何麦克风阵列进行有效数据处理所需的(图 2)。
图 2:阵列中使用的麦克风必须严格匹配才能实现所需的信号处理性能。(图片来源:CUI Devices)
为使支持 VUI 的设计能越来越多地采用麦克风阵列,紧公差的辅助作用极其重要。在麦克风阵列中,由两个或多个麦克风收集信号,然后在组合信号并形成合成信号之前,分别处理来自每个麦克风的信号(放大、延迟或滤波)。在麦克风阵列中,可以使用多个输入来确定方向响应(也称为波束形成),以滤除不需要的噪声;与此同时,重点关注在来自更期望的方向上的声音。MEMS 麦克风的启动时间对于捕获全部关键词并确保其准确性也至关重要。为了节电,支持 VUI 的设备保持低功耗状态;但是,如果麦克风响应唤醒触发的启动时间短,则会影响 VUI 唤醒时间,进而影响唤醒词检测性能以及功耗。
只要在选择麦克风时考虑到这些特性,那么在具有高环境噪声或者用户远距离讲话,或者这两种情形都存在的情况下,后续的语音处理算法便能够更好地执行用户语音提取功能。
模拟与数字 MEMS 麦克风接口
正如有关 MEMS 麦克风工作原理的部分所述,MEMS 麦克风输出可以采用模拟或者数字形式。模拟 MEMS 麦克风使用内部放大器将麦克风的输出信号驱动至具有低输出阻抗的合理高电平。这提供了一个连接音频处理器的直接接口。对于 VUI,设计人员需要确保相关处理器具有板载 ADC,或者设计人员能够选择 ADC 以满足其特定要求。后者会增加复杂性和成本。
借助数字 MEMS 麦克风,麦克风输出可直接应用于通常的微控制器或数字信号处理器 (DSP) 的数字电路。用于电噪声环境的 VUI 设计更倾向于数字麦克风,因为与模拟输出信号相比,数字输出信号具有更高的抗噪能力。
此外,数字 MEMS 麦克风通常采用脉冲密度调制 (PDM) 将模拟信号电压转换为包含相应密度的逻辑高信号的单比特数字流。这样可以进一步抵御射频干扰 (RFI) 和电磁干扰 (EMI)。这对于大型麦克风阵列和诸如支持语音的车辆信息娱乐系统之类的实际大型系统尤其重要。
关于灵敏度,就模拟麦克风而言,是采用以分贝为单位的声压级相对于 1 伏 (dB/V) 进行测量的。对于数字麦克风,通常以相对于满刻度分贝值为单位进行测量 (dB FS) 。