首页
论坛
电子技术基础
模拟技术
可编程器件
嵌入式系统与MCU
工程师职场
最新帖子
问答
版主申请
每月抽奖
商城免费换礼
社区有奖活动
博客
下载
评测
视频
文库
芯语
资源
2025泰克杭州测试论坛
2025中国低空经济产业创新发展大会
【直播】芯片设计工艺仿真全解析
西门子数字化工业软件资源中心
嵌入式设计资源库
智能楼宇/家电控制应用全解析
在线研讨会
EE直播间
小测验
白皮书
行业及技术活动
杂志免费订阅
免费在线工具
厂商资源中心
论坛
博文
电子工程专辑
电子技术设计
国际电子商情
资料
白皮书
研讨会
芯语
文库
登录|注册
登录
用户3882007
修改
文章:
9
阅读:
17446
评论:
0
赞:
86
好友
私信
个人主页
文章
9
原创
0
阅读
17446
评论
0
赞
86
原创
汽车 麦克风阵列技术进行详述
2018-8-12 18:05
2045
14
14
分类:
消费电子
概述
我们之前介绍过语音识别技术(ASR),随着ASR的逐步成熟,麦克风阵列也逐步得到重用。尤其在汽车里,空间有限,便于声音的近场定位,而麦克风的布线可以很方便和很规则,便于实现成阵列模式,不足的就是车辆运行过程中噪音比较大,当然其噪音还不算很复杂,加入CNN神经网络、深度学习等技术会有很好的除噪效果。
下面就麦克风阵列技术进行详述。
定义
麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。
麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。
早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了21世纪的“声控时代”,这项技术的研究更是取得了长足进展。
在语音识别中的WER(词识别错误率)、SER(句子识别错误率),以及虚警率(错误触发语音识别)指标,都是麦克风阵列在实现时需要一起考虑的问题。
作用及关键技术
语音增强
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。
从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音
通信
系统与消费
电子
系统中。但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。目前基于线性阵列、平面阵列、空间立体阵列的波束形成和降噪技术,加上神经网络、深度学习在各种实际环境中的样本训练,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能。
声源定位和测向
现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。
声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA(利用各麦克风对于声源的到达时差)技术。声源测向一般在语音唤醒阶段实现,VAD(语音活性检测)技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。
当然对于汽车来说,各座位固定,人也不能到处移动,所以声源定位比较简单。
噪声抑制
语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,发动机噪声,轮胎噪声,风噪等,这类噪声通常不具有空间指向性,传入车内之后的能量虽然比较大,但还不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。
混响消除
混响去除的效果很大程度影响了语音识别的效果。当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。
利用麦克风阵列去混响的主要方法有以下几种:
(1)基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
(2)基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
(3)基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。
对于汽车来说,车内吸音材料很多,一般混响问题倒不是特别大。
声源信号提取或分离
声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
利用麦克风阵列做信号的提取和分离主要有以下几种方式:
(1)基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离;
(2)基于传统的盲源信号分离的方法进行,主要包括主成分分析和基于独立成分分析的方法。
回声抵消
严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的,在通信的电话机行业,这个叫消侧音。
波束形成
波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰。
模型匹配
主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套是基于该硬件的匹配语音软件处理,还有基于云端的语音识别的深度学习处理。
原理
因为汽车的拾音距离都比较近,适合使用近场模型。如下图所示是一个简单的基于均匀线阵的近场模型,声波在传播过程中要发生幅度衰减,衰减因子与传播距离成正比。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元接收信号的幅度差别。下图中,q为麦克风阵元的个数,r为声源到阵列中心(参考点)的距离,α为声源与阵元连线之间的夹角,rn为声源到阵元n的距离,dn为阵元n到参考点的距离,Δd为相邻阵元间距。
下图为均匀圆阵的近场模型,多个麦克风均匀地排列在一个圆周上,就构成了一个麦克风均匀圆阵列 (UCA)。以UCA中心(圆心O)作为参考点,d0 表示信源S与阵列中心的距离,A为信源到UCA平面的垂足,以OA连线所在的半径为参考线,号麦克风所在半径与OA夹角为Δφθ,表示信号到达方向(SO与参考线的夹角),di(i = 1 ,2 , …, M)表示信源到第个麦克风的距离。
UCA任意两个相邻麦克风对应的圆周角为2π/ M,M为麦克风的个数,如下图所示:
当信源离麦克风阵列较近时,大家熟知的基于平面波前的远场模型不再适用,必须采用更为精确也更为复杂的基于球面波前的近场模型。声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。信源到麦克风阵列各阵元的距离是不同的,因此声波波前到达各阵元时,幅度也是不同的。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元因接收信号幅度衰减的不同所带来的影响。对于远场模型,信源到各阵元的距离差与整个传播距离相比非常小,可忽略不计;对于近场模型,信源到各阵元的距离差与整个传播距离相比较大,必须考虑各阵元接收信号的幅度差。
具体的算法既要考虑到麦克风阵列各阵元接收信号的相位差,又得考虑到各阵元接收信号的幅度差,从而实现对声源的二维(或三维)定位。根据声源的方位信息,可以使用波束形成技术获得形成一个或多个波束指向感兴趣的声源,从而更好地去噪,完成对该声源信号的提取和分离。由于可以利用的方位信息是二维的,因此,相应的波束具有二维特性。即除了对某一方向的信号有增强作用外,还能对同一方向、不同距离的信号有选择作用,这对于背景噪声和回声消除是非常有用的。
下图为一个实际算法的
仿真
结果,可以看到,声源相对于参考点,它的角度和距离都相当清晰可辨:
趋势
声学的非线性处理研究
:现在的算法基本忽略了非线性效应,所以当前麦克风阵列的基本原理和模型方面就存在较大的局限,今后在非线性处理方面会有比较深入的研究。
麦克风阵列的小型化
:现今的麦克风阵列受制于半波长理论的限制,现在的口径还是较大,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小。
麦克风阵列的低成本化
:随着近年来新技术的应用,多麦克风阵列的成本下降将会非常明显。
多人声的处理和识别
:现在的麦克风阵列和语音识别还都是单人识别模式,对于人耳的鸡尾酒会效应(人耳可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音),随着深度学习的研究深入和应用普及,这方面应该会有较大突破。
现状
当前成熟的麦克风阵列的主要包括:讯飞的2麦、4麦和6麦方案,思必驰的6+1麦方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列又分为线形和环形两种主流结构,而2麦的阵列则又有同边和前后两种结构。
从汽车的整体结构来看,选用多麦是可行和必须的,至少6麦以上为好,每个前后每个座位处可以各放置1个,前端中控上可以放置1至2个(司机可多1个,另一个可以单独用来指向性收集噪声用来消噪),中部的扶手置物盒处可以放置1个,这样下来定位、消噪、消回声都能比较好的解决。
结论
总之,语音操作时代已经来临,尤其在于车机方面,已经要成为标配了,但是由于各个应用和底层系统之间的接口问题,比如采用的基础语音识别厂家不一、各个应用的语音命令可能冲突或不支持语音、进而车机整体层面语音命令混乱,从而导致语音操作还不具有统一标准,在实际使用中问题层出不穷。
这个问题可能需要等到各大原车厂意识到之后,统一指定语音识别的底层基础厂商,统一指定上层应用厂商的语音命令,进一步的统一控制和调度各个应用的语音命令之后才可能带来体验很好的语音操作。后装市场还没有哪家有实力和号召力实现这三个统一,所以目前国内还看不到很好用的语音操作车机。
写原创有奖励!2025面包板原创奖励正在进行中
最新发表
推荐阅读
明星博主
原创博文
年度排行
博文排行
博文评论
FPGA/CPLD
MCU/ 嵌入式
模拟
电源/新能源
测试测量
通信
智能手机
处理器与DSP
PCB
汽车电子
消费电子
智能硬件
物联网
软件与OS
采购与分销
供应链管理
工程师职场
EDA/ IP/ 设计与制造
无人机
机器人/ AI
医疗电子
工业电子
管理
写博文
点赞(
14
)
收藏
分享到:
上一篇:
新手学习嵌入式十"不要"
下一篇:
电源、地线的处理
PARTNER CONTENT
换一换>
更多>
ST移动安全解决方案:构建全场景安全连接生态
赵明灿
2025-05-12
文章评论
(
0
条评论)
登录
后参与讨论
您需要登录后才可以评论
登录
|
立即注册
发布
用户3882007
修改
文章:
9
阅读:
17446
评论:
0
赞:
86
好友
私信
个人主页
文章
9
原创
0
阅读
17446
评论
0
赞
86
最新评论
更多
写的好,大师之作,很适用,学习和参考,应用到C++编程很实用
开发工匠 ...
评论博文
2025-6-7
深入理解 C++ 智能指针机制与内存管理实战 ...
厉害厉害,必须奖励E币,100个
eeNick
评论博文
2025-6-6
10. ESP32开发之LED闪烁和呼吸的实现 ...
大师之作,把产品,市场合并,写的很合面,很好,分析很细,学习和参考,学习了
开发工匠 ...
评论博文
2025-6-6
从海光收购曙光浅析中国服务器行业发展方向 ...
最新
博文
Java 多线程编程全解析:原理、应用与 ...
Java IO 与 NIO 深入详解:原理、对比 ...
OCAD应用:单透镜与双胶合透镜结构组 ...
资料下载
本周热帖
干货!电机驱动器中的开路负载检测 ...
L1 和 L2 电动汽车充电器电动汽车服务 ...
权威资料!有刷电机和步进电机电流调 ...
轻松搞定在STM32上模拟Linux自动初始 ...
S2224M以太网交换机硬件安装手册 ...
【资料下载-第一季】开关电源、KiCad ...
【Milk-V Duo 开发板】+初用体验 ...
立创商城中找到的元件封装,怎么把3D ...
保障电路安全:稳压二极管并联应用技 ...
E币兑换迟迟未兑现
最新资讯
芯语最新
陈捷:在半导体产业迁移浪潮中谱写中 ...
VTT在边缘构建信任
V-by-One HS技术在汽车电子测试领域 ...
交流电源中的X电容器和Y电容器,一篇 ...
意法半导体回应拆分危机,未来三年裁 ...
车辆被挤扁,司机死里逃生 ...
小米YU7又一重要参数发布
又一车企迎来女CEO!
激光雷达是门好生意吗?问界换华为, ...
春招 | 寻找AI时代的汽车博主 ...
EE直播间
更多
常用电测仪表的校准展示
直播时间: 06月20日 10:00
Keysight World Tech Day 线上直播-AI 驱动的超高速传输测试分论坛
直播时间: 06月26日 13:30
材料介电常数的精确表征和测试
直播时间: 07月03日 10:00
在线研讨会
更多
ADI人形机器人解决方案
ST 在大功率热管理系统中的电机控制系统方案(AI 数据中心/暖通空调/电池储能系统/变频制冷)
Mercury基于展频技术的医疗时钟EMI抑制方案
AI 巨型芯片,性能越强,测试越难,如何破局?
热门
推荐
AI数据中心过热?ST 10kW压缩机方案让液冷系统效能翻倍
热管理技术新标杆:ST维也纳PFC与FOC控制方案深度解析
为什么你的数据总是不准确?真相令人震惊!
未来科技大揭秘:物联网、电动汽车、人工智能,谁将引领下一个十年?
我要评论
0
14
分享到微信
分享到微博
分享到QQ
点击右上角,分享到朋友圈
我知道啦
请使用浏览器分享功能
我知道啦
关闭
站长推荐
/2
2025第1期拆解活动:赢示波器、运动相机、热像仪等!
示波器、影石运动全景相机、大疆无人机、高清红外热成像仪;树莓派5等等
【2025面包板社区内容狂欢节】发帖/回帖赢25万E币!
活动时间:即日起——2025年全年(发完20万E币为止!)
首页
论坛
电子技术基础
模拟技术
可编程器件
嵌入式系统与MCU
工程师职场
最新帖子
问答
版主申请
每月抽奖
商城免费换礼
社区有奖活动
博客
下载
评测
视频
文库
芯语
资源
2025泰克杭州测试论坛
2025中国低空经济产业创新发展大会
【直播】芯片设计工艺仿真全解析
西门子数字化工业软件资源中心
嵌入式设计资源库
智能楼宇/家电控制应用全解析
在线研讨会
EE直播间
小测验
白皮书
行业及技术活动
杂志免费订阅
免费在线工具
厂商资源中心
帖子
博文
返回顶部
×
文章评论(0条评论)
登录后参与讨论