首页
论坛
电子技术基础
模拟技术
可编程器件
嵌入式系统与MCU
工程师职场
最新帖子
问答
版主申请
每月抽奖
商城免费换礼
社区有奖活动
博客
下载
评测
视频
文库
芯语
资源
2024国际航空电子大会
2024国际 AIoT 生态发展大会
3D IC 设计和Chiplet资料下载
车载总线测试和解码方案
新能源汽车三电测试技术中心
在线研讨会
EE直播间
小测验
白皮书
行业及技术活动
杂志免费订阅
免费在线工具
厂商资源中心
论坛
博文
电子工程专辑
电子技术设计
国际电子商情
资料
白皮书
研讨会
芯语
文库
登录|注册
登录
最新发表
推荐阅读
明星博主
原创博文
年度排行
博文排行
博文评论
FPGA/CPLD
MCU/ 嵌入式
模拟
电源/新能源
测试测量
通信
智能手机
处理器与DSP
PCB
汽车电子
消费电子
智能硬件
物联网
软件与OS
采购与分销
供应链管理
工程师职场
EDA/ IP/ 设计与制造
无人机
机器人/ AI
医疗电子
工业电子
管理
写博文
用户3882007
修改
文章:
9
阅读:
16335
评论:
0
赞:
79
好友
私信
个人主页
文章
9
原创
0
阅读
16335
评论
0
赞
79
原创
汽车 麦克风阵列技术进行详述
2018-8-12 18:05
1842
13
13
分类:
消费电子
概述
我们之前介绍过语音识别技术(ASR),随着ASR的逐步成熟,麦克风阵列也逐步得到重用。尤其在汽车里,空间有限,便于声音的近场定位,而麦克风的布线可以很方便和很规则,便于实现成阵列模式,不足的就是车辆运行过程中噪音比较大,当然其噪音还不算很复杂,加入CNN神经网络、深度学习等技术会有很好的除噪效果。
下面就麦克风阵列技术进行详述。
定义
麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。
麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。
早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了21世纪的“声控时代”,这项技术的研究更是取得了长足进展。
在语音识别中的WER(词识别错误率)、SER(句子识别错误率),以及虚警率(错误触发语音识别)指标,都是麦克风阵列在实现时需要一起考虑的问题。
作用及关键技术
语音增强
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。
从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音
通信
系统与消费
电子
系统中。但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。目前基于线性阵列、平面阵列、空间立体阵列的波束形成和降噪技术,加上神经网络、深度学习在各种实际环境中的样本训练,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能。
声源定位和测向
现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。
声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA(利用各麦克风对于声源的到达时差)技术。声源测向一般在语音唤醒阶段实现,VAD(语音活性检测)技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。
当然对于汽车来说,各座位固定,人也不能到处移动,所以声源定位比较简单。
噪声抑制
语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,发动机噪声,轮胎噪声,风噪等,这类噪声通常不具有空间指向性,传入车内之后的能量虽然比较大,但还不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。
混响消除
混响去除的效果很大程度影响了语音识别的效果。当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。
利用麦克风阵列去混响的主要方法有以下几种:
(1)基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
(2)基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
(3)基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。
对于汽车来说,车内吸音材料很多,一般混响问题倒不是特别大。
声源信号提取或分离
声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
利用麦克风阵列做信号的提取和分离主要有以下几种方式:
(1)基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离;
(2)基于传统的盲源信号分离的方法进行,主要包括主成分分析和基于独立成分分析的方法。
回声抵消
严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的,在通信的电话机行业,这个叫消侧音。
波束形成
波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰。
模型匹配
主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套是基于该硬件的匹配语音软件处理,还有基于云端的语音识别的深度学习处理。
原理
因为汽车的拾音距离都比较近,适合使用近场模型。如下图所示是一个简单的基于均匀线阵的近场模型,声波在传播过程中要发生幅度衰减,衰减因子与传播距离成正比。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元接收信号的幅度差别。下图中,q为麦克风阵元的个数,r为声源到阵列中心(参考点)的距离,α为声源与阵元连线之间的夹角,rn为声源到阵元n的距离,dn为阵元n到参考点的距离,Δd为相邻阵元间距。
下图为均匀圆阵的近场模型,多个麦克风均匀地排列在一个圆周上,就构成了一个麦克风均匀圆阵列 (UCA)。以UCA中心(圆心O)作为参考点,d0 表示信源S与阵列中心的距离,A为信源到UCA平面的垂足,以OA连线所在的半径为参考线,号麦克风所在半径与OA夹角为Δφθ,表示信号到达方向(SO与参考线的夹角),di(i = 1 ,2 , …, M)表示信源到第个麦克风的距离。
UCA任意两个相邻麦克风对应的圆周角为2π/ M,M为麦克风的个数,如下图所示:
当信源离麦克风阵列较近时,大家熟知的基于平面波前的远场模型不再适用,必须采用更为精确也更为复杂的基于球面波前的近场模型。声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。信源到麦克风阵列各阵元的距离是不同的,因此声波波前到达各阵元时,幅度也是不同的。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元因接收信号幅度衰减的不同所带来的影响。对于远场模型,信源到各阵元的距离差与整个传播距离相比非常小,可忽略不计;对于近场模型,信源到各阵元的距离差与整个传播距离相比较大,必须考虑各阵元接收信号的幅度差。
具体的算法既要考虑到麦克风阵列各阵元接收信号的相位差,又得考虑到各阵元接收信号的幅度差,从而实现对声源的二维(或三维)定位。根据声源的方位信息,可以使用波束形成技术获得形成一个或多个波束指向感兴趣的声源,从而更好地去噪,完成对该声源信号的提取和分离。由于可以利用的方位信息是二维的,因此,相应的波束具有二维特性。即除了对某一方向的信号有增强作用外,还能对同一方向、不同距离的信号有选择作用,这对于背景噪声和回声消除是非常有用的。
下图为一个实际算法的
仿真
结果,可以看到,声源相对于参考点,它的角度和距离都相当清晰可辨:
趋势
声学的非线性处理研究
:现在的算法基本忽略了非线性效应,所以当前麦克风阵列的基本原理和模型方面就存在较大的局限,今后在非线性处理方面会有比较深入的研究。
麦克风阵列的小型化
:现今的麦克风阵列受制于半波长理论的限制,现在的口径还是较大,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小。
麦克风阵列的低成本化
:随着近年来新技术的应用,多麦克风阵列的成本下降将会非常明显。
多人声的处理和识别
:现在的麦克风阵列和语音识别还都是单人识别模式,对于人耳的鸡尾酒会效应(人耳可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音),随着深度学习的研究深入和应用普及,这方面应该会有较大突破。
现状
当前成熟的麦克风阵列的主要包括:讯飞的2麦、4麦和6麦方案,思必驰的6+1麦方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列又分为线形和环形两种主流结构,而2麦的阵列则又有同边和前后两种结构。
从汽车的整体结构来看,选用多麦是可行和必须的,至少6麦以上为好,每个前后每个座位处可以各放置1个,前端中控上可以放置1至2个(司机可多1个,另一个可以单独用来指向性收集噪声用来消噪),中部的扶手置物盒处可以放置1个,这样下来定位、消噪、消回声都能比较好的解决。
结论
总之,语音操作时代已经来临,尤其在于车机方面,已经要成为标配了,但是由于各个应用和底层系统之间的接口问题,比如采用的基础语音识别厂家不一、各个应用的语音命令可能冲突或不支持语音、进而车机整体层面语音命令混乱,从而导致语音操作还不具有统一标准,在实际使用中问题层出不穷。
这个问题可能需要等到各大原车厂意识到之后,统一指定语音识别的底层基础厂商,统一指定上层应用厂商的语音命令,进一步的统一控制和调度各个应用的语音命令之后才可能带来体验很好的语音操作。后装市场还没有哪家有实力和号召力实现这三个统一,所以目前国内还看不到很好用的语音操作车机。
写原创有奖励!2024面包板原创奖励正在进行中
点赞(
13
)
收藏
分享到:
上一篇:
新手学习嵌入式十"不要"
下一篇:
电源、地线的处理
PARTNER CONTENT
换一换>
更多>
新蓝牙6.0协议扩展应用范围
Silicon Labs(芯科科技)蓝牙产品经理Parker Dorris
2024-12-16
概伦电子:以开放心态共绘EDA产业新蓝图
概伦电子
2024-12-30
SK海力士开发出适用于AI数据中心的高容量固态硬盘‘PS1012 U.2’
SK海力士
2024-12-18
SK海力士将在CES2025亮相‘全方位面向AI的存储器供应商’的新蓝图
SK海力士
2025-01-03
新一代MCU向着边缘AI和实时控制发展
赵明灿
2024-12-11
文章评论
(
0
条评论)
登录
后参与讨论
您需要登录后才可以评论
登录
|
立即注册
发布
用户3882007
修改
文章:
9
阅读:
16335
评论:
0
赞:
79
好友
私信
个人主页
文章
9
原创
0
阅读
16335
评论
0
赞
79
最新评论
更多
写的好,学习和参考,很适用
开发工匠 ...
评论博文
2025-1-8
氢能源燃料电池车氢气泄漏检测与残氢排放监 ...
如果Flash是空的,需要用仿真器加CW。仿真器很贵且只能用于特定CPU,正版CW软件也很贵且操作复杂。 这类仿真器操作都比较麻烦 ...
xxdg
评论博文
2025-1-7
也许是PowerPC最佳的调试器--BDI2000 ...
写的好,学习和参考
开发工匠 ...
评论博文
2025-1-6
软硬件推波助澜,其效能对影像质量的考验又 ...
最新
博文
鸿海2024年营收1.53万亿元,AI成关键 ...
重磅并购!家电巨头收购“准IPO”企业 ...
高频高密度趋势下磁芯材料评价指标探 ...
资料下载
本周热帖
Processing-processing3.5.4
ESP32TFT常用字体库.zip
自动增益控制放大器设计与实现 ...
无线传能充电器设计与实现论文 ...
基于单片机自动电阻测试仪设计论文 ...
《极简图解 半导体技术基本原理》+半 ...
浪拓电子小课堂:TVS与TSS的工作原理 ...
电气安全测试项目详解
聚焦离子束(FIB)在加工硅材料的应用 ...
锡须生长现象
最新资讯
芯语最新
虚拟天线技术:物联网天线设计的不同 ...
美国亚利桑那州成为第三个芯片研发旗 ...
提升亮度和寿命期!LG Display将在广 ...
瑞萨电子被曝计划在全球裁员数百人 ...
传Imagination停止RISC-V处理器核心开 ...
深圳一PCB企业新工厂盛大开业 ...
最便宜的大型股,假期电商销售额大幅 ...
扎克伯格为70岁父亲庆生,祖孙三代欢 ...
我讨厌人工智能,但微软却是唯一购买 ...
大胆押注HBM,MU打响翻身仗,当前是买 ...
EE直播间
更多
第三代功率半导体器件测试解决方案
直播时间: 03月06日 10:00
在线研讨会
更多
多路有光·精准不凡——KSW-SGM01模拟信号源发布会
重塑机器人未来:揭秘创新芯片解决方案的颠覆力量
迈来芯Triaxis® 3D磁传感器:汽车安全应用的优选方案
适用于安全连接的新一代PIC32CK SG/GC系列单片机
热门
推荐
【应用手册】TI 全新MCU及C29内核的能源设施应用方案
【TI资料】基于新型C29内核的MCU技术资料
如何提升高压系统的实时性能?
如何增强能源基础设施的实时控制?
我要评论
0
13
分享到微信
分享到微博
分享到QQ
点击右上角,分享到朋友圈
我知道啦
请使用浏览器分享功能
我知道啦
关闭
站长推荐
/3
工程师写总结,送示波器、稳压电源、螺丝刀!
分享你的:职业生涯中故事、2024年年终总结、工作中的小故事,丰富多样的礼品等你哦!
面包板社区有奖活动汇总楼
1. DIY赢大奖!2. 写原创,有奖励!3.参与话题,奖励E币!4. 免费申领:开发板试用、书籍试读...
电子工程师DIY来分享,赢大疆无人机、小米手机、NAS存储、万用表 ...
展示您的 DIY 电子设计作品,社区将有丰富奖励送给您!
首页
论坛
电子技术基础
模拟技术
可编程器件
嵌入式系统与MCU
工程师职场
最新帖子
问答
版主申请
每月抽奖
商城免费换礼
社区有奖活动
博客
下载
评测
视频
文库
芯语
资源
2024国际航空电子大会
2024国际 AIoT 生态发展大会
3D IC 设计和Chiplet资料下载
车载总线测试和解码方案
新能源汽车三电测试技术中心
在线研讨会
EE直播间
小测验
白皮书
行业及技术活动
杂志免费订阅
免费在线工具
厂商资源中心
帖子
博文
返回顶部
×
文章评论(0条评论)
登录后参与讨论