tag 标签: 特征提取

相关博文
  • 热度 16
    2015-2-25 14:37
    1460 次阅读|
    0 个评论
    语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。本文从实现原理入手,介绍语音识别系统的实现方式。 概述 本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的400多个调音节(不考虑声调)以及一些常用的词组。识别系统主要用于手持设备,如手机、掌上电脑。这些设备的CPU一般是DSP,硬件资源十分有限,而且大多不支持浮点运算。那么,对系统各个部分的设计首要考虑的是系统对硬件资源的开销必须尽量的小,不能超过这些设备的限制。硬件资源的开销包括存储模型参数的开销,以及识别过程中对内存、DSP的运行时间的开销。 2 实现流程 一般的语音处理流程图如图1所示。 图1 语音识别系统的处理流图 在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。 3 特征提取 目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。由于本技术方案采用的语音库采样率为8 kHz,因此采用帧长为256个采样点(即32 ms),帧步长或帧移(即每一帧语音与上一帧语音不重叠的长度)为80个采样点(即10 ms)。 现有语音识别系统采用的最主要的两种语音特征包括: 线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC),该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。 Mel 频标倒谱参数(Mel Frequency Cepstrum Coefficient,MFCC),该特征考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在汉语数码语音识别中MFCC 参数的性能明显优于LPCC参数,因此本技术方案采用MFCC参数为语音特征参数。 求MFCC参数的大致过程为: 对输入语音帧加Hamming窗后做快速傅里叶变换(Fast Fourier Transformation,FFT),将时域信号转化为频域信号。 将线性频标转化为Mel频标。转化方法是将频域信号通过24个三角滤波器,其中中心频率在1 000 Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1 000 Hz以上为等比数列分布。三角滤波器的输出为: 式中:X k 为频谱上第k个频谱点的能量;Y i 为第i个滤波器的输出;F i 为第i个滤波器的中心频率。 用离散余弦变换(Discrete Cosine Transformation,DCT)将滤波器输出变换到倒谱域: 式中:p为MFCC参数的阶数,这里取p = 12。{C k } k = 1,2,…,12 即为所求的MFCC参数。 为体现语音的动态特性,在语音特征中加入了一阶差分倒谱,其计算方法如下式所示: 式中下标l与l - k表示第l与l - k帧;m表示第m维。 MFCC参数计算的要点是将线性功率谱S(n)转换成为Mel频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器H m (n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M为滤波器个数,N为一帧语音信号的点数。每个滤波器具有三角形特性,其中心频率为f m ,它们在Mel频率轴上是均匀分布的。在线性频率上,当m 较小时相邻的f m 间隔很小,随着m的增加相邻的f m 间隔逐渐拉开。Mel频率和线性频率的转换关系如下: 这些带通滤波器的参数是事先计算好的。图2给出了滤波器组的分布图,其中M 选择为26,FFT点数N为256,语音信号的采样频率为8000 Hz。 图2 利用人耳仿生学特性设计的Mel尺度滤波器组 4 测度估计 测度估计技术可以采用动态时间弯折DTW、隐马尔可夫模型HMM或人工神经网ANN等算法,本项目采用国际上最先进的HMM,这样能够比较容易的实现非特定人,而且系统结构也比较灵活、一致。 根据描述的语音单位的大小,HMM可分为:基于整词模型的HMM(Word based HMM)。其优点为可以很好地描述词内音素协同发音的特点,建模过程也较为简单。因此很多小词汇量语音识别系统均采用整词模型HMM。但在大词汇量语音识别中由于所需建立的模型太多而无法使用。 基于子词模型的HMM(Sub Word based HMM)。该类HMM描述的语音单位比词小,如英语语音识别中的基本音素,汉语语音识别中的半音节等。其优点为模型总数少,所以在大词汇量语音识别中得到了广泛的应用。其缺点在于其描述词内协同发音的能力劣于整词模型,但由于子词模型已经得到了非常充分的研究,所以近年来在很多小词表应用识别系统中也用了子词模型。本技术方案采用基于半音节(即声、韵母)的语音建模方法,其识别模型拓扑结构如图3 所示,其中静音HMM采用1个状态,每一声母模型采用2个状态,每一韵母模型采用4个状态。 图3 识别模型拓扑结构 根据输出概率分布的不同,HMM(隐含马尔科夫模型)可分为: 离散HMM(Discrete HMM,DHMM)。其输出概率是基于一套码本的离散概率分布,其优点在于由于实现了存储量和计算量都较小,所需的训练语音也较少,但其矢量量化的过程会造成性能的损失。 连续HMM(Continuous Density HMM,CDHMM)。其输出概率是连续概率密度函数(一般是高斯混合密度函数)。其所需的训练语音较多,模型参数存储量和计算量都较大,在训练语音足够时,其性能优于DHMM。 半连续HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,与DHMM相似,其输出为一套码本,但每个码字均为一个连续概率密度分布函数,这一点与CDHMM相近。其性能和所需的训练语音等均介于DHMM和CDHMM之间。 考虑到汉语数码语音所需的模型较少,很容易获得足够多的训练语音,因此本技术方案采用了CDHMM为语音模型。 状态输出概率分布为混合高斯密度函数。其各分量计算如下: 总的概率输出即为各分量的加权和: 式中:s表示当前状态;M为混合分量数;u,Σ ,c分别为各混合分量的均值矢量、协方差矩阵和混合分量系数。 该算法利用Viterbi译码的过程进行帧同步的搜索,易于实时实现,也容易纳入语法信息。考虑到系统的实时实现性,本技术方案采用Viterbi译码作为系统的搜索算法。 5 试验结果 在汉语全音节与词组混合的语音识别任务中,得到的初步实验结果为:PC微机浮点算法条件下正确覆盖率不低于98%,定点算法的正确覆盖率不低于97%。DSP嵌入系统定点条件下正确覆盖率不低于96%。系统的响应时间满足实时识别的要求。通过测试组严格的检查及抽样测试,证明上述结果真实可靠,该输入法基本达到实用化要求。 6 结语 语音汉字输入技术的研发是具有重大经济和社会意义的课题,该项目采用孤立语音的全音节和词组的混合识别模式,使用连续概率分布非特定人的声学模型,并辅以多候选的人机交互方式,较好地实现了在移动(便携式)电子设备上资源有限的条件下方便快捷的汉字语音输入。
相关资源
  • 所需E币: 5
    时间: 2019-12-25 23:03
    大小: 381.68KB
    上传者: 微风DS
    随着通信技术的飞速发展,通信体制和调制样式更加复杂多样,为信号的分类、识别增大了难度,该文针对工作于相同通信体制、相同调制方式和相同频段的通信信号的个体指纹特征提取、分析、识别分类方法进行了研究,较系统地介绍了通信信号指纹识别的原理和方法,讨论了基于测量域、统计域和判决域的同类通信信号个体识别技术,并给出了设备实现的初步方案。……
  • 所需E币: 3
    时间: 2020-1-3 18:22
    大小: 319.31KB
    上传者: 16245458_qq.com
    对传统PCNN模型进行简化与改进,从适合图像处理的角度提出了赋时矩阵的概念;利用物理学相关概念定义了一种新的赋时矩阵图像直方图矢量不变特征,并将该特征运用在图像目标识别中;通过实验证明了算法的优越性.基于直方图矢量重心的PCNN图像目标识另叽新方法水刘京力1,马义德2・(1.天水师范学院数理与信息科学学院,甘肃天水741000;2.兰州大学信息科学与工程学院,甘肃兰州730000)摘要:对传统PCNN模型进行简化与改进,从适合图像处理的角度提出了赋时矩阵的概念;利用物理学相关概念定义了一种新的赋时矩阵图像直方图矢量不变特征,并将该特征运用在图像目标识别中;通过实验证明了算法的优越性。关键词:脉冲耦合神经网络(PCNN)赋时矩阵直方图矢量重心特征提翠图像目标识别在目标识别算法中,最为关键的是目标特征的提…、f1%M>钳n】取。一般以提取物理特征为主,而其中寻找图像在缩放、’F……
  • 所需E币: 5
    时间: 2020-1-3 18:23
    大小: 325.77KB
    上传者: 二不过三
    提出了一种将人脸检测和指纹识别相结合的生物识别技术,并将此技术应用到旅游景区中.该技术首先用AdaBoost算法快速定位人脸区域,再利用肤色模型对结果进行校验,共同完成人脸检测功能,同时与指纹识别相结合,大大提高了验票准确性,克服了单一人脸识别系统或指纹识别系统的缺点.同时采用用户自助方式的验票模式,极大地提高了景区售票验票工作的效率.・应用系统生物识别技术在旅游景区的应用盛曦,吴炜,何小海,罗代升,杨晓敏,罗鑫,薛磊(四川大学电子信息学院图像信息研究所,四川成都610064)摘要:提出了一种将人脸检测和指纹识别相结合的生物识别技术,并将此技术应用到旅游景区中。该技术首先用AdaBoost算法快速定位人脸区域,再利用肤色模型对结果进行校验,共同完成人脸检测功能,同时与指纹识别相结合,大大提高了验票准确性,克服了单一人脸识别系统或指纹识别系统的缺点。同时采用用户自助方式的验票模式,极大地提高了景区售票验票工作的效率。关键词:Adaboost算法特征提取人脸检测肤色模型指纹识别进入21世纪的旅游产业以前所未有的速度飞快发结合人脸检测、指纹识别、条形码记录技术、单片机技展,伴随人民生活水平的不断提高,旅游、度假已越来越术、自动控制技术、无线传输技术及计算机网络技术、加多地成为广大国人和世界友人热衷的消费时尚。目前,密技术等诸多高科技技术,实现了计算机售票、验票、查我国绝大多数旅游景区都采用人工售票、人工验票、人……
  • 所需E币: 3
    时间: 2020-1-3 18:25
    大小: 435.16KB
    上传者: rdg1993
    一种基于肤色的复杂背景人脸检测方法一种基于肤色的复杂背景人脸检测方法何为1’2,李见为1,蒋邦持2(1.重庆大学光电学院,重庆400030;2.重庆通信学院,重庆400035)摘要:针对复杂背景下的彩色人脸图像,利用肤色信息,从图像中分割出具有肤色的区域,整理得到待检测人脸区域,从中进行人脸特征的提取和验证,最终确定人脸。关键词:人脸检测边缘分割人脸模版人脸检测是人脸识别中一个重要的组成部分。近年出肤色块,在彩色空间进行边缘检测,并用检测到的边来,针对静态图人脸检测问题,国内外大量研究者提出了缘对肤色块进一步分割,用空间距离与YCbCr矢量距多种方法,在不同领域取得了一定进展。但是离能够适用离进行块分类合并,用形态学方法进行块边缘整理并填于各种复杂情况且有着较高准确率的实用要求,还有很充,得到人脸模版,利用眼睛、嘴等特征在色差CbCr分大的差距。当前人脸检测算法大致可以分为以下四类【1l:量上的分布特点进行特征的提取,最后进行相似性判断基于知识的方法、基于模板匹配方法、基于外观形状的方确定眼睛块,利用几何约束关系确定人脸。实验表明,该法、基于特征的方法。这些方法对正面简单背景下的正面……
  • 所需E币: 4
    时间: 2020-1-3 19:06
    大小: 197.16KB
    上传者: rdg1993
    视频镜头时域分割方法的研究……
  • 所需E币: 5
    时间: 2020-1-4 12:52
    大小: 382.63KB
    上传者: wsu_w_hotmail.com
    通过对语音识别原理的系统分析,结合特定人语音识别的具体情况,研究了基于线性预测编码(LPC)的递推来推求倒谱编码(CC)基于滤波理论的基音周期确定算法,并将其结合起来,应用凌阳SPCE061A单片机,从硬件、软件、算法优化等方面实现了基于语音识别门禁系统的总体设计,在凌阳μ'nSPIDE平台上完成了原型系统的开发,并从应用的角度阐明了本系统理论上的合理性与鲁棒性.基于语音识别技术的门禁系统的研究黎育红1,张熹1,袁荃2(1.华中科技大学数字化工程与仿真中心,湖北武汉430074;2.武汉大学经济与管理学院,湖北武汉430072)摘要:通过对语音识别原理的系统分析,结合特定人语音识别的具体情况,研究了基于线性预测编码(LPC)的递推来推求倒谱编码(CC)基于滤波理论的基音周期确定算法,并将其结合起来,应用凌阳SPCE061A单片机,从硬件、软件、算法优化等方面实现了基于语音识别门禁系统的总体设计,在凌阳斗’nSPIDE平台上完成了原型系统的开发,并从应用的角度阐明了本系统理论上的合理性与鲁‘棒性。关键词:语音识别特征提取模式匹配LPC唧综合集成计算机、通讯、自动识别、机械工程和安全本文拟采用对用户的依赖性分类的形式,将相关语音识管理系统等相关技术的门禁系统有效地解决了重要部别分为两类:对用户声音特征的辨识和对用户发出的命门和场所的安全访问控制问题,已得到广泛的应用,成令的确认。为日常工作和生活中的电子门卫。目前,门禁系统采用基于对声音特征辨识的特定人语音识别在对……
  • 所需E币: 3
    时间: 2020-1-4 12:54
    大小: 221.09KB
    上传者: 微风DS
    地下拾音报警系统以其隐蔽性强、监控范围广等优点受到文物保护部门的关注.给出了一种基于小波变换,利用能量等价关系构造特征空间的方法,可以有效地识别雷声信号,降低雷声造成的误报率,从而有效地改进了地下拾音报警系统的性能.基于小波分析的雷声信号特征提取柴烨,张有光(北京航空航天大学电子信息工程学院,北京100083)摘要:地下拾音报警系统以其隐蔽性强、监控范围广等优点受到文物保护部门的关注。给出了一种基于小波变换,利用能量等价关系构造特征空间的方法,可以有效地识别雷声信号,降低雷声造成的误报率,从而有效地改进了地下拾音报警系统的性能。关键词:声控报警雷声信号小波分析特征提取安防系统近年来,文物安全问题日趋严峻,常见的安防报警手为是安静的,任何声响都被视为异常,一旦传感器所采段如视频监控、玻璃破碎探测器等,不适于对室外环境下集的声音信号的强度超过设定门限就触发报警行为。不可移动文物的保护。在探索新的安防模式的过程中,提2雷声信号预处理出了一种基于声音信号的地下拾音报警系统。该系统隐雷声信号预处理是:声敏传感器采集音频信号后,蔽性强、成本较低、能够消除报警死区、缩短报警反应时经前端调制器将模拟音频信号转换成数字信号,经过中间,比较适于对室外环境下的文物实行全面的技术防范。间的音频传输控制线传送到监控室中的计算机,形成音但由于自然界的雷声会造成设备频繁地误报警,所以需频文件,作为雷声信号的原始特征;对信号进行预处理,要消除雷声对系统的干扰,为此,要对雷声信号进行分类……
  • 所需E币: 3
    时间: 2019-6-3 20:48
    大小: 1.35MB
    上传者: royalark_912907664
    传统SIFT图像特征提取方法存在特征点数据维度过高等弊端。为解决上述问题,提出MFANet低分辨率图像弱小点目标特征准确提取方法。利用图像数据描述结果估计弱小点的稳健参数,对图像目标进行分割及初始化处理,完成低分辨率图像的弱小点目标识别。在此基础上,利用相似度量确定、图像目标特征的时域复合属性分析结果,计算MFANet提取描述子,完成新型低分辨率图像弱小点目标特征准确提取方法的搭建。对比实验结果显示,与传统SIFT图像特征提取方法相比,应用MFANet低分辨率图像弱小点目标特征准确提取方法后,特征点数据维度得到有效控制,可将特征点数据维度降低41.66%。
  • 所需E币: 3
    时间: 2019-6-2 19:16
    大小: 1.71MB
    上传者: royalark_912907664
    本文应用小波变换技术对电力用户每15分钟采集一次的用电负荷数据的特征进行了梳理,选择小波变换算法开展用电负荷数据的特征提取,优化数据存储方式实现数据压缩与脱敏存储,用以解决海量用电负荷指标数据的存储问题。结果表明,通过小波变换可以有效提取数据特征,压缩存储空间约50%,并实现数据脱敏。本文所研发的基于小波变换特征提取技术实现用电负荷数据压缩与脱敏存储的技术具有潜在的应用价值和推广价值,并能够产生较高的经济效益。