语音信号预处理

语音信号预处理,第1张

MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

MFCC参数的提取包括以下稿族氏几个步骤:

 预滤波(低通):前端带宽为300-3400Hz的抗混叠滤波器。

 A/D变换:采样频率,线性量化精度。

 预加穗侍重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

 分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。

 加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。

 快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。

 三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共键散24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。

 求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。

 离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。

 谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。

 倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。

 差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。可用到了MFCC参数的一阶差分参数和二阶差分参数。

采样前的低通滤波,主要是消除采样时的频谱混叠。由硬件完成。

预加重主要是提高高频的频谱分量。软件,硬件都可以完成。

预加重前,也可以用高通滤波器,消除低频噪音。

如果计算mfcc是有了预加重。之前的预加重就不要做。

采样前的硬件低通滤波是一定要做的。

计算mfcc时的滤波,看起的作用是什么?如果是进一步消除噪音,那就必须做。

所谓预处理是指在枯败桐进行编译的第一遍扫描(词法扫描和语法分析)之前所作的工作。预处理是c语言的一个重要功能,

它由预枯扰处理程序负责完成。当对一个源文件进行编译时,

系统把自动引用预处理程序对源程序中的预处理部分作处理,

处理完毕自动进入对源程序的编译。

c语言提供了多种预处理功能,如宏定义、文件包含、

条件编译等。合理地使用预处理功能编写的程序便于阅读、修改、

移没坦植和调试,也有利于模块化程序设计。

语音识别的基本过程 根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统,其基本原理和处理方法都大体类似纯蠢。语嫌裤森音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数芹亩必须满足以下的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的区分性; (2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在很多先验知识的帮助下,提高识别的准确率。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12247523.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存