MFCC(Mel倒谱参数)的维数是怎么确定的?我怎么提取出12维的MFCC参数?

MFCC(Mel倒谱参数)的维数是怎么确定的?我怎么提取出12维的MFCC参数?,第1张

MFCC维数的确定是根据你的要求来的,提取过程最后一步的DCT变换,在cos()这个公式里,有个 i 就是你想要的那个维数。至于要多少,你自己来定。i的不同会直接影响cos函数,所以维数i越大,对应的频率也越高。

语音信号是受外界干扰的随机信号,在进行语音信号处理(语音编码、语音合成、语音识别)时,必须经过特征提取车里才能有效的降低信号的冗余度。现在说一下语音特征参数有能量、基因频谱、共振峰值、短时过零率等,相比之下比较常用的是线性预测倒谱:lpcc与mel倒谱系数,这是因为MFCC和LPCC在实际应用中最为成熟,特别是在真实信道噪声和频谱是真的情况下,也就是在噪声干扰比较强状态下,特征参数MFCC相对于LPCC语音特征系数,能更好的反映人耳的听觉感知情况,所以应用的比较多。

通过介绍说话人确认系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(MFCC)作为特征参数,同时提出了用训练得到的码本以及平均失真作为表征说话人的模型,对说话人确认系统中距离测度做出相应的改动。

语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数和成的语音音质就较好。例如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值,个数,频率范围及其分布情况。

语音信号特征的分析可以分为时域,频域和倒谱域。

时域分析简单直观,清晰易懂,物理意义明确。

更多有效的分析是围绕频域进行的,因为语音中最重要的感知特性反应在其功率谱中,其相位变化只起着很小的作用。

常用频域分析有带通滤波器组,傅里叶变换法和线性预测分析法。频谱具有很明显的声学特性,利用频域分析获得的特征具有实际的物理意义,如共振峰参数,基音参数周期等。

倒谱域是对对数功率谱进行傅里叶反变换得到的,可以将声道特性和激励特性有效的分开,更好的揭示语音信号的本质特征。

可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法,频域分析法及同态分析法。

贯穿语音信号分析全过程的是“短时分析技术”。短时间内特性基本保持不变,相对稳定,准稳态过程。10~30ms内保持相对平稳。

实际信号常有一些低能量的信号分量超过采样频率的一半,如浊音的频谱超过4khz的分量至少比峰值低40db,而清音,超过8khz,频率分量也没有显著下降,因此语音信号所占的频率范围可以达到10khz以上,但对语音清晰度的有明显影响部分的最高频率为57kHZ左右。

电话系统为8kHZ,而时间中,采样频率为8-10kHZ,而语音合成或者语音识别,获得更高的质量,采样频率一般为15——20kHZ。

在一般的识别系统中,采样率最高为16kHZ,当继续增加采样率是,识别率几乎没有增加。

量化: 有三种方式,零记忆量化,分组量化和序列量化。

假设语音信号在10~30ms内是平稳的,后面所有的分析都是在这个假设下进行的。

为了得到短时的语音信号,要对语音信号进行加窗的 *** 作,窗函数平滑的在语音信号上滑动,将语音信号分成帧。分帧可以连续,也可以采用交叠分段,交叠部分称为帧移,一般为窗长的一般。

加窗时,不同窗口将影响到语音信号分析的结果

​ 窗的长度对能否反映语音信号的幅度变化起决定性作用。如果N特别大,即等于几个基因周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将缓慢的变化,因而不能充分反映波形变化的细节。如果N特别小,即等于或小于一个基因周期的量级,则信号的能量将按照信号波形的细微状况而很快的启发,但如果N太小,滤波器的通带变宽,则不能获得平滑的短时信息,因此窗口的长度要选择合适。窗的衰减基本与窗的持续时间无关,因此当改变宽度N时,会使带宽发生变化。

窗口长度是相对于语音信号的汲引周期而言,通常认为一个语音帧内,应含有1~7个基音周期,然而不同人的基音周期变化范围很大,基音周期的持续时间会从高音的约20个采样点变化到低音调250个采样点,这意味着可能需要多个不同的N值,所以N的选择比较困难,通常在采样频率10kHZ的情况,N选择100~200量级(10~20ms)持续时间是比较合适的。

有声(V)无声(S)清音(U)判决。

能够实现这些判决的依据再于,不同性质的语音各种短时参数具有不同的概率密度函数,以及相邻的若干帧具有一致的语音特性,不会再S , U, V之间快速变化。

每个语音的输入起点和重点,利用短时平均幅度参数M和短时过零率可以做到这一点。

浊音情况下短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数M_H根据M_H可以确定前后两个点A_1和A_2 后肯定是语音段,但精确起点,还要仔细查找。

为此,再设定一个较低的阈值参数M_L, 然后确定B_1 和 B_2, 从这两个点之后用短时过零率搜索。 清音的过零率高于无声段,但是能量低。

但是在研究结果中表明,利用短时平均过零率区分无声和清音在有些情况下不是很可靠,由于清音的强度会比无声段高一下,将门限提高一些对清音的影响不大,但在没有背景噪声的情况下,无声段将不会穿越这一提高的电平,因为可以正确区分清音和无声段。

因此采用这种过零率,具有抗干扰能力

滤波器可以是宽带带通滤波器,具有平摊的特性,粗略求语音的频谱,频率分辨率低,可以是窄带滤波器,频率分辨率较高。

现在一般都在用数字滤波器,其中如何将模拟滤波器数字化,涉及到零点极点的内容,需要参考DSP的内容。极点波峰,零点波谷。

为窗口函数。

两种方式来理解物理意义

在实际计算时,一般用离散傅里叶变换代替连续傅里叶变换,则需要对信号进行周期延拓。(非周期->连续谱,周期->离散谱),这时候得到的是功率谱 。 如果窗长度为 , 那么 的长度为 , 如果对 以 进行周期拓展,则自相关就会出现混叠现象,即这个周期的循环相关函数在一个周期中的值就与线性相关 的值不同,这样得到的功率谱就是一组前采样,若想得到全部的 个值,可以补充L个零,扩展成2L的信号,并做离散傅里叶变换,这时的循环相关与现行相关是等价的。( 后面这句话对我来说暂时是天书 )

在对窗函数的分析中,我们知道对于任何一个窗函数都存在旁瓣效应,这时候有谐波效应。

语谱图的时间分辨率和频率分辨率是由所采用的窗函数决定的。假设时间固定,对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应 的通带宽度为 ,那么语谱图中的频率分辨率的宽度即为 。即卷积的作用将使任何两个相隔间隔频率小于 的谱峰合并为一个单峰。对于窗函数而言,通带宽度与窗长成反比,如果希望频率分辨率高,则窗长应该尽量长一些。

对于时间分辨率,假设频率固定,相当于对时间序列 做低通滤波,输出信号的带宽就是 的带宽b,根据采样定理,只需要以 的采样率就可以反映出信号的所有频率成分,这时候所具有的时间分辨率的宽度为 因此如果希望时间分辨率高,则窗长应该短一些。因此时间分辨率和频率分辨率是相互矛盾的,这也是短时傅里叶变换本身固有的缺点。

点评:

126新增理解:

这类线性主要有短时傅里叶变换与Gabor变换和小波变换,其中STFT和Gabor变换是一种加窗的傅里叶变换,使用固定大小的时频网格,时频网格在时频变换只限于时间平移和频率平移,窗函数固定的,只适用于分析带宽固定的非平稳信号,实际应用中,希望对低频分析,频率分辨率高,高频时间分辨率高,要求窗函数宽度能随之频率变化而变化。小波分析的视频分析网格变化除了时间平移外,还有时间和频率轴比例尺度的改变。适用于分析具有固定比例带宽的非平稳信号。

这类时频由能量谱或功率谱演化而来,其特点是变换为二次的。双线性关系可以表示为

其中 为能量谱,而 表示取共轭 *** 作。

点评: 好像没见过,先跳过。。。。。

在信号分析与信号处理中,信号的“时间中心”及“时间宽度”以及频率中心与频率宽度是非常重要的概念,分别说明信号在时域和频域中心位置在两个域的扩展情况。

信号再这两个物理量的测量上有一个重要的约束原则,就是著名的“不确定性原理”。它的意义是,信号波形在频率轴上的扩张和时间轴上的扩张不可能同时小于某一界限,即若函数 和 构成一堆傅里叶变换,则不可能同时是短宽度的,即

等号成立的充分必要条件是 为高斯函数,即 证明,用Cauchy-Schwarts不等式可得。

窗函数为高斯函数的短时傅里叶变换称为Gabor变换。

是大于0的固定常数。由于 , 因此 这表明,信号 的gabor 变换 是对任何 在时间 附近对 傅里叶变换的局部化(在说什么??),达到了对 的精确分解。

Gabor变换是具有最小时频窗的短时傅里叶变换。但进一步研究发现,这两种变换都没有离散的正交基, 所以没有像离散傅里叶变换FFT那种快速算法。而且窗函数固定不变,不能随着所分析信号的成分是高频还是低频做相应的变化。所以这时候有小波变换,能够自动调节窗口长度。

小波理论采用多分辨率的分析的思想,非均匀地划分时频空间,为非平稳信号的分析提供了新途径。

定义: 小波是函数空间 中满足下述条件的一个函数或者信号

其中 表示全体非零实数, 为 的频域表示形式。 称为小波母函数。对于任意实数对,称如下形式的函数为右小波母函数生成的依赖于参数(a,b)的连续小波函数,称为小波,其中a必须为非零实数。

的作用是把基本小波 做伸缩, 的作用是确定对 分析的时间位置,也即是实践中心。 在 的附近存在明显的波动,而且波动范围的大小完全依赖于尺度因子 的变化。 时,一致, 时,范围比原来小波函数 范围大些,小波的波形变得矮宽,变化越来越缓慢,当 时, 在 附近波动范围药效,小波波形尖锐而消瘦。

给定平方可积的信号 ,即 , 则 的小波变换定义为

与傅里叶变换不同,小波变换是一个二元函数。另外,因为母函数 只在原点附近才会有明显偏离水平轴的移动,远离原点,迅速衰减为0

假设小波函数 及傅里叶变换 都满足窗口函数的要求,他们的窗口中心和半径分别记为 和 和 和 , 可以证明对于任意任意参数对,连续小波变换和其傅里叶变换都满足窗口函数的要求,他们的窗口中心和宽度分别为

则时频窗是平面一个可变的矩形,面积为 这个面积只与小波的母函数 有关,与 无关,但形状随着a变换。

如果按照线性模型理论,语音信号是由激励信号和声道响应卷积产生。解卷就是将各卷积分量分开。解卷算法分为两大类,一类称为“参数解卷”,即线性预测分析,另一类算法称为“非参数解卷”,即同态解卷积,对语音信号进行同态分析后,将得到语音信号的倒谱参数,此时同态分析也称为 倒谱分析或者同态处理。

同态处理是一种较好的解卷积方法,它可以较好的将语音信号中的激励信号和声道响应分离,并且只需要用十几个倒谱系数就能相当好的描述语音信号的声道特性,因此占很重要的位置。

通常的加性信号可以用线性系统处理,满足线性叠加原理。然后很多信号是由乘性信号或者卷积信号组合的信号。这样的信号不能用线性系统处理,得用非线性系统处理。但是非线性系统分析起来困难,同态语音辛哈就是将非线性问题转换为线性问题处理。语音信号可以看做是声门激励信号与声道响应的卷积结果,所以下面仅讨论卷积同态信号的处理问题。

同态语音信号处理的一个通用的系统如图3-23所示,其符号 表示由卷积组合规则组合起来的空间,即该系统的输入和输出都是卷积性信号。同态系统的一个最主要理论结果是同态系统理论分解,分解的目的是用两个特征系统和一个线性系统来代替非线性的同态系统。分解的情形如下面所示。

分别对应声门激励信号(excitation 和 vocal tract),特征信号 是将卷积信号转化为加性信号,这时候进行Z变换,将卷积信号转化为乘积信号(疑问1),这时候得到的就是频谱,然后通过对数运算,变成加性信号,但是这个时候是对数频谱,使用不便。最后再变换回时域信号。

是在倒谱域对信号处理,常见处理方式是将语音声源信号与声道信号分离。 在倒谱域,总可以找到一个 ,当 时,声道滤波器的倒谱为0,当 时,激励的倒谱接近于0

如果想再恢复语音信号,用d所示的逆特征系统运算即可。

MFCC (Mel Frequency cepstrum coefficient),MFCC是将人耳的听觉感知特性和语音产生机制相结合,因此目前大多数语音识别系统广泛使用这种特征。

耳蜗的滤波作用是在对数频率尺度进行的,在1000Hz以下为线性,在1000Hz以上为对数,这就使得人耳对低频比高频更敏感

对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点,变换到Mel域后,Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的,实际应用中,MFCC计算过程如下

MFCC有效利用的听觉特性,因此改变了识别系统的性能,如果倒谱位数增加,对识别性能影响不大。但采用动态特征,误识率有20%的下降。

点评20190130:第三四次囫囵吞枣的看完MFCC,即使知道了倒谱,但最后按个离散余弦变换还是比较不能联系上,反正感觉乱乱的吧,包括差分之类的,想被打回哪门语音信号处理课上回炉了,Mark一下,始终有一天会懂其中的深意的。

高性能汉语数码语音识别算法
李虎生 刘加 刘润生
摘 要: 提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对,并提出一个基于语音特征的实时端点检测算法,以减少系统资源需求,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力,其中第一级识别用于确定识别候选结果,第二级识别用于区分易混语音对。由于采用了以上改进, MDSR系统识别率达到了988%
关键词:汉语; 数码语音识别
分类号:TN 91234 文献标识码:A
文章编号:1000-0054(2000)01-0032-03
High performance digit mandarin
speech recognition
LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)
Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns The formant trajectory and the nasal feature are extracted to identify confused words A feature-based, real-time endpoint detection algorithm is proposed to reduce the system resource requirements and to improve the disturbance-proof ability A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage These improvements result in a correct recognition rate of 988%
Key words:mandarin;digit speech recognition▲
汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支,它的任务是识别“0”到“9”等10个非特定人汉语数码语音,在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比, MDSR的性能尚未达到成熟应用水平,这是因为 1) 汉语数码语音的混淆程度较高; 2) 汉语是一个多方言语种,说话人会带有或多或少的地方口音; 3) 在许多应用背景中,MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现,这为MDSR算法的设计带来了很大的限制。由于以上原因,MDSR是一项相当困难的任务。
针对汉语数码语音识别提出了一系列高性能的算法,使MDSR识别率达到了988%。由这些算法构成的识别系统框图如图1所示。
MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。
图1 MDSR系统框图
1 语音前端处理
语音前端处理包括语音特征提取和端点检测两部分。
11 语音特征提取
111 基本识别参数
目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明,采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。
112 共振峰轨迹
在MDSR中,易混淆语音“2”和“8”可以由其第2,3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一,并选用峰值选取算法来提取共振峰轨迹〔3〕。
113 鼻音特征参数
汉语数码语音中,“0”的元音具有鼻音的特征,而“0”容易与具有非鼻化元音的“6”混淆,因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕:
1) 鼻音在频谱低端(约025kHz左右)有1个较强的共振峰。
2) 鼻音在中频段(约08~23kHz)的能量分布较为均匀,没有明显的峰或谷。
采用以下2个参数表征鼻音的特征:
1) 低频能量比:
(1)
其中fn为鼻音低频共振峰频率, B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量, 〔f1,f2〕则为语音“6”能量集中的频带。
2) 频谱质心:
(2)
其中〔fL,fH〕为08~23kHz的中频段。由于MDSR系统采用的基本识别参数为MFCC参数,其计算过程中需要作FFT,所以低频能量比和频谱质心两个参数可以顺带算出,不会影响特征提取的实时完成。
12 端点检测
本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED),充分利用汉语数码语音的特点,在实时提取特征参数后完成端点检测,检测到的端点只精确到帧的量级。
根据语音学知识〔4〕, MDSR中各类语音的频谱特点如表1
表1 汉语数码语音频谱特点
频 谱 特 征
浊 音 元 音 低频(01至04kHz间)能量较高; 中频(064至28kHz)能量较高
浊辅音 低频(01至04kHz间)能量较高; 中频(064至28kHz)能量较低
清辅音 高频(35kHz以上)能量较高
采用3个频谱能量分布参数{R1,R2,R3}分别反应频谱高频、低频和中频的分布特征。其定义如下:
(3)
(4)
其中: i表示第i帧, N为语音帧长,也即FFT点数, Fk为对语音帧作FFT后各频率点能量, T为语音的总帧数,式(3),(4) 中求和号的上下限由表1中相应频率范围确定,当N为256,采样频率为实验所用语音库的11kHz时, f0=81, f1=9, f2 =2, f3=65, f4=15由于进行了能量归一化,所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT,因此频谱能量分布参数可以顺带算出。此外,用于端点检测的参数还包括短时能量参数E0(i)〔5〕
由以上参数, FRED算法过程为:
1) 根据采入信号首尾两帧确定能量阈值;
2) 根据参数R2确定语音浊音段;
3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧;
4) 根据参数R3确定元音段。
FRED算法的特点是:
1) 利用了语音的本质特征进行端点检测,能够很好地适应环境的变化和干扰,实验证明FRED算法可以有效地提高识别率; 2) 将语音端点定在帧的量级上,保证了特征参数在采样时实时提取,节省了系统运行时间,大大减少了系统所需的存储量; 3) 能够准确地确定语音的元音段,从而将辅音与元音分割开,有利于对语音局部特征的辨识。
2 识别算法
实验表明, MDSR的识别错误集中在少数几对易混语音中〔1〕,因此本文采用了两极识别框架,即第一级完成对识别结果的初步确定,第二级完成对易混淆语音的进一步辨识。
21 第一级识别
在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕,用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。
由于HMM是一个有人为假设的模型,所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布,即
P(Li=n)=anii(1-aii), (5)
其中: Li为状态i的持续时间, aii为状态i跳转回自身的概率。按照式(5),状态持续时间越长,其概率越小,这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕,即
(6)
其中αi和βi为Γ分布的参数, Fi为归一化因子参数,以上各参数在训练时由训练语音样本估计出。在识别时,用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正:
(7)
其中: λ为加权系数, S为状态数。识别结果则由修正后的概率P�′r获得。实验证明,用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。
22 第二级识别
对第一级识别的错误作分析,我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%,所以如果能够在第二级识别中对这几对语音作进一步的辩识,整个MDSR系统的性能会有很大的提高。
表2 易混语音错误百分比及其区分特征
易混语音 占识别错误百分比/% 区分特征
“2”“8” 45 共振峰轨迹变化趋势
“1”“9” 12 不同的辅音
“1”“6” 11 不同的辅音
“0”“6” 11 鼻音特征的有无
“3”“4” 8 不同的元音
“6”“9” 4 辅音的清浊性
由表2可见,易混语音“2”“8”, “0”“6”, “6”“9”可以用表征其区分特征的参数,根据一定的规则进行判决,而“1”“9”, “1”“6”, “3”“4”则可以利用端点检测中元、辅音分割的结果,训练元音部分和辅音部分的HMM参数,在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。
表3 第二级识别方法
易混语音 第二级识别方法 规则判决的特征参数或
局部HMM的辨识部位
“2”“8” 规则判决 共振峰轨迹
“1”“9” 局部HMM辨识 辅音
“1”“6” 局部HMM辨识 辅音
“0”“6” 规则判决 鼻音特征
“3”“4” 局部HMM辨识 元音
“6”“9” 规则判决 频谱分布参数R1
3 实验结果
实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能,库中语音采样率为11kHz,量化精度为16bit线性量化,录音背景为普通办公室环境。
首先测试了特征参数采用LPCC参数,端点检测采用快速端点检测算法〔6〕,只用Viterbi算法进行一级识别时的基本结果,然后测试了逐个加入本文所提出的各种方法后的识别率,结果如表4。可见,所采用的每一种方法都使系统性能较之于基本系统有了显著的提高,最后达到988%的识别率。
表4 算法性能比较
采用的算法 识别率/%
基本结果 911
采用MFCC参数 929
FRED算法 954
状态持续时间分布 960
第二级识别 988
4 结 论
采用了一系列算法,有效地提高了MDSR系统的识别率,实现了一个高性能的MDSR系统,其特点为:
1) 采用了两极识别框架,增强了对易混语音的区分能力。
2) 充分利用针对汉语数码语音的语音学知识,提高了端点检测的抗干扰能力,提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征,进一步提高了系统识别率。
3) 各算法所需的运算量和存储量都较小,有利于MDSR在DSP系统上的实现。■
基金项目:国家自然科学基金项目(69772020)和国家“八六三”高技术项目(863-512-9805-10)
作者简介:李虎生 (1975-), 男(汉), 四川, 硕士研究生
作者单位:李虎生(清华大学,电子工程系,北京,100084)
刘加(清华大学,电子工程系,北京,100084)
刘润生(清华大学,电子工程系,北京,100084)
参考文献:
〔1〕顾良, 刘润生 汉语数码语音识别: 困难分析与方法比较 〔J〕 电路与系统学报, 1997, 2 (4): 32-39
Gu Liang, Liu Runsheng Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕 J of Circuits and Systems, 1997, 2(4): 32-39 (in Chinese)
〔2〕Davis S B, Mermelstein P Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕 IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366
〔3〕李虎生, 杨明杰, 刘润生 用共振峰轨迹提高汉语数码语音识别性能 〔J〕 清华大学学报, 1999, 39(9)
Li Husheng, Yang Mingjie, Liu Runsheng Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕 J of Tsinghua University, 1999, 39(9): 69-71 (in Chinese)
〔4〕吴宗济, 林茂灿 实验语音学教程 〔M〕 北京: 高等教育出版社, 1989
Wu Zongji, Lin Maocan Tutorial on Experimental Phonetics 〔M〕 Beijing: Higher Education Press, 1989 (in Chinese)
〔5〕杨行峻, 迟惠生 语音信号数字处理 〔M〕 北京: 电子工业出版社, 1995
Yang Xingjun, Chi Huisheng Digit Speech Signal Processing 〔M〕 Beijing: Publishing House of Electronic Industry, 1995 (in Chinese)
〔6〕顾良 汉语数码语音识别方法研究及DSP系统设计 〔D〕 北京: 清华大学, 1997
Gu Liang Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕 Beijing: Tsinghua University, 1997 (in Chinese)
>

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10354823.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-07
下一篇 2023-05-07

发表评论

登录后才能评论

评论列表(0条)

保存