基于DSP的高速实时语音识别系统的设计

基于DSP的高速实时语音识别系统的设计,第1张

实时语音识别系统中,由于语音的数据量大,运算复杂,对处理器性能提出了很高的要求,适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计,但是在实时处理系统中,还需结合DSP器件的结构及工作方式,针对语音处理的特点,对软件进行反复优化,以缩短识别时间,满足实时的需求。因此如何对DSP进行优化编程,解决算法的复杂性和硬件存储容量及速度之间的矛盾,成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统,在固定文本的说话人辨识的应用中效果显著。

1 语音识别的原理

  语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息,从中提取对语音识别有用的信息的过程,就是特征提取,特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一模型获得最佳匹配。

 基于DSP的高速实时语音识别系统的设计,第2张

 

1.1 MFCC

语音识别中对特征参数的要求是:

(1) 能够有效地代表语音特征;

(2) 各阶参数之间有良好的独立性;

(3) 特征参数要计算方便,保证识别的实时实现。

  系统使用目前最为常用的MFCC(Mel FrequencyCepSTral Coefficient,美尔频率倒谱系数)参数。

求取MFCC的主要步骤是:

(1) 给每一帧语音加窗做FFT,取出幅度;

(2) 将幅度和滤波器组中每一个三角滤波器进行Binning运算;

(3) 求log,换算成对数率;

(4) 从对数率的滤波器组幅度,使用DCT变换求出MFCC系数。

 基于DSP的高速实时语音识别系统的设计,第3张

 

  本文中采用12阶的MFCC,同时加过零率和delta能量共14维的语音参数。

1.2 DTW

  语音识别中的模式匹配和模型训练技术主要有DTW(Dynamic TIme Warping,动态时间弯折)、HMM(HideMarkov Model,隐马尔科夫模型)和ANN(ArTIficial Neu-ral Network,人工神经元网络)。

  DTW是一种简单有效的方法。该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度,即失真距离。

  设测试语音和参考语音用T和R表示,他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维,因此T,R分别为N×14和M×14的矩阵。把测试语音的各个帧号x=1~N在一个二维直角坐标系中的横轴上标出,把参考语音的各帧号y=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点(x,y)表示测试模式中某一帧号与训练模式某一帧的交叉点,对应于两个14维向量的欧氏距离。DTW算法在于寻找一条通过此网格中若干交叉点的路径,使得该路径上节点的路径和最小。算法示意图如图3所示。

 基于DSP的高速实时语音识别系统的设计,第4张

 

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/dianzi/2451298.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-04
下一篇 2022-08-04

发表评论

登录后才能评论

评论列表(0条)

保存