语音识别系统的原理是什么？_软件运维

根据语音识别实际应用中的不同，语音识别系统可以分为：特定人与非特定人的语音识别、独立词与连续词的语音识别、小词汇量与大词汇量以及无限词汇量的语音识别。但无论哪种语音识别系统，其基本原理和处理方法大体相同。语音识别原理语音信号输入之后，预处理和数字化是进行语音识别的前提条件。其中，预处理主要是进行预滤波，保留正常人的300～3400Hz的语音信号；数字化是要进行A/D转换及抗混叠等处理；特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括：(1)基于LPC的倒谱参数；(2)Mel系数的倒兆闭谱参数；(3)采用前沿数字信号处理技术的特征分析手段，如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法，提取出的特征值存入参考模式库中，用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分，由待识别人的语音经过特征提取后，与系统训练时产生的模板进行匹配，在说话人辨认中，取与待识别语音相似度最大的模型所对应的语音作为识别结果，这就是语音识别的整个过程。语音识别技术从应用类分为特定人语音识别和非特定人语音识别。特定人语音识别技术是针对指定人的语音识别，其他人的话玩具不识别，应用模式是使用前需要指定人的语音训练过程，一般按照玩具提示训练2遍语音词条，然后就可以使用了；非特定人语音识别是不用针对指定的人的识别技术，不分年龄，性别，只要说相同语言就可以，应用模式是在产品定型前按照确定的十几个语音交互词条，采集200人左右的声音样本，经过我们的PC算法处理得到交互词条的语音模型和特征数据库，然后烧录到我们的芯片上，应用我历伏们芯片的玩具就具有交互的功能了。非特定人语音识别应用有的是基于音素的算法，这种模式下不需要采族烂裂集很多人的声音样本，就可以做交互识别，但是缺点是识别率不高，识别性能不稳定。在PC领域，Microsoft的Word软件就有语音识别技术

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

第一步，分段和标号

把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步，得到词序列

根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的手拦让文法和语义同时进行。模板匹配衡早的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

1、动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置毕局，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

2、隐马尔可夫法(HMM)

隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

3、矢量量化(VQ)

矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12330196.html

语音识别系统的原理是什么？

发表评论

评论列表（0条）