语音识别技术中提取的声音特征的参数具体指什么_框架

语音信号是受外界干扰的随机信号，在进行语音信号处理（语音编码、语音合成、语音识别）时，必须经过特征提取车里才能有效的降低信号的冗余度。现在说一下语音特征参数有能量、基因频谱、共振峰值、短时过零率等，相比之下比较常用的是线性预测倒谱：lpcc与mel倒谱系数，这是因为MFCC和LPCC在实际应用中最为成熟，特别是在真实信道噪声和频谱是真的情况下，也就是在噪声干扰比较强状态下，特征参数MFCC相对于LPCC语音特征系数，能更好的反映人耳的听觉感知情况，所以应用的比较多。

如果我没理解错的话，我觉得可以这样做。具体如下：

1你说的实体类应该指的是obj变量吧，根据你的方法签名，它应该是Object类(所有类的根类)；

2根据C#语言的特点，使用该方法传进来的任何实体类（或者说变量）都可以代替obj变量；

3你所说的创建实体类实例，我觉得应该不是什么问题了，根据前面1和2的叙述，那么可以直接将参数obj进行new *** 作。然后需要用哪个方法，直接使用:实例方法的方式获取便可以了。

希望对你有帮助！

(1)观测方向

在观测系统中，沿测线方向的确定主要考虑以下几个方面:

1)垂直构造带走向。有利于获得更加可靠的构造成像;

2)垂直断层及断裂带的走向。有利于获得清晰的断点、断面成像;

3)相邻三维的无缝衔接。有利于连片处理和解释，且有利于不同构造之间和断裂研究。

(2)勘探指标分析

由Δt≤T/4可推出:fmax=143fdom=0358vP/Rv。其中，fmax为最高频率，fdom为主频，vP为纵波速度，Rv为纵向分辨率。

首先，在设定的纵向分辨力指标条件下，计算主要目的层要求达到的主频和要保护的最高频率值。

其次，根据目的层的纵横波速度比(vP/vS)，计算转换横波要求达到的主频和要保护的最高频率值。

通常，该类参数主要针对P波的分析来确定，S波的分析作参考。

(3)面元边长

纵波面元大小的确定至少考虑以下几个方面:

1)横向分辨率。

根据经验法则，每个优势频率的波长至少保证取2个采样点，这样才能得到良好横向分辨率。面元边长经验公式为:

三维三分量地震勘探

式中:Bpp为纵波面元尺寸;fdom为目的层的优势频率;vn为目的层的上一层层速度。

2)最高无混叠频率。

保证最高无混叠经验公式为:

三维三分量地震勘探

其中:vrms为均方根速度;fmax为最高无混叠频率;θ为目的层地层倾角。如果地层倾角较小，理论上允许的面元可以取得很大。

3)F-K谱空间假频。

利用面元边长反算的道间距，不能使有效波出现空间假频，同时也必须保证在采用二维滤波压制主要线性干扰时不出现空间假频，在叠前时间偏移时，有较好压制偏移噪声的能力。

对于叠后去噪和偏移，所选择的面元边长，也必须满足不产生空间假频和抑制叠后偏移噪声的要求。

图321是对不同道距的理论记录进行F-K谱分析结果。从图中可以看出，50m以上P波有效波的空间假频开始变得严重，60m以上PS波的空间假频开始出现。

图321 不同道间距(40、50、60、70、80m)接收P波(上)、PS波(下)空间假频

大部分探区在50m道间距时，除面波、初至波存在空间假频外，有效波不存在空间假频，道间距应在不大于50m范围内选择。

4)实际资料分析。

面元大小一方面直接影响资料的品质，另一方面对于勘探成本、勘探效益均有重要影响，为准确确定适合本次采集的面元大小，从剖面上量取时间倾角进一步验证，优化面元大小的选择。按以下公式计算:

三维三分量地震勘探

其中:Δx为CMP间距;nΔx1为测量时间倾角CMP距离，即道数乘以CMP间距;Δt1为测得的时差;fmax为最高频率。

以四川盆地合兴场—高庙子地区为例，在叠加剖面上量取时间倾角，计算如下:

nΔx1=19×25=475m，Δt1=70ms

设最高无混叠频率fmax为

120Hz时(针对浅层)，则CMP间距≤28m;

75Hz时(针对深层):则CMP间距≤57m。

以上计算结果表明:由于地层倾角较小，上述条件允许的面元可以取得较大。但当3D3C勘探是针对深层目标的勘探时，需要尽可能高的纵向分辨率，以便能够准确描述小断层及破裂、裂缝发育带的分布。因此，面元尺寸选择需要进行更加针对性的设计，主要考虑两方面因素:

1)目标尺寸。复杂区域的地质勘探最小调查目标上需要至少应有10个以上CMP点，即200～300m。而对断层、断裂带、与断层相关的裂缝发育带及沉积微相边界识别的横向分辨率一般要求不大于50m。加之需要利用相干体、曲率体等技术预测裂缝发育带，从目标尺寸考虑，面元选择为20～30m较为适宜。

2)CCP面元尺寸。CCP面元大小与速度比有关系，比CMP面元要大，要使CCP面元较小需要更小的空间采样。

CCP面元尺寸为

三维三分量地震勘探

式中:BPS为转换波面元的大小;Δx为三维道间距;Δy为三维炮点距;vS/vP为横纵波速度比。

从式(321)和(325)可以看出，纵波和转换波具有不同的面元尺寸，且CCP面元大小与速度有关，比CMP面元要大。设纵横波速度比为2，当纵波面元设计大小为25m×25m时，那么转换波的面元大小应该为100/3×100/3=333m×333m。此时道间距为50m，炮点距也为50m。因此，面元尺寸不宜选择过大，否则CCP面元的空间采样较大而不利于转换波的处理。

利用3D3C资料来研究地层的各向异性，需要进行全方位数据采集，且各方位的特性要均匀，从经济和技术方面权衡考虑，取正方形的面元较合适。考虑到纵横波联合处理及解释的需要，一般选择一致的纵波和转换波面元尺寸。

当然对于勘探精度而言，只要勘探成本允许，道间距越小越有利于小构造和小断裂的成像，地震响应异常的可靠性也会提高，这也是为何高密度三维(HD3D或Q-Land)在纵波勘探中得到积极推广的原因。

(4)最大炮检距

1)最大炮检距的限制与要求。

①目标勘探深度要求。xmax应近似等于主要目标深度，即xmax≈目标深度。

②速度分析精度要求。通过

三维三分量地震勘探

确定。其中:X为排列长度;P为速度分析精度;vr为均方根速度;Fp为有效波反射主频;t0为目的层双程反射时间。

通常速度分析精度取值在1%～3%之间，根据速度分析精度要求可计算各主要目的层必须的排列长度。

在工区有实际地震资料的情况下，也可以通过分析一系列炮检距的速度谱来大致确定要保证速度分析精度所必须的最大炮检距。

③纵波动校正拉伸畸变限制。动校正拉伸畸变会严重影响反射信号频率，动校正拉伸与排列长度的关系为

三维三分量地震勘探

其中:D为动校正拉伸百分比;t0为目的层双程旅行时;vr为均方根速度。

动校拉伸系数一般在10%～125%范围内选取，对于高分辨勘探而言，要求的动校拉伸系数还可以更小。动校拉伸分析主要确定各主要目的层允许的最大炮检距。

在有实际地震资料的地区，也可以通过动校正后的宏道集来确定最大炮检距的最佳范围。

④转换波动校拉伸和速度分析精度要求。在炮检距x处，转换波动校公式为

三维三分量地震勘探

其中:R=vS/vP;tps0为转换波的垂直旅行时;x为炮检距;xp为转换点到炮点的距离。这里的动校拉伸可定义为

三维三分量地震勘探

可以求取最大炮检距。

当动校正速度的误差为Δv时，动校正时差为

三维三分量地震勘探

如果设速度对动校正量的鉴别精度为Dt(一般为有效周期的1/4)，要求速度分析精度dv/v≤kv(kv为速度精度，一般取3%)，可以得到

三维三分量地震勘探

用这个精确的动校公式可以求取需要的最大炮检距。

⑤AVO分析及叠前纵横波联合反演要求。如果要对目的层进行AVO分析、叠前纵横波联合反演和d性阻抗反演，入射角一般要求达到40°。可以在模拟记录上，进行入射角道集分选来分析主要目的层能够达到的最大入射角。

2)最大炮检距优选分析。

①反射系数及转换系数与炮检距关系分析

根据地球物理参数模型，利用Zoeppritz方程计算P波和PS波反射系数随入射角和偏移距的变化(图322)。据此确定最佳的P波和PS波勘探的炮检距观测窗。

②波动方程正演模拟分析

利用测井资料制作与实际情况吻合较好的地球物理模型，利用波动方程正演方法对纵波和转换波进行模拟，分析确定最佳的最大炮检距。

图322 P波和PS波反射系数随炮检距(左)和入射角(右)变化

③实际转换波资料分析

单边放炮观测系统转换波叠加剖面分析:从单边观测系统不同偏移距分布所对应的转换波叠加剖面来分析叠加效果差的炮检距范围和叠加质量好的炮检距范围，以此确定转换波的最佳观测炮检距窗口。

转换波动校正及切除道集分析:在实际转换波动校正道集上确定最佳切除参数，并以此确定不同目的层的最佳炮检距范围。

不同炮检距转换波叠加剖面分析:针对目的层的不同偏移距转换波叠加剖面对比分析可以直观显示不同炮检距对转换波的贡献，以此确定合适的炮检距范围。

最大炮检距的综合选择除必须满足纵波勘探4个方面(目的层埋深、速度分析精度、动校拉伸畸变、AVO分析)的要求外，还需按纵波和三维三分量地震勘探效能的一定原则确定三维三分量地震勘探的炮检距范围。三维三分量地震勘探的最大炮检距应充分考虑转换横波的接收窗［97］，最好的方式是通过正演模拟分析确定最佳的最大炮检距。通常情况下，转换波的接收窗在中－大炮检距范围内，而纵波的接收窗口在中－小炮检距范围内，但在入射角相同的情况下，转换波要求的炮检距较纵波要小，所以在大入射角(＜35°)勘探的观测系统中，最大炮检距应以纵波满足的原则来确定。而在小入射角(＞25°)勘探时应以满足三维三分量地震勘探的原则确定最大炮检距，此时通常要求遵循双85%的准则，即纵波占0～85%的炮检距范围，而转换波占15%～100%的炮检距范围。

(5)最小炮检距

最小炮检距xmin有两个概念:一个是最小炮检距xmin，另一个是最大的最小炮检距xmm。

1)最小炮检距xmin。

由于转换波在近炮检距的反射波能量较弱，并考虑到近道震源爆破干扰和面波的影响，一般认为最小炮检距应该加大。但考虑要利用初至波信息，采用层析成像反演技术获取近地表速度模型。最小炮检距xmin的选择应越小越好。通常选用05个道间距(25m)。

2)最大的最小炮检距xmin。

希望获得较浅层位的转换波信息，最大的最小炮检距还应满足转换波最浅成像层位的要求，过大的xmin会造成入射角超过转换波临界角，而无法获得浅层的转换波成像。因此最大的最小炮检距应以满足浅层转换波成像要求为原则进行选择。同时要使浅层反射波有好的成像，也应有适当采样和一定的覆盖次数。根据经验法则，xmm应在10zsh至12zsh(zsh为最浅反射层深度)之间。

(6)接收线距

对于纵波，通常根据菲涅尔半径公式

三维三分量地震勘探

来确定纵波勘探的接收线距，接收线距一般不大于垂直入射时的菲涅尔带半径。式中:Rpp为纵波菲涅尔半径;t0为垂直入射时间。

按式(3212)计算各重要目的层的菲涅尔带半径，以不大于最浅目的层菲涅尔带半径为原则确定P波接收线距的取值范围。

对于三维三分量地震勘探而言，线距对CCP覆盖次数均匀性的影响十分明显，还需通过分析CCP的覆盖次数来确定最佳的三维三分量地震勘探接收线距。图323为观测系统参数(道距、炮点距、接收线距等)全部一致，目的层深度5000m，vP/vS=18时，200、300、400、600m线距的CCP覆盖次数对比图。可以看出接收线距越大，CCP覆盖次数差异越大，有的CCP线甚至会出现极低覆盖次数的情况，对转换波各向异性研究极为不利。因此选择小的接收线距有利于CCP覆盖次数的分布，线距越小，CCP覆盖次数的差异越小，分布更均匀。

图323 不同接收线距CCP覆盖次数对比

(7)束间滚动距

常规纵波勘探一般选择滚动半个排列片，或滚动较多的检波线，以获取较高的生产效率，较低采集成本。当然这种做法是以牺牲纵波的最小炮检距、炮检距分布均匀性为代价的。对于三维三分量(3D3C)地震勘探来说，滚动距的大小对于CCP覆盖次数、炮检距分布、方位特性等的影响很大。图324为8线观测系统，分别进行束进滚动1、2、4线，在目的层深度5000m，vP/vS=18时的CCP覆盖次数和炮检距分布对比图。从CCP覆盖次数和炮检距分布图可以看出减小滚动距有利于CCP覆盖的纵、横向分布，并使炮检距分布得到改善。为保证PS波有好的方位特性，最小炮检距和最大炮检距分布均匀，滚动距最好不大于2个线距。

图324 不同滚动距CCP覆盖次数和炮检距分布图(从上往下为1、2、4线滚动)

(8)线束宽窄方位角

对于常规3D纵波勘探而言，观测系统方位角的宽窄选择往往与地质任务的要求、地震地质条件、地理条件和各向异性的严重程度有关。一般情况下，对于复杂山区，地震地质条件较差，表层各向异性严重的地区，采用宽方位观测系统很难得到好的勘探效果。对于三维三分量(3D3C)地震勘探，由于其勘探的目的是研究地下目的层的各向异性特征，其地质任务需求和苛刻的方法技术要求必然导致三维三分量(3D3C)地震勘探的观测系统一定是宽方位或全方位的观测系统。而且，各个方位角扇区内的覆盖次数、炮检距分布等要求有很好的一致性，即方位特征的一致性。最为理想的观测系统是圆形放炮观测系统，即全方位观测系统。

选择宽方位角必然加大最大非纵距，对于纵波3D勘探而言有最大非纵距的限定，主要是为保证3D资料同一面元内不同非纵距和方位角的有效反射在整个道集内能同相叠加。通常的最大非纵距需满足:

三维三分量地震勘探

式中:ymax为最大非纵距;va为平均速度;t0为目的层双程反射时间;θ为目的层倾角。

对于三维三分量(3D3C)地震勘探而言。由于目的层上纵波和转换波在不同方位扇区的PSTM走时和振幅变化，窄方位角的观测系统难以满足P波方位各向异性裂缝检测和转换波分裂裂缝检测的要求。图325为P波和转换波方位各向异性分析的模拟纪录。完整的方位特性，可以在0°～360°范围内形成较好的方位扇区P波、PS波R和t分量的PSTM叠加道，据此对裂缝进行可靠的检测。

图325 全方位观测系统P波(左)、PS波R分量(中)和T分量(右)方位道集

图326为窄方位和相对较宽方位角的对比分析图。可见窄方位观测系统的CCP覆盖次数均匀性明显比较宽方位角的观测系统差。宽方位角或全方位观测系统有利于提供连续的均匀的CCP覆盖次数。

相对于窄方位，宽方位三维三分量(3D3C)地震资料采集具有以下优点:

1)宽方位采集在横向(crossline)方向的不同覆盖次数过渡带比窄方位角小，因此宽方位比窄方位角更容易跨越地表障碍物和地下阴影带;

2)在方向各向异性介质条件下，宽方位角勘探振幅随炮检距和方位角的变化(AVOA)，更具有识别方向裂隙的能力;

3)宽方位角比窄方位角的成像分辨率更高;

图326 宽窄方位角CCP覆盖次数对比

4)由于宽、窄方位角在炮点和检波点的空间采样特性不同，宽方位角成像的空间连续性优于窄方位角;

5)宽方位角在衰减相干噪声、衰减多次波方面强于窄方位角;

6)宽方位有更好的CCP覆盖次数分布和均匀的面元方位特性，有利于利用横波分裂技术检测裂缝。

(9)观测系统类型

近年的研究成果表明，观测系统的类型的选择对三维三分量(3D3C)地震勘探效果影响也比较大。

前人已经对正交式观测系统、砖墙式观测系统及斜交式观测系统进行了研究［42，78，79］，认为斜交式观测系统最有利于CCP覆盖次数的分布。

图327为砖墙式和斜交砖墙式观测系统类型对比图。在覆盖次数、道间距、炮检距、线距、滚动距等主要参数一致的情况下，根据目的层参数，选vP/vS=18，深度5000m，计算CCP覆盖次数、炮检距和方位角分布。斜交砖墙式观测系统在P波66次覆盖的条件下，CCP覆盖次数最高为125次，最低9次，低覆盖次数的CCP线较少(仅有1条);而砖墙式(新场3D3C采用)观测系统CCP最高覆盖次数达到161次，最低9次，且低覆盖次数的CCP线明显增加(达到4条)。在CCP面元炮检距分布和方位角分布特征上看，斜交砖墙式观测系统也好于砖墙式。

根据以上分析结合前人研究成果，斜交或斜交砖墙式观测系统在CCP覆盖次数、炮检距分布、方位角分布及最小炮检距分布等方面比其他类型观测系统更加优越。

斜交砖墙式观测系统边界覆盖次数为锯齿状分布，在满覆盖面积计算、资料处理和解释时要注意其影响。

值得注意的是当希望采用十字正交排列三维锥形滤波压制强面波干扰时，只能选择正交排列观测系统［78］［83－84］。

(10)覆盖次数

三维三分量(3D3C)采集覆盖次数选择主要遵从以下原则:

1)充分压制干扰，提高深层有效反射波能量和转换波能量，改善3D3C资料信噪比;

2)满足P波方位各向异性研究和PS波横波分裂研究的需要;

3)满足沿测线方向速度分析精度和垂直测线方向静校正耦合精度要求;

通常情况下，开展三维三分量(3D3C)地震勘探除了完成常规P波勘探应完成的地质任务外，最重要的目的就是裂缝检测和含气性识别。从裂缝检测的角度上讲，目前国内外较为先进的做法是，将CDP和CCP面元分为若干个均等的扇区(如36、18、12、9个扇区)，分别按各向同性处理方法处理成多个方位PSTM数据体，并依据这些方位数据体进行裂缝预测和纵横波精细成像。

图327 不同观测系统类型对比

要使裂缝预测的方位精度较高，一般会采用18个方位或12个方位的分扇区作PSTM处理，以此开展较高精度的裂缝检测。根据目前转换波信噪比及PSTM对叠加次数的最低要求，至少每个方位应保证不低于10次覆盖，按此计算，总覆盖次数分别需要180或120次。

(11)激发参数

由于转换波能量较弱，三维三分量(3D3C)地震勘探时激发井深应比常规三维地震勘探深。激发药量应比常规三维勘探大。最佳的井深药量应通过详细的生产前试验获得。

(12)接收参数

采用MEMS技术的数字三分量传感器(检波器)，单点接收。其振幅和频率特性见图328，振幅和相位的频率响应具有良好的线性特征。

图328 MEMS数字检波器振幅响应(左)和相位响应(右)图

(13)仪器记录参数

因转换波速度小于纵波，故其旅行时间大于纵波，记录长度应根据转换波决定。转换波的旅行时间用公式

三维三分量地震勘探

计算，其中，x是炮检距，xc是转换点的横坐标，需从方程求出。记录长度选择要满足能够记录到最深目的层的反射信息，同时满足偏移的需要，增加记录时间将使得基底绕射路径更长，用以改善成像的效果。根据规则，30°作为一个适当的偏移孔径可以获得更长的绕射双曲线。因此，考虑基底绕射归位时记录长度t绕射=tbottom/cos(30°)，考虑基底动校正时差和静校正时差时，记录长度应为:

t=t绕射+t动校正(最大约为1000ms)+t静校正(最大不超过500ms)通过分析，对于目的层埋深达到5000m的地区，记录长度应不小于7s。

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

浅谈语音识别技术论文篇一

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to faceThen,the developing prospect ion and application of the speech-identification technology are discussed in the last part

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行 *** 作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏语音识别产业的新发展企业专栏通讯世界,20072:(总l12期)

[2]任天平,门茂深语音识别技术应用的进展科技广场河南科技,20052:19-20

[3]俞铁城科大讯飞语音识别技术专栏语音识别的发展现状企业专栏通讯世界,20062 (总122期)

[4]陈尚勤等近代语音识别西安: 电子科技大学出版社,1991

[5]王炳锡等实用语音识别基础Practical Fundamentals of Speech Recognition北京:国防工业出版社,2005

[6](美)L罗宾纳语音识别基本原理北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

楼主，数据手册综合参照国内外工程实际施工中的技术参数进行统计、分析与整理，并由此制定出符合我国建筑行业国情的技术参数，如果你在智能建筑方案设计上有问题，可以去河姆渡方案馆的专家堂，那里有行业的专家大牛，比如赵哲身（上海大学自动化系教授）、陈晖（上海中心智能化总监）等。

以上就是关于语音识别技术中提取的声音特征的参数具体指什么全部的内容，包括:语音识别技术中提取的声音特征的参数具体指什么、如何获得参数中的实体类、采集参数论证等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9476517.html

语音识别技术中提取的声音特征的参数具体指什么

发表评论

评论列表（0条）