Abstract:
语音识别或者语音通信会混响影响清晰度和可理解度。混响分为早期混响和晚期混响,早期混响对语音识别和通信具有积极作用,晚期混响会降低语音的清晰度和可理解度。去混响工作的主要挑战就是对晚期混响的谱方差进行估计。这篇论文中,作者基于直接路径上的能量贡献提出了统计混响模型。基于此推导出更一般的晚期混响谱方差的估计器,在一般的情况下可退化为已经存在的LRSV估计器。在声源-mic的距离小于临界距离(临界距离指直接路径的能量和混响能量相等的距离)时,实验结果显示出其先进性。
一、
混响会使语音的因素变长,与后面的音素重叠,降低语音清晰度。大多数的去混响方法是抑制晚期混响,或者是估计早期混响,并假设早期混响和晚期混响相互独立。大多数的方法是在时频域进行谱增强。为了进行谱增强,需要估计后期混响语音分量的短期功率谱密度(或统计的谱方差)。因此,主要的挑战是从混响麦克风信号中估计晚期混响语音分量的频谱方差。在过去的十年中,已经开发了几个晚期混响谱方差(LRSV)估计器。大多数LRSV估计是基于统计混响模型,在时域中制定。本论文,作者提出了统计混响模型,充分考虑了直接路径能量和混响能量的贡献。
文章第二部分公式阐述,第三部分提出时频域的统计混响模型。第四部分推导出LRSV的估计器,第五部分对估计器性能评估,第六部分得出结论。
二、
混响信号由干净信号和因果AIR h(n)卷积而成。假设AIR是时不变的并且无限长。
(1)
时频域:
(2)
上式中:l是帧索引,k是频点索引,R是离散时间变换,是长度为N的窗函数。
(3)
上式中:k和k’是频带和交叉频带索引。
(4)
上式中:与分析窗和合成窗相关。
(5)
因为我们是抑制晚期混响,所以将AIR分成两部分:
(6)
上式中:He表示直接路径以及一些早期反射,Hl表示晚期反射。Ne是分别早期混响和晚期混响的阈值。具体来说,就是我们根据直接声音到达的时间测量晚混响开始的时间。
(7)
(8)
(9)
Ze(l, k)的估计可以通过 获得。但是,需要已知,这也是一个挑战。为了避免求H,我们直接估计。在第三部分,作者提出了基于小参数集的关于H的统计模型。
三、
作者提出了时频域的频带到频带的统计模型,充分考虑了直接路径的影响。
(10)
上式中:α(k)是与混响时间相关的衰减率,Bd和Br是零均值、独立同分布的高斯随机变量,
令
谱方差可以由下式计算得到:
(11)
上式中:α(k)是与频率相关的混响时间:
根据所提出的模型,直接路径的能量为,所有的反射能量为:
上式中:DRR为直接-混响率。
四、晚期混响谱方差估计:
上式中:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)