Google Brain推出语音识别新技术助力商业发展_技术

受先前语音和视觉领域增强成功的启发，Google Brain最近提出了SpecAugment，一种数据增强方法，它 *** 作输入音频的对数mel光谱图，而不是原始音频本身。SpecAugment方法不但非常简单，计算成本也很低，因为它直接作用于对数mel光谱图，而不需要额外的数据。这种简单的方法非常有用，并使研究人员能够训练端到端的监听参与和拼写ASR网络。

通过使用简单的手工策略增加训练集，即使没有语言模型的帮助，研究人员也能够在端到端的LAS网络上获得librispeech 960h和Switchboard 300h超越混合系统的性能。它优于复杂的混合系统，通过使用更大的网络和更长的训练时间，SpecAugment能够达到最先进的效果。

全球自动语音识别（ASR）市场预计在2016年至2024年间以超过15%的复合年增长率增长。随着先进电子设备的飞速使用，人们对开发尖端功能和效率的需求越来越大，这样的功能和效率提高了应用的ASR精度。SpecAugment显著提高了ASR的性能，并可能成为人工智能工程师驱动下一代ASR应用程序所需的必要条件，这些应用程序包括机器人、交互式语音响应、自定义词典、视频游戏、语音验证、家用电器等。

使用一维CNN的端到端环境声音分类模型，加拿大的一组研究人员最近提出了一个端到端的一维CNN环境声音分类模型。根据音频信号的长度，该模型由3-5个卷积层组成。与许多传统方法实现二维表示的传统模型不同，这一模型是直接从音频波形中学习分类器。

在对包含8732个音频样本的数据集进行评估时，新方法演示了几种相关的分类器表示，其结果超越了现有的基于二维实例和二维CNN的最优效果。此外，在环境声音分类方面，该模型比大多数其他CNN体系结构的参数都要少，与传统的二维体系结构相比，平均精度要高出11%到27%。

根据这篇论文的评价结果，该方法在提供高度鲁棒的环境声音分类应用上具有很好的应用前景。

对于初学者来说，它的效率很高，与传统的2D CNN相比，它只需要很少的训练数据（后者需要数百万个训练参数）。它还实现了最先进的性能，可以通过实现滑动窗口处理任意长度的音频信号。最后，它紧凑的体系结构大大降低了计算成本。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/dianzi/2564189.html