语音搜索功能在哪

语音搜索功能在哪,第1张

今天语音搜索了吗(语音搜索怎么开启)

今天是语音搜索吗?最近被这句话洗脑了。无论是电视还是手机,语音识别功能已经渗透到生活的方方面面。那么,语音识别搜索功能适用于哪些领域呢?技术支持是什么?

今天是语音搜索吗?语音识别已经成为人工智能应用的一个重要点。通过语音控制设备简单方便,各个领域都兴起了研究和应用热潮。数据、算法和芯片是语音识别技术的三大关键。大量高质量的数据、准确快速的算法和高性能的语音识别芯片是提高语音识别的核心。

语音是人工智能产品的主要入口,也是兵家必争之地。相关算法的研究日新月异,CNN RNN CLRNN HMM LACE等模型都是极具优势的,综合使用和修改各种算法比较好。这里对语音识别技术进行了概述。

今天是语音搜索吗?应用场景

目前语音识别广泛应用于智能家居、智能车辆、智能客服机器人,未来将深入到学习、生活、工作的方方面面。国内外许多大公司都在致力于这项技术的研究,并不断推出实用产品。例如,科大讯飞的翻译器可以将中文翻译成其他语言,而且效果不错。

语音识别的商业化,需要内容、算法等多方面的协同支撑,但良好的用户体验是商业应用的第一要素,识别算法是提升用户体验的核心因素。下面将从算法发展路径、算法发展现状和前沿算法研究三个方面来讨论语音识别技术。

算法

对于语音识别系统,第一步是检测是否有语音输入,即语音激活检测(VAD)。与语音识别的其他部分相比,VAD在低功耗设计中采用了always on的工作机制。当VAD检测到语音输入时,VAD会唤醒后续的识别系统。识别系统的整体流程如图所示,主要包括特征提取、识别建模、模型训练和解码得到结果。

首先,我们知道声音其实是一种波。常见的MP3格式都是压缩格式,必须转换成未压缩的纯波形文件进行处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件存储除文件头之外的声音波形的所有点。

语音识别之前,有时需要切断开头和结尾的静音,以减少对后续步骤的干扰。这种无声切割 *** 作通常称为VAD,它需要一些信号处理技术。

要分析声音,就要对声音进行分帧,也就是把声音切割成小段,每一小段称为一帧。分幅 *** 作一般不是简单的剪切,而是利用移动窗口功能来实现。

分帧后,讲话变成许多小段。但是波形在时域上几乎没有描述能力,所以需要对波形进行变换。常见的方法是提取MFCC特征,根据人耳的生理特点,将每一帧波形转化为多维向量。可以简单理解为这个向量包含了这一帧语音的内容信息。这个过程被称为声学特征提取。在实际应用中,这一步有很多细节,MFCC并不是唯一的声学特征。

此时,声音变成一个12行(假设声学特征为12维)N列的矩阵,称为观察序列,其中N为总帧数。注意每一帧都用一个12维向量表示,色块的色深表示向量的值。

接下来,我们将介绍如何将这个矩阵转换为文本。首先,我们将介绍两个概念:

音位:单词的发音由音位组成。对于英语来说,一个常见的音素是卡内基梅隆大学的一组39个音素。在汉语中,所有的声母和韵母都直接作为音素集。另外,汉语识别可以分为有声调和无声调。

状态:可以理解为比音位更细致的语音单位。通常,一个音素被转换成三种状态

今天是语音搜索吗?语音识别是如何工作的?其实一点都不神秘。无非是:

识别帧为状态(难度);

将状态组合成音素;

将音素组合成单词。

每个竖条,几帧语音对应一个状态,每三个状态组合成一个音素,几个音素组合成一个单词。也就是说,只要知道每一帧对应哪个状态,语音识别结果就出来了。

每个音素对应哪种状态?例如,在下面的示意图中,该帧在S3州的条件概率最高,因此猜测该帧属于S3州。

这些概率是从哪里读到的?有个东西叫“声学模型”,里面储存了很多参数。通过这些参数,我们可以知道相应帧和状态的概率。获取大量参数的方法称为“训练”,需要海量的语音数据。

但是有一个问题:每一帧都会得到一个状态号,最后整个语音会得到一堆乱七八糟的状态号。假设有1000帧语音,每一帧对应一个状态,每三个状态组合成一个音素,大概会组成300个音素,但是这个语音根本没有这么多音素。如果这样做了,所获得的状态可能根本不会组合成音素。实际上,相邻帧的状态应该都相同是合理的,因为每一帧都很短。

解决这一问题的常用方法是隐马尔可夫模型(HMM)。这个东西听起来很深奥,其实用起来很简单:

第一步是建立一个国家网络。

第二步是找到与来自州网络的声音最匹配的路径。

这样结果就限定在预置的网络内,避免了刚才说的问题。当然,这也带来了一个局限性。比如你设置的网络只包含两句话的状态路径:“今天天气晴朗”和“今天下雨”。所以,不管你说什么,结果一定是这两句话中的一句。

如果你想识别任何文本呢?使这个网络足够大,可以包含任何文本路径。但是网络越大,越难达到更好的识别准确率。因此,应根据实际任务要求合理选择网络规模和结构。

构建状态网络就是从词级网络扩展音素网络,再扩展状态网络。

语音识别的过程其实就是在状态网络中搜索最佳路径,语音对应于该路径的概率最高,这就是所谓的“解码”。路径搜索算法是一种动态规划剪枝算法,称为维特比算法,用于寻找全局最优路径。

这里所说的累积概率由三部分组成,即:

观察概率:每一帧每一状态的概率。

转移概率:每个状态转移到自身或下一个状态的概率。

语言概率:根据语言统计规律得出的概率。

其中,前两个概率是从声学模型中得到的,最后一个概率是从语言模型中得到的。利用大量文本训练语言模型,可以利用某种语言的统计规律来帮助提高识别准确率。

今天是语音搜索吗?语言模型非常重要。如果不使用语言模型,当状态网络较大时,识别结果基本是一塌糊涂。这样基本上语音识别过程就完成了。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/5303163.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-08
下一篇 2022-12-08

发表评论

登录后才能评论

评论列表(0条)

保存