存储技术不是媒体接入技术。
媒体接入技术是指对于媒体资源的获取、接收和传输,常用的技术包括:
1 有线技术:如中继、光纤等,常用于电视、广播等媒体传输领域。
2 无线技术:如卫星、无线电、蓝牙和WIFI等,常用于移动通讯、语音和数据传输等领域。
3 编解码技术:如H264, AAC等在数字音视频传输、编码和解码中广泛应用。
4 传输协议:如TCP/IP,>
声学信号预处理是语音识别的基础与前提。
在语音识别中,声学信号预处理是指对原始语音信号进行滤波、降噪、增益等一系列预处理 *** 作,以便于后续的特征提取和模型训练。由于语音信号受到环境噪声、说话人个体差异等因素的影响,其质量和可靠性往往不够稳定和准确,因此需要通过预处理来尽可能地消除这些干扰因素,从而提高语音信号的质量和识别率。作为语音识别的前提与基础,语音信号的预处理过程至关重要。
语音识别的应用场景非常广泛,例如语音助手、智能家居、智能医疗、智能交通等领域。
语音识别是完成语音到文字的转换。自然语言理解是完成文字 到语义的转换。语音合成是用语音方式输出用户想要的信息,用语音实现人与计算机之间的交互,主要包括语音识别、自然语言理解和语音合成。
相对于机器翻译,语音识别是更加困难的问题。机器翻译系统的输入通常是印刷文本,计算 机能清楚地区分单词和单词串。而语音识别系统的输入是语音,其复杂度要大得多,特别是口语 有很多的不确定性。人与人交流时,往往是根据上下文提供的信息猜测对方所说的是哪一个单 词,还可以根据对方使用的音调、面部表情和手势等来得到很多信息。特别是说话者会经常更正所说过的话,而且会使用不同的词来重复某些信息。显然,要使计算机像人一样识别语音是很困难的。
语音识别过程包括从一段连续声波中采样,将每个采样值量化,得到声波的压缩数字化表 示。采样值位于重叠的帧中,对于每一帧,抽取出一个描述频谱内容的特征向量。然后,根据语音信号的特征识别语音所代表的单词,语音识别过程主要分为五步,如下:
01
语音信号采集
语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为 电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。
目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声 卡是计算机对语音信进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功 能。而且,现代 *** 作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。
对于现场环境不好,或者空间受到限制,特别是对于许多专用设备,目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。
02
语音信号预处理
语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理, 然后才能进入识别、合成、增强等实际应用。
滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/:为采样频率),以防止 混叠干扰;二是抑制50 Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。
A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信 号值与原信号值之间的差值为量化误差,又称为量化噪声。
预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带 中,能用同样的信噪比求频谱,便于频谱分析。
端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减 少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方 法。时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不 同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语 音检测,计算量较大。
03
语音信号的特征参数提取
人说话的频率在10 kHz以下。根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠。例如,当使用20kH的采样频率时,标准的一帧为10 ms,包含200个采样值。
话筒等语音输入设备可以采集到声波波形。虽然这些声音的波形包含了所 需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能 够帮助辨别单词的特征信息。在语音识别中,常用线性预测编码 技术抽取语音特征。
线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线 性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。
语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。
04
向置量化
向量量化(Vector Quantization,VQ)技术是20世纪W年代后期发展起来的一种数据压缩和 编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。
在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入 的标量信号,量化时落入小区间的值就用这个代表值>[戈替。因为这时的信号量是一维的标量,所 以称为标量量化。
向量量化的概念是用线性空间的观点[,把标量改为一维的向量,对向量进行量化。和标量量化一样,向量量化是把向量空间分成若干个小区域,每个小区域寻找一个代表向量,量化时落入 小区域的向量就用这个代表向量代替。
向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的 特征向量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。
05
语音识别
当提取声音特征集合以后,就可以识别这些特征所代表的单词。本节重点关注单个单词的 识别。识别系统的输入是从语音信号中提取出的特征参数,如LPC预测编码参数,当然,单词对 应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础上的。
以上就是关于下面哪种技术不是媒体接入技术全部的内容,包括:下面哪种技术不是媒体接入技术、语音识别系统的原理、什么是语音识别的基础与前提等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)