OFDM中,导频和训练序列的作用是什么?如何用Matlab实现

OFDM中,导频和训练序列的作用是什么?如何用Matlab实现,第1张

在80211a(也就是OFDM的一个版本)作为例子,前导分成两个部分,SFD和LFD,即短训练序列和长训练序列。短训练序列用来做帧同步以及频率同步的,首先帧同步就是发现一个帧的到来,或者说是找到一个帧的开头。在SFD中,其首先重复发送10次同样的序列,然后接收方采用自相关的方法识别(简单理解就是第二个序列和第一个序列做相关,如果完全相同就是一个峰值,PS:也可以采用互相关,但是在80211a中选择的是自相关,互相关在时延扩展较大的情况下容易产生误识别)。本地一直做自相关,如果能识别到1个尖峰,那么就意味着识别到一个数据帧的到达。同时,其利用SFD的相关值做频率同步,即本身没有频率偏差的时候,其已知一个相关值(该值是前面10个相关的总和,且没有频率偏差),然后实际做相关的时候,又得到一个相关值(这个时候有频率偏差),通过这两个值相除加上一些三角运算就可以得出所需要的频率偏差,从而做频率修正。在LFD的时候,实际上是对于这一块频率修正做细化,LFD只有一个长序列并且发送一次,用所有子载波进行发送,然后接收方利用互相关进行计算频率偏差,从而修正。同时相关还可以做信道系数的检测,原理还是实际相关值/理想相关值获得的就是信道衰落的一个系数,这里就可以避免将噪声带入来求信道系数,也是由于信号与噪声相关不上才可以利用的一个性质,即相关值为0。至于代码可以直接翻matlab的help里面有一份80211a的基带的simulink的代码,应该在R2009a的版本以后都有,不过其没有SFD,仅仅包含LFD而已。
------------------------------------------------------------------------------------------------------------------------------
分界线:前面题目看错了,上面说的是preamble,而不是导频pilot,不好意思。
导频信号实际上也是作为参考信号使用的,在80211a中,一共有4个工作的导频信号。导频一般主要用来做信道估计的,同时如果导频如果做同步作用的话,这里一般是在说是载波同步,帧同步是由前导做的,而不是导频。
如果采用训练序列做导频的话,那么就是通过训练序列的信息,实时估计信道,从而再做信号的矫正,从而再解调的时候减少误码率之类。

如果是最简单的平坦瑞利衰落,将星座图映射后的信号,乘以功率为1的复高斯信号就完成了。在接收端判决前,除以信道系数(即前边的复高斯信号),就可以判决了。这样肯定是0误码率。在加入衰落后,还可以加入不同功率的白噪声,进而得到SNR-BER曲线
如果多径,还要在接收端引入均衡,均衡有很多种。
可以看看simulink中自带的例子

所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
声纹识别及其应用
声纹识别的应用有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户青睐,声纹识别的世界市场占有率158%,仅次于手指和手的生物特征识别,并有不断上升的趋势。
1。声纹识别的分类
声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。
从另一方面,声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。根据特定的任务和应用,两种是有不同的应用范围的。比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为你无法要求犯罪嫌疑人或被侦听的人配合。
在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。前者假定待识别说话人可以在集合外,而后者假定待识别说话人在集合内。显然,开集辨认需要有一个对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果。本质上讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效果,通常需要训练一个假冒者模型或背景模型,以便拒识时有可资比较的对象,阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。一个好的背景模型,往往需要通过预先采集好的若干说话人的数据,通过某种算法去建立。
如果技术达到一定的水平,可以把文本相关识别并入文本无关识别,把闭集辨认并入开集辨认,从而提供更为方便的使用方法。比如北京得意音通技术有限公司的“得意”身份z就是文本无关的、开集方式的说话人辨认和确认,“得意”身份zSDK还提供建立背景模型的工具。
2。声纹识别的关键问题
声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别)。
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等。
根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题。例如,对“信道”信息,在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可以辨认出来;而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模仿等带来的影响。
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;……。当然,这些问题也可以通过模型方法去解决。
对于模式识别,有以下几大类方法:
(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
(7)……
声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。
对说话人确认,还面临一个两难选择问题。通常,表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关。在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”。我们把真正阈值的调整称为“ *** 作点”调整。好的系统应该允许对 *** 作点的自由调整。
3。声纹识别的应用
声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。
(1)信息领域。比如在自动总机系统中,把“得意”身份z之声纹辨认()和“得意”关键词检出器(>

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12597635.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存