MPEG-2感知编码系统充分利用了心理声学中的掩蔽效应和哈斯效应,利用压缩编码技术,将原始音频信号中不相关分量和冗余分量有效的去除掉,在不影响人耳听觉阈度和听音效果质量上,将音频信号压缩。
4.1 MPEG音频子带编码器的基本结构
感知型子带音频编码器不断地对音频输入信号进行分析。由一个心理声学模型动态地确定掩蔽门限,即在该掩蔽门限之下的多余的噪声是无法为人的听觉系统听到的。由该心理声学模型产生的信息被馈至一个比特分配模块,该模块的任务是将各声道可用的比特以一种优化的方式在频谱范围内进行分配。输入信号还与上述过程并行地被分割到一系列称为子带的频带中。每个子带信号都在经过定标处理后被重新进行量化,该量化编码过程引入的量化噪声不能超过已确定的对应子带的掩蔽门限。
因此量化噪声频谱就与信号频谱进行了动态自适应。“比例因子”和各子带所使用的量化器的相关信息与编码后的子带样值一同进行传输。
解码器可以在不了解编码器如何确定编码所需信息的情况下对码流进行解码。这可以降低解码器的复杂度,并为编码器的选择和解码器开发提供了很大的灵活性。如在心理声学研究上取得了新的结果,则更高效率和更高性能的编码器可在与所有现有解码器完全兼容的条件下得以应用。这一灵活性目前已有了成功的例子,现在最高技术水平的编码器的性能已超过了谈兄标准化过程中使用的早期编码器。如图12所示。
4.2 层
MPEG音频标准包括了三种不同的算法,称为层。层数越高,相应可达到的压缩比就越高,而复杂度、延时及对传输误码的敏感度也越高。层II专门对广播应用进行了优化。它使用了具有32个等宽子带划分的子带滤波,自适应比特分配和块压扩。单声道的码率范围为32-192 kbps,立体声为64-384 kbps。
它在256 kbps及192 kbps相关立体声条件下的表现十分出色。128 kbps(立体声)条件下的性能在许多应用中仍可接受。
4.3 MPEG-2在多声道音频方面的扩展
ITU-R工作组TG10-1在关于多声道声音系统的建议方面进行了工作。该项工作的主要成果就是建议BS.775,其中说明一个适当的多声道声音配置应包含五个声道,分别代表左、中央、右、左环绕、右环绕声道。如果使用了一个作为选项的低频增强声道(LFE),则该配置被称为“5.1”。五声道配置也可表示为‘3/2’,即三个前置声道及睁亮两个环绕(后置)声道。
MPEG已认识到应根据ITU-R建议775来增加音频标准的多声道能力的必要性。
这是在第二阶段完成的,由此产生了MPEG-2音频标准。在多声道声音方面的扩展支持在一路码流中传输五个输入声道、低频增强声道以及7个旁白声道。该扩展与MPEG-1保持前向及后向兼容。前向兼容性意味着多声道解码器可正确地对立体声码流进行解码。后向兼容性则意味着一个标准的立体声解码器在对多声道码流进行解码时可输出兼容的立体声信号。
这是通过一种真正的可分级方式实现的。在编码器端,五个输入声道被向下混合为一路兼容立体声信号。该兼容立体声信号按照MPEG-1标准进行编码。所有用于在解码器端恢复原来的五个声道的信息都被置于MPEG-1的附加数据区内,该数据区被MPEG-1解码器忽略。这些附加的信息在信息声道T2、T3及T4以及LFE声道中传输,这几个信息声道通常包含中央、左环绕和右环绕声道。MPEG-2多声道解码器不但对码流中的MPEG-1部分进行解码,还对附加信息声道T2、T3、T4及LFE解码。根据这些信息,它可以恢复原来的5.1声道声音。如图13所示。
13 MPEG-2编码器/解码器框图
当相同码流馈送至MPEG-1解码器时,解码器将只对码流的MPEG-1部分进行解码,而忽略所有附加的多声道信息。由此它将输出在MPEG-2编码器悉侍宽中经向下混合产生的两个声道。这种方式实现了与现有的双声道解码器的兼容性。也许更为重要的是,这种可分级的方式使得即使在多声道业务中仍可使用低成本的双声道解码器。考虑到所使用的其它所有编码策略,多声道业务中的双声道解码器本质上就是一个对所有声道进行解码并在解码器中产生双声道向下混合信号的多声道解码器。如图14所示。
图14
就其包含了不同的可由编码器使用以进一步提高音频质量的技术而言,该标准是具有很大灵活性的。
4.4 定向逻辑兼容性
如果源素材已经经过环绕声编码(如Dolby环绕声),广播业者可能希望将它直接播送给听众。一种选择是将该素材直接以2/0(仅为立体声)模式播送。环绕声编码器主要是将中央声道信号分别与左右声道信号同相相加,而将环绕声道信号分别与左右声道信号反相相加。为能对这些信息正确解码,编解码器必须保持左右声道彼此之间的幅度和相位关系。这在MPEG编码中是通过限制强度立体声编码
只能在高于8kHz的频率范围内使用而得以保障的,因为环绕声编码仅在低于7kHz的范围内使用环绕声道信息。如图15所示。
图15 使用MPEG-1音频播送环绕声素材
当传输多声道信息时,与现有(专利的)环绕声解码器的兼容性可通过几种手段得以实现。多声道编码器在工作时使用一个环绕声兼容的矩阵。这可以使立体声解码器能够接收环绕声编码的信号,并可选择将其传送给环绕声解码器。一个完整的多声道解码器将对所有信号进行再变换,以获得原来的多声道表现。MPEG-2多声道语法支持这种模式,进而也为DVB规范所支持。如图16所示。
图16 MPEG-2音频混合后环绕声兼容性
4.5 MPEG-2在低采样率方面的扩展
除了在多声道方面的扩展外,MPEG-2音频还包含了MPEG-1音频在低采样率方面的扩展。该扩展的目的是以一种简单的方式获得改进的频谱分辨率。通过将采样率减半,频率分辨率就提高了两倍,但时间分辨率则劣化了两倍。这可使许多稳态信号获得更好的质量,而对一些在时间特性上要求严格的信号而言质量则下降了。半采样率的使用是在码流中通过将每帧帧头中的某一比特,即ID位置设为“0”
来表示的。而且,可用码率表也进行了修改,以便在低码率条件下提供更多的选择,每个子带可用的量化器也为适应更高的频率分辨率作了修改。
5、先进音频编码(Advanced Audio Coding-AAC)
MPEG AAC(先进音频编码)是于1997年成为ISO/IEC标准的(参见ISO/IEC 13818)。AAC是以新建立的MPEG-4标准中的时域到频域映射的编码算法组成的。AAC从提高效率的角度出发,放弃了与原MPEG-1解码器的后向兼容性,这也是该算法在开始时被称为NBC的原因。
5.1 AAC的主要特点
AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语声声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。在码率为64kbps/声道的条件下,AAC可以提供很高的声音质量。
根据不同的应用场合,AAC提供了三种类型(Profile)以供选择,即主要类型(Main Profile)、低复杂度类型(Low Complexity Profile)、可放缩采样率类型(Scaleable Sampling Rate, SSR Profile)。因而其可应用范围很广。
5.2 AAC算法结构
为提高音频编码效率,AAC采用了许多先进技术,如霍夫曼编码、相关立体声、声道耦合、反向自适应预测、时域噪声整形、修正离散余弦变换(MDCT)、及混合滤波器组等。其算法基本结构框图如图17所示。
图17
其中,滤波器组与MPEG层III所采用的滤波器组相比,由于层III算法在对滤波器进行选择时考虑了兼容性问题,因而具有固有的结构上的不足;而AAC则直接采用了MDCT变换滤波。同时,AAC增加了窗口长度,由1152点增至2048,使MDCT的性能优于原来的滤波器组。
时域噪声整形(TNS)技术是时域/频域编码中一项新颖的技术。它利用频域的自适应预测的结果来对时域中量化噪声的分布进行整形处理。通过采用TNS技术,可以使特殊环境下的话音信号质量得到显著的提高。
后向自适应预测是一项在语音信号编码系统领域建立起来的技术。它主要利用了某一特定形式的音频信号易于预测的特点。
在量化过程中,通过对量化精度更为精细的控制,可以使给定的码率得到更加有效的利用。
在码流复接时,通过对必须传输的信息进行熵编码使冗余度降至最低。
通过以上各种编码技术的运用以及采用一种可变的码流结构,使AAC编码算法在得到大大优化的同时,也为将来进一步提高编码效率提供了可能性。
事实上,在AAC编码的三种类型中,各种编码技术的使用也是不同的,也就是说,三种类型的算法复杂度是不同的。这一不同考虑了编、解码两端的算法复杂度。例如,后向自适应预测约占解码运算量的45%左右,在LC和SSR类型中都没有采用这一技术。另外,在LC类型中,TNS滤波器的长度被限制为12个系数,但仍保持了18 KHz带宽;在SSR类型中,TNS也只使用12个系数,并且带宽限制为6 KHz,同时该类型也没有采用声道耦合技术,在混合滤波器组的结构及增益控制方面也与另两种类型不同。
AAC可以在低数据率的情况下提供较高质量的音频信息,如每个声道仅64kb/s时就会有比较好的性能。
AAC当前的应用主要用于日本的数字音频广播及美国的IBOC(带内同频技术)。
6、用于DTS的相干声学编码DTS系统中采用的数字音频压缩算法——相干声学编码,主要目的就是用于提高民用音频重放设备重放的音频质量的,其音频重放质量可以超越原有的如CD唱片的质量。同时通过更多扬声器的使用,使得听众可以感受到普通立体声无法达到的声音效果。因此总体目标就是将听众真正的带入专业的音响领域及多声道环绕声的天地。
相干声学编码器是一种感知、优化、差分子带音频编码器,它使用了多种技术对音频数据进行压缩。下面将分别对其进行详细的描述。从整体来看,编码器与解码器的实现是不对称的。理论上编码器可以设计的非常复杂,但实际上,编码器发展成为包括两种音频分析的模式。解码器与编码器相比则简单的多,因为解码算法是根据编码数据流中的参数来控制的,解码器不需要做任何的计算来决定重放的音频质量。
6.1 编码过程
编码过程中的第一步是通过一个多相滤波器组将每个声道的全频带24比特线性PCM源信号进行分割到一定数目的子带中去。这种滤波方式提供了一种框架,既可以消除频谱滚降较快的音频信号分量,同时又去除了感知上的冗余度。多相滤波器只要通过低复杂度的计算就可以实现更好的线性、更高的理论编码增益和更理想的阻带衰减。每一个子带信号都包含了相应的、严格限制带宽的线性PCM音频数据。子带的个数及相应的带宽是由源信号的带宽来决定的,一般情况下分为32个独立的子带。
图18 相干声学编码器流程图
在每个子带中进行差分编码(子带ADPCM),这一步可以去除信号中的客观冗余量,如周期很短的信号。
通过对信号的对比分析、心理声学及信号瞬态的分析可以判断信号中的感知冗余信息。通过子带范围比特率的选择和上述分析的结果,来调整对每个信号的差分编码程序的执行。差分编码与心理声学模型(如噪声掩蔽门限)的结合可以得到较高的编码效率,甚至可以在不影响主观听觉的基础上进一步降低比特率。
如果使用较高的比特率,那么对于心理声学模型的依赖性则相对较弱,但可以肯定随着比特率的增加,编码信号的保真度也会提高。
比特指派程序管理着所有音频声道中子带信息的编码指派和分配。在时间和频率上的自适应可以优化音频质量。作为音频编码系统设计的基础,比特指派程序通过对音频信号比特的分配和使用的比特率来决定音频质量。通过在编码策略中独立的执行这些程序使得运算的复杂程度大大提高,但是这样做却可以使得解码器相对的简单。相反,随着比特率的增加,比特指派程序的灵活性也将大大降低,但是可以确保音频质量的透明性。
编码过程中最后一步就是将来自每个子带ADPCM处理后的音频数据进行数据复用(或称打包)。数据复用器将所有声道中子带数据加上附加的辅助信息进行打包,形成特殊数据语法格式的编码数据流。在数据流中加入的同步信息将用于解码器对编码数据流的同步。
6.2 对编码数据流同步以后,首先就是对编码数据流进行解包,如果必要的话还将对编码数据流进行检错及误码校正,然后将解包的音频数据送到相应声道的子带中去。
图19 相干声学解码器流程图
第二步是通过在每个子带中传输的辅助信息指令,对子带中的差分信号进行反量化得到子带PCM信号。这些通过反量化得到的子带PCM信号再进行反滤波处理,得到每个声道的全频带的时域PCM信号。在解码器中,没有程序用于音频质量的调整。
在解码器中包括一个可选的DSP功能模块,这个模块主要用于用户的编程使用。它允许对单个声道或全部声道中子带或是全频带PCM信号进行处理。这些功能诸如上矩阵变换、下矩阵变换、动态范围控制以及声道之间的延时调整等。
6.3 DTS系统最早是用于电影应用中的。在1993年的电影“Jurassic Park”(侏罗纪公园)中,没有使用AC-3,而是使用了DTS多声道数字音频系统。DTS系统中的音频数据是存储在一张CD-ROM上的,取代了将声音记录在胶片上的方式,而是在胶片上记录用于同步CD-ROM音频信息的时间码,通过电影胶片上的时间码来同步播放CD-ROM。由于CD-ROM与电影胶片磁迹相比,具有更大的容量和更稳定的可靠程度,因此它可以在4:1压缩比的情况下提供质量更高的多声道音频信息。对于AC-3来说,典型的压缩比为12:1。随着应用的普及,DTS系统又提出一种低数据率版本,其参数规范如下:
音频声道的个数DTS=1——10.1
FsDTS=8——192kHz
RDTS=16——24bit
BDTS=32——6144kb/s
数据帧大小DTS=512样本
在低数据率版本中,由0到24kHz的32个子带的频率,通过一个512抽头的多相正交镜象滤波器(PQMF)来实现从时域到频域的映射。另外8个附加的子带覆盖了24kHz到48kHz之间频率范围,2个附加的子带覆盖了48 kHz到96 kHz之间的频率范围。为了进一步减小冗余度,采用了前向自适应线性预测,同时心理声学模
型用来对信号进行预测,在量化过程中使用了标度量化和矢量量化。
DTS的大多数应用都是采用相对较小的压缩比、工作在几乎无损情况的模式下的。一般来说,数据率在1Mb/s的情况下,DTS可以提供较好质量的音频。DTS的应用也主要是在电影、CD及DVD视频中。另外,DTS所具有的可变比特率编码方式使得它同样可以应用于DAB及DVD的广播中。
7、数字音频广播系统的发展是从85年以后开始的,其中包括了我们熟知的Eureka 147 DAB(尤里卡147数字音频广播)和DVB。不断发展的数字调制方式及编码算法都为数字音频广播提供了更加有效的传输和存储方式,使得在有限的带宽中以较低比特率来传输声道数更多、质量更优的音频信号成为可能。同样在数字音频广播系统的发展中也充分利用了这些以此为核心的新技术。以前,立体声广播起着主导的作用,现在随着越来越多的多声道数字音频系统的应用,在数字音频广播领域也已经开始接纳并制定相关的音频标准了。在Eureka 147 DAB和DVB中,已经包括了多声道数字音频的扩展。
7.1 Eureka 147 DAB国际协议是于1986年由16个欧洲成员组织为制定数字音频广播标准而制定的标准规范。随后又有一些新的组织机构加入到这项协议工作中去,并于1995年形成了第一个DAB的标准。在同一年中,世界范围的DAB论坛也相继成立,它们的目标就是促进世界各地更多的组织机构采用以Eureka 147 DAB为
蓝本的数字音频广播的实现。
Eureka 147 DAB系统的设计是用来取代现行的FM广播业务的,它采用COFDM(编码正交频分复用)以便于更好地进行移动接收和克服多径效应,载波采用DQPSK(差值正交相移键控)进行调制,通道编码采用卷积编码,以满足可调整码率的需要。
Eureka 147 DAB系统使用1.536MHz的频谱带宽来传输最大不超过1.5Mb/s的数据,因此对于多声道来说,如为6个声道,则每个声道的数据率最大不超过256kb/s。对于声道如何分配及使用,则是根据节目数量/数据业务与音频质量来折衷考虑的。由于早期的Eureka 147 DAB源编码的发展没有反映出当前最新发展的技术,同时由于历史原因及DAB标准由欧洲制定,而欧洲长期以来都采用的是MPEG技术,考虑到兼容等问题,因此DAB系统中音频编码系统采用的是MPEG Layer II编码方案。不能说MPEG Layer II编码方案有什么不好,但是如果我们综观当前多声道数字音频系统的最新发展,不难看出,有更多更好的方案可以被采用,如在提高声音质量上可采用DTS系统,在增加声道数目上可采用MPEG AAC系统。
7.2 DVB项目是在1993年由220多个世界组织来制定建立的。这些世界组织包括广播业者、制造商、网络管理者和致力于发展数字电视标准的各种组织机构。最早的DVB业务是在欧洲开始的,现在DVB标准不仅是欧洲的数字电视标准,而且它也扩展到亚洲、非洲、美洲及澳大利亚等地区,成为这些地区数字电视的选择标准
之一。与此不同的美国采用的是ATSC系统。
在DVB的标准中规定了三个子系统:DVB-S(卫星)、DVB-C(有线)和DVB-T(地面)系统。DVB-S系统是一种单载波系统,是最早实现的DVB标准,它是建立在正交相移键控(QPSK)调制和通道编码(卷积编码和里得-所罗门块编码)的基础之上的,典型的码率为40Mb/s左右。DVB-C系统是以DVB-S系统为基础建立的,不同的是它采用QAM(正交调幅)调制方式,取代了用于DVB-S中的QPSK调制方式。在DVB-C中如果使用64点QAM调制,则可以实现在8MHz的带宽中传输38.5Mb/s的数据。DVB-T系统与以上两者都不同的是采用了COFDM的调制方式,而通道编码则与前两者基本相同。在DVB-T系统中,可以实现在7MHz的带宽中传输19.35Mb/s的数据。
DVB系统的源编码是建立在MPEG-2视频和MPEG-2系统标准上的。同时在DVB中也提供了与立体声相兼容的多声道数字音频系统。同样由于历史及其他一些原因,在DVB音频部分中仍然采用的是MPEG Layer II多声道数字音频系统,在DVB的标准中也同时规定可以采用灵活性更大、质量更高,超过MPEG Layer II MC系统的多声道数字音频系统作为DVB的音频部分。
总之,随着数字广播的不断发展,相信这些已经成熟的各种技术都将有它们各自的用武之地。
8、结语
在本文中,我们主要讨论了当前较流行、较成熟的几种多声道数字音频系统,同时也对它们所采用的编码方法的主要技术做了详尽的分析比较。随着存储媒体及传输带宽技术的不断发展,相信多声道数字音频系统会逐渐取代传统的如CD格式的音频系统;同样应用于多声道数字音频系统中的音频编码及传输方案也会不断的进行更新、发展。更多声道的实现及更高质量的音频系统实现都会成为可能,如新建立的DVD-Audio音频技术中的编码方案已远远超越了PCM音频方式。
总而言之,我们相信在今后的数字广播的发展中,不管是DVB、DAB、数字视频、音频广播,还是ATSC数字电视系统等,都将会采用不受带宽限制(相对而言)、可提供更高质量、更多声道的多声道数字音频系统。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)