音频编码技术标准
电话质量的音频压缩编码技术标准
电话质量语音信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kbit/s,即椄一个数字话路。1972年CCITT(现称为ITU-T)制定了PCM标准G.711,速率为64kbit/s,采用非线性量化μ律或A律,其质量相当于12bit线性量化。
1984年CCITT公布了自适应差分脉冲编码调制(ADPCM)标准G.721,速率为32kbit/s。这一技术是对信号和它的预测值的差分信号进行量化,同时再根据邻近差分信号的特性自适应改变量化参数,从而提高压缩比,又能保持一定信号质量。因此ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。
为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码(LPC),矢量量化(VQ),以及其他的综合分析技术。其中较为典型的码本激励线性预测编码(CELP)实际上是一个闭环LPC系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4~ 16kbit/s传输速率下,即可获得较高质量的语音信号。1992年CCITT制定了短时延码本激励线性预测编码(LD-CELP)的标准G.728,速率16kbit/s,其质量与32kbit/s的G.721标准基本相当。
1988年欧洲数字移动特别工作组制定了采用长时延线性预测规则码本激励(RPE-LTP)标准GSM,速率为13kbit/s。1989年美国采用矢量和激励线性预测技术(VSELP),制定了数字移动通信语音标准CTIA,速率为8kbit/s。为了适应保密通信的要求,美国国家安全局(NSA)分别于1982年和1989年制定了基于LPC,速率为2.4bit/s和基于CELP,速率为4.8kbit/s的编码方案。
其他语音相关标准如:
G.723: 一种ITU-T 推荐标准, 用于传输速率在5.3~6.4 kbps之间多媒体通信传输的双速率语音编码器。
H.221:ITU-T的H.320推荐标准的框架部分,被正式称为“视听电话服务中64至1920 kbps通道的框架结构”。该推荐标准叙述了能让编码器和译码器在时间上同步的同步 *** 作。
H.222:ITU-T 推荐标准,规定了运动图片及相关音频信息的通用编码。
H.223:ITU-T的H.324标准的一部分,一个控制/复用协议,通常被叫作“用于低位率多媒体通信的复用协议”。
H.233:一种复用推荐标准,是ITU-T视频互 *** 作推荐标准协议族的一部分。该推荐标准规定音视信息的单个画面如何在数字频道中进行复用。
H.231:附加于ITU-T的H.320 协议族的推荐标准,规定多点控制单元,用于多点会议中将三个或三个以上遵从H.320 的编解码器(codec)桥接在一起。
H.242:ITU-T的H.320 协议族中视频互 *** 作推荐标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。
H.245:ITU-T的H.323 和H.324 协议族部分,定义多媒体终端之间的通信控制。
H.261:ITU-T的推荐标准,使不同视频编解码器(codec)能解释一个信号是怎样被编码和压缩的,以及怎样解码和解压缩这个信号。它也定义了CIF 和QCIF两种图形格式。
H.263:包含在H.324 协议族中的视频编解码器(codec)。
H.320:一个ITU-T 标准,它包含了大量的单个推荐标准:编码、组帧、信令及建立连接 (H.221, H.230, H.321, H.242, 以及H.261)。应用于点对点和多点可视会议会话,且包含G.711,、G.722 和G.728三种音频算法。
H.323:H.323 将H.320 扩展到了内联网、外联网和互联网的包交换网络中:以太网、令牌环和其他一些可能不保证QoS的网。它也规定了ATM包括ATM QoS上可视会议过程。它支持点对点和多点 *** 作。
H.324:一个ITU-T 标准。它在模拟电话线(POTS)上提供了点对点的数据、视频和音频会议。H.324 协议族包括H.223(一种多路复用协议)、H.245(一种控制协议)、T.120(一套音频图像协议)和V.34(一种调制解调器规范)。
T.120:ITU-T的“多媒体数据传输协议”,一种数据共享/数据会议规范,使用户能通过任何H.32x 可视会议共享文件。
(二)调幅广播质量的音频压缩编码技术标准
调幅广播质量音频信号的频率在50Hz~7kHz范围。CCITT在1988年制定了 G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。
(三)高保真度立体声音频压缩编码技术标准
高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbit/s。
一般语音信号的动态范围和频响比较小,采用 8kHz 取样,每样值用8bit 表示,现在的语音压缩技术可把码率从原来的 64kbps 压缩到4kbps 左右。但多媒体通信中的声音要比语音复杂的多,它的动态范围可达100dB, 频响范围可达20Hz~20KHz。因此,声音数字化后的信息量也非常大,例如把6声道环绕立体声数字化,按每声道取样频率48KHz,每样值18bits 表示,则数字化后的数据码率为:6×48KHz×18bits=5.184Mbit/s,即使是两声道立体声,数字化后码率也达到1.5Mbps 左右,而电视图像信号数字压缩后码率大约为1.5Mbps~10Mbps,因此,相对而言声音未经数字压缩的码率就太高了,为了更有效地利用宝贵的信道资源,必须对声音进行数字压缩编码。
由于有必要确定一套通用的视频和声音编码方案,ISO/IEC标准组织成立了ISO/IES JTC1/SC29/WG11,即MPEG(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。MPEG针对的DSM包括CD-ROM、DAT、磁光盘和电脑磁盘。基于MPEG的压缩技术还将用于多种通信信道,如:ISDN、局域网和广播。"低于1.5Mbit/s的用于数字存储媒体的活动图像和相关声音之国际标准ISO/IEC" (MPEG-1)1992年11月完成。其中ISO lll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准,一般称为“MPEG-1音频”。 MPEG-1音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz,44.1kHz,32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32~448kbit/s,适合于CD-DA光盘应用。
MPEG-2也定义了音频标准,由两部分组成,即MPEG-2音频(Audio,ISO/IEC 13818-3)和MPEG-2 AAC(先进的音频编码,ISO/IEC 13818-3)。MPEG-2 音频编码标准是对MPEG-1后向兼容的、支持二至五声道的后继版本。主要考虑到高质量的 5+1 声道、低比特率和后向兼容性,以保证现存的两声道解码器能从5+1 个多声道信号中解出相应的立体声。MPEG-2 AAC除后向兼容MPEG-1音频外,还有非后向兼容的音频标准。
MPEG-4 Audio标准(ISO/IEC 14496-3)可集成从话音到高质量的多通道声音,从自然声音到合成声音,编码方法还包括参数编码(parametric coding),码激励线性预测(CELP ,code excited linear predicTIve)编码,时间/频率(T/F,TIme/frequency)编码,结构化声音(SA,structured audio)编码,文语转换(TTS,text-to-speech)的合成声音,和MIDI合成声音等。
MPEG-7 Audio 标准(ISO/IEC 15938-3)提供了音频描述工具。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)