数字时代里的模拟语音_技术

数字时代里的模拟语音

数码录音和回放技术自1981年开始引入消费电子领域。自那以后，数字系统的能力不断遭到质疑，包括能否重现老唱片的细微差别和“特质”，并捕捉高频信号及相关背景，这对于希望完美欣赏音乐和电影的高保真爱好者来说至关重要。

从事数字音频系统开发的工程师所面临的挑战当然还不止这些。最基本的，是如何在整个处理过程中获得高质量输入。在早期的数字记录阶段，采样率非常低；即便在今天，CD唱片速率也只能达到44.1KHz，与当前直接数字流(DSD)等纯数字格式所能实现的潜在采样率相比，显然要低得多。

虽然上世纪80和90年代“数字灌录”的再版发行对CD的大面积普及有所帮助，但对于解决数字系统所面临的复制问题却并无建树。这些问题中包括“预振铃”：即回放系统中由于数字滤波器所引起的在第一个音符发出之前所能听到的回声。

图１：将数字信号转换回模拟信号——更高的分辨率(更细的量化电平)和／或更快的采样率将会减小量化误差。时钟抖动则会引入额外的误差。

抖动是发烧友和专业人员都知道的存在于数字复制早期的另一个问题。抖动产生的原因有两个，一是由于用于定时音频采样的时钟的随机抖动，另一个则由电源电压的不稳定造成。在随机采样抖动情况下，听众听起来就好像是背景噪音，如果抖动与音频信号相关的话，其结果就像失真。图１显示由于时钟问题，平滑的模拟信号可能被过晚或过早采样，不过这个问题可以通过下面一些措施得以解决：

如今日益流行的MP3/MP4格式将原始音源中的低采样率问题与MP3/MP4格式中利用的数据压缩技术中由于不良时钟所引起的抖动问题混淆在了一起。换句话说，通过MP3/MP4压缩技术后原始信号中更深层次的数据丢失了，因为它们需要的是抓住“数据块”，并放弃所有它们认为无关紧要的部分，从而获得更加紧凑的文件格式。

除抖动引起的各种挑战外，还存在不少其他方面的问题，如低采样率和压缩率、早期的数字复制系统在采样过程中遭遇的信噪比过低问题，以及在复制过程中存在的总谐波失真(即THD)百分比过高等。

向超高音质转移

于本世纪初引入的DSD录音格式，其设计初衷是为了解决对原始音源采样率过低的问题。DSD为原始信号提供了超高采样率，但仍然解决不了音乐发烧友们在进行数字复制时所面临的关键难题，它们包括前面所提到的预振铃和抖动，以及后振铃、相位延迟和传输频带衰减等。虽然超级音频CD(SACD)格式保证了原始音源的质量，但却无法解决如何利用数字系统再现高品质信号所引发的问题。

正因如此，SACD格式从未真正腾飞，截至目前我们发现，这种格式的发行量仅为4,500-5,000左右，而采用MP3录制格式的i-Tune销量，仅仅在2008年一年就超过了50亿。从这点来看，追求极致音质的人，将不得不开始慢慢返回模拟音源，重拾老唱片，去寻求更具深远意义的音频体验。

混合信号单元：实现高质量的关键

为了在数字环境中改善用来再现模拟声音的电子设备质量，音频系统行业也采取了一些措施，包括引入ADC和DAC。但是，这毕竟不是直接手段，而且仍然需要考虑以下几个方面：

1. DAC转换过程中适度的音频滤波

从上世纪80年代初的CD，直到今天的MP3等数字系统，用户所遭遇的主要难题之一，都是与DAC本身相关的数字滤波问题。当重建信号时，DAC会引入一个误差分量，从而破坏原始音源。

可以证明，上述问题中最重要且最具破坏性的仍然是预振铃问题，即在声音产生前就能够听到回声，这是DAC中FIR滤波器存在的基本问题。在声音还未发出之前就能够听到，这不符合自然规律，因而听众对此非常敏感——这也成为数字回放系统中的棘手问题。传统DAC中的滤波器包以前只关注与频率响应相关的控制问题，而忽略了时域问题。

预振铃可以通过采用最小相位滤波器来解决，但是如果单独应用则会导致后振铃(异常的余音)的增加，而且会导致信号群延迟失真的增大。但由于人们对后振铃并不敏感，因为余音和回声本来就是自然的事情，所以很显然目标仍然是减小各种失真。

图2：先后使用各种不同的滤波器即可减小预振铃以及其他数字失真的不良影响。

通过提供宽范围的滤波并一同使用各种滤波器，即可以解决上述的失真问题(见图2)。线性滤波器、非半带滤波器，以及最小相移滤波器都可以使用。由于制造商和终端用户可以改变这些滤波器的影响，故通过仔细选用滤波器并组合来适配音源信号的自然特性以及所听音频的风格，就有可能实现最佳的再现音质。

2. 与声音纯度相匹配的动态单元

欧胜公司提供的各种滤波器产品都与一个复杂的动态单元匹配(DEM)过程相结合，后者可为多比特信号提供深入处理，从而将带内噪声和失真降低到尽可能低的水平。

多比特信号可以被分解成一系列独立的Δ/Σ调制信号,在降低带内噪声和失真之后,再重新把这些分解开的信号组合到一起产生输出信号。DEM过程中可以采用多通道方案，以确保Δ/Σ调制过程之后的信号中每个部分都具有最高的清晰度和保真度，这将在重现中实现尽可能最高的输出信号质量。

通过在DEM过程中采用多通道技术，就有可能确保在低频重现中极大减小误差。此外，信号的线性度也得到了改善，原因是原始DAC信号的每个分量都呈现在为了实现最高保真度所进行匹配过程的各阶段中输入和输出的等效频率上。

3. 多阶超高性能的Σ/Δ架构

实际上，高性能Σ/Δ架构的重要性对于DAC单元的整体性能来说怎么强调都不为过。

该Σ/Δ架构负责接收输入的数字信号，并监控输出脉冲，当输入的二进制信号与输出的脉冲串之间出现差异时，便生成一个误差信号。随后，其中的Σ单元开始工作，将由Δ单元所提供的误差信号加到结果中去，再提供给低通滤波器，该滤波器对模拟信号进行细微的调整，来补偿二进制信号与脉冲串之间的差异，这样做确保了最终结果中声音的保真度和清晰度。

最初包括Σ/Δ调制器的DAC系统主要都是单比特解决方案，很快设计师发现，这种解决方案对语音信号只能提供非常粗糙的量化，其中伴有大量的无用噪声，故必须在DAC过程后进行滤除。随后便出现了多比特系统，16-24位的信号被送入一个插值滤波器，随后进入一个多阶Σ/Δ调制器，以此来改善带外噪声以及信号镜像。

对于欧胜公司来说，其技术关键是采用了最复杂的多阶Δ/Σ架构，并将其与复杂的DEM技术及业界领先的信号滤波技术相结合，从而提供了极为出众的音频体验。

图3：音频数模转换系统