模拟音频数字化的过程

模拟音频数字化的过程,第1张

从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 (Analog/Analogue) ,模拟的意思就是用一种相似的东西去表达,例如将桌子用传统相机将三视图拍下来,就是一种模拟的记录方式。

两个概念:

1、分贝(dB):声波振幅的度量单位,非绝对、非线性、对数式度量方式。以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。人们正常语音交谈大约为20dB。10dB意味着音量放大10倍,而20dB却不是20倍,而是100倍(10的2次方)。

2、频率(Hz):人们能感知的声音音高。男性语音为180Hz,女性歌声为600Hz,钢琴上C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz,人耳能够感知的最高声音频率为20kHz。

将音频数字化,其实就是将声音数字化。最常见的方式是透过脉冲编码调制PCM(Pulse Code Modulation) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如图一所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 PCM 格式的方法,是先以等时距分割。我们假设用每 001 秒分割,则得到图二。

我们把分割线与信号图形交叉处的座标位置记录下来,可以得到如下资料,(001,1165) 、(002,1400) 、 (003,1600) 、 (004,1774) … (018,1594) 、 (019,177) 、 (020,20) 。好了,我们现在已经把这个波形以数字记录下来了。由于我们已经知道时间间隔是固定的 001 秒,因此我们只要把纵座标记录下来就可以了,得到的结果就是 1165 1400 1600 1774 1900 1989 2034 2007 1944 1859 1747 1631 1523 1443 1389 1371 1449 1594 1770 2000 这一数列。这一串数字就是将以上信号数字化的结果。看吧,我们确实用数字记录了事物。在以上的范例中,我们的采样频率是 100Hz(1/001 秒 ) 。其实电脑中的 WAV 档的内容就是类似这个样子,文件头中记录了采样频率和可容许最大记录振幅,后面就是一连串表示振幅大小的数字,有正有负。常见CD唱盘是以PCM格式记录,而它的采样频率 (Sample Rate) 是 44100Hz ,振幅采样精度/数位是 16Bits ,也就是说振幅最小可达 -32768(-2^16/2) ,最大可达 +32767(2^16/2-1) 。CD唱盘是以螺旋状由内到外储存资料,可以存储74分钟的音乐。CD唱盘的规格为什么是 441kHz、16Bits呢?关于 441kHz 这个数字的选取分为两个层面。首先人耳的聆听范围是 20Hz 到 20kHz ,根据 Nyquist Functions ,理论上只要用 40kHz 以上的采样频率就可以完整记录 20kHz 以下的信号。那么为什么要用 441kHz 这个数字呢?那是因为在 CD 发明前硬盘还很贵,所以主要将数字音频信号储存媒体是录像带,用黑白来记录 0 与 1 。而当时的录像带格式为每秒 30 张,而一张图又可以分为 490 条线,每一条线又可以储存三个取样信号,因此每秒有 304903=44100 个取样点,而为了研发的方便, CD唱盘也继承了这个规格,这就是 441kHz 的由来。在这里我们可以发现无论使用多么高的采样精度/数位,记录的数字跟实际的信号大小总是有误差,因此数字化无法完全记录原始信号。我们称这个数字化造成失真称为量化失真。

--------------------------------------------------------------------------------

数字化的最大好处是资料传输与保存的不易失真。记录的资料只要数字大小不改变,记录的资料内容就不会改变。如果我们用传统类比的方式记录以上信号,例如使用录音带表面的磁场强度来表达振幅大小,我们在复制资料时,无论电路设计多么严谨,总是无法避免杂讯的介入。这些杂讯会变成复制后资料的一部份,造成失真,且复制越多次信噪比 ( 信号大小与噪音大小的比值 ) 会越来越低,资料的细节也越来越少。如果多次复制过录音带,对以上的经验应该不陌生。在数字化的世界里,这串数字转换为二进制,以电压的高低来判读1与0,还可以加上各种检查码,使得出错机率很低,因此在一般的情况下无论复制多少次,资料的内容都是相同,达到不失真的目的。

那么,数字化的资料如何转换成原来的音频信号呢?在计算机的声卡中一块芯片叫做 DAC(Digital to Analog Converter) ,中文称数模转换器。DAC的功能如其名是把数字信号转换回模拟信号。我们可以把DAC想像成 16 个小电阻,各个电阻值是以二的倍数增大。当 DAC 接受到来自计算机中的二进制 PCM 信号,遇到 0 时相对应的电阻就开启,遇到 1 相对应的电阻不作用,如此每一批 16Bits 数字信号都可以转换回相对应的电压大小。我们可以想像这个电压大小看起来似乎会像阶梯一样一格一格,跟原来平滑的信号有些差异,因此再输出前还要通过一个低通滤波器,将高次谐波滤除,这样声音就会变得比较平滑了。

从前面的内容可以看出,音频数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,主要包参数括采样频率(Sample Rate)和采样数位/采样精度(Quantizing,也称量化级)两个方面,这二者决定了数字化音频的质量。采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法,采样频率是能够再现声音频率的一倍。人耳听觉的频率上限在2OkHz左右,为了保证声音不失真,采样频率应在4OkHz左右。经常使用的采样频率有11025kHz、2205kHz和44lkHz等。采样频率越高,声音失真越小、音频数据量越大。采样数位是每个采样点的振幅动态响应数据范围,经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个(0-255)不同量化值,而16位量化级则可表示65536个不同量化值。采样量化位数越高音质越好,数据量也越大。

反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道),立体声更能反映人的听觉感受。

除了上述因素外,数字化音频的质量还受其它一些因素(如扬声器质量,麦克风优劣,计算机声卡A/D与D/A(模/数、数/模)转换芯片品质,各个设备连接线屏蔽效果好坏等)的影响。

综上所述,声音数字化的采样频率和量化级越高,结果越接近原始声音,但记录数字声音所需存储空间也随之增加。可以用下面的公式估算声音数字化后每秒所需的存储量(假定不经压缩):

存储量=(采样频率采样数位)/8(字节数)

若采用双声道录音,存储量再增加一倍。例如,数字激光唱盘(CD-DA,红皮书标准)的标准采样频率为44lkHz,采样数位为16位,立体声,可以几乎无失真地播出频率高达22kHz的声音,这也是人类所能听到的最高频率声音。激光唱盘一分钟音乐需要的存储量为:

4411000l6260/8=10,584,000(字节)=10584MBytes

这个数值就是微软Windows系统中WAVE(WAV)声音文件在硬盘中所占磁盘空间的存储量。由MICROSOFT公司开发的WAV声音文件格式,是如今计算机中最为常见的声音文件类型之一,它符合RIFF文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台机器应用程序所广泛支持。另外,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩算法,支持多种音频位数,采样频率和声道,但其缺点是文件体积较大,所以不适合长时间记录。因此,才会出现各种音频压缩编/解码技术的出现,例如,MP3,RM,WMA,VQF,ASF等等它们各自有自己的应用领域,并且不断在竞争中求得发展。

一下四款都可以,前提是要会。

CorelDRAW

1

CorelDRAW Graphics Suite是加拿大Corel公司的平面设计软件;该软件是Corel公司出品的矢量图形制作工具软件,这个图形工具给设计师提供了矢量动画、页面设计、网站制作、位图编辑和网页动画等多种功能。

该图像软件是一套屡获殊荣的图形、图像编辑软件,它包含两个绘图应用程序:一个用于矢量图及页面设计,一个用于图像编辑。这套绘图软件组合带给用户强大的交互式工具,使用户可创作出多种富于动感的特殊效果及点阵图像即时效果在简单的 *** 作中就可得到实现--而不会丢失当前的工作。通过Coreldraw的全方位的设计及网页功能可以融合到用户现有的设计方案中,灵活性十足。

该软件套装更为专业设计师 及绘图爱好者提供简报、彩页、手册、产品包装、标识、网页及其它;该软件提供的智慧型绘图工具以及新的动态向导可以充分降低用户的 *** 控难度,允许用户更加容易精确地创建物体的尺寸和位置,减少点击步骤,节省设计时间。

AdobeIllustrator

1

Adobe illustrator是一种应用于出版、多媒体和在线图像的工业标准矢量插画的软件,作为一款非常好的矢量图形处理工具。

该软件主要应用于印刷出版、海报书籍排版、专业插画、多媒体图像处理和互联网页面的制作等,也可以为线稿提供较高的精度和控制,适合生产任何小型设计到大型的复杂项目。

Vector Magic

1

VectorMagic 强悍的位图转矢量软件,可以精确的把位图转换为矢量!而且 *** 作很简单,当你想把位图修改,而且你并不熟悉如何使用Phtoshop,但正在寻找一种简单快速的将位图转换成矢量图的方法,软件街推荐 VectorMagic,VectorMagic 具备自动临摹的能力来将你上传的位图转换成矢量。

Freehand

1

Freehand是Adobe公司软件中的一员,简称FH,是一个功能强大的平面矢量图形设计软件,无论要做广告创意、作书籍海报、机械制图、还是要绘制建筑蓝图, Freehand都是一件强大、实用而又灵活的利器。

华硕B85-Pro Gamer主板的SONIC RADAR声波雷达软件使用前需要下载安装好声卡驱动程序。

华硕ASUS声波雷达功能为板载声卡特色功能,因此其软件需要以安装ASUS声卡驱动为前提。声波雷达安装包也包含在了声卡驱动程序包内。

具体步骤如下:

1、打开>

2、点击服务与支持→驱动程序和工具软件→选择 *** 作系统→声卡驱动程序→下载

3、下载声卡驱动压缩包解压缩以后,可以看到内部包含很多声卡控制软件,这里我们直接选择一键安装。

4、点击如上图AsusSetup,会出现如下图所示界面。此时正在安装声卡驱动,请耐心等待,不要停止安装以及关闭电源。

安装完成后,该界面会自动消失,此时客户请重新启动,完成安装。(未重新启动可能会出现声波雷达不工作的情况)

5、接着进入系统桌面,鼠标右击桌面右下角调整音量的小喇叭,选择播放设备,d出以下界面:

6、查看有绿色√的图标的设备是否为板载声卡,如不是,则选择板载声卡,然后点击设为默认值。这样板载声卡则变为播放设备,通过耳机可以听到声音。确定播放设备为声卡后,玩家打开声波雷达可看到如下界面:

图中**方框标注处为测试用音频控制按钮,点击播放,会开始播放测试音频。如果声波雷达工作正常,则图中雷达以及箭头会跟随声音方向转动。

7、接着打开声波雷达Sonic Radar III软件界面后可看到如下:

8、图中**方框标注处为测试用音频控制按钮,点击播放,会开始播放测试音频。如果声波雷达工作正常,则图中雷达以及箭头会跟随声音方向转动。

确认声波雷达工作正常后,不要关闭声波雷达,直接打开需要使用声波雷达的游戏。

9、游戏方面,我们需要兼容声波雷达的游戏才能使用该功能。这里使用FPS游戏绝地求生作为示范。

10、从图中可以看到,并没有出现声波雷达。此时我们正常退出游戏。回到声波雷达。点击设定,可看到游戏列表中出现了绝地求生这个游戏。

在游戏列表内游戏前的方框打√,然后再重新打开游戏。可以看到,声波雷达已经出现在游戏界面中了。

声波的离散化采样是在时间和振幅两个维度上独立进行的。从时间维上进行时间的离散化按一定的均匀时间间隔采样,同时每一个采样点的高度值 声音波形的振幅也是经过离散化纪录为n个bit的整数编码。

华硕B85-Pro Gamer主板的SONIC RADAR声波雷达软件,具体的按键使用方式介绍如下:

该程序是一个用于第一人称射击游戏的设计,它会在游戏中显示出一个雷达,这个雷达可以360°显示游戏中各个方向传来的声音,而声音强度则通过指示计伸缩表示。

除此之外,Sonic Radar还可以自动识别不同的声音,比如脚步声、q声、手雷声等等,然后通过不同的颜色表现出来。

让玩家可以更好地分辨声音的细节启动方式:该程序是直接整合在声卡驱动当中,当正常安装好声卡驱动后便可以直接加载该程序。

MP3各项参数的意义 频率(如44100Hz),比特(如16Bits),码率(如128Kbps) 首先了解一下:音频采样 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围(相当于音调),可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。 1频率(如44100Hz):音频采样级别(音频采样频率) 采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。我们首先要知道:电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之,在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256,16位则代表2的16次方--64K。比较一下,一段相同的音乐信息,16位声卡能把它分为64K个精度单位进行处理,而8位声卡只能处理256个精度单位,造成了较大的信号损失,最终的采样效果自然是无法相提并论的。 如今市面上所有的主流产品都是16位的采集卡,而并非有些无知商家所鼓吹的64位乃至128位,他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位,但是它只是建立在Direct Sound加速基础上的一种多音频流技术,其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。 2比特(如16Bits):音频采样的位数 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。 采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为2205KHz、441KHz、48KHz三个等级,2205 KHz只能达到FM广播的声音品质,441KHz则是理论上的CD音质界限,48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。 5kHz的采样率仅能达到人们讲话的声音质量。 11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。 22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。 44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。 3码率(如128Kbps):码率就是比特率的另一种叫法,也叫位速 比特是二进制单位,就是字节,8位二进制为1比特。位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128–Kbps MP3” 或“64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”,因此数值越大表示数据越多:128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍,并占用两倍的空间。(不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。)需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。 为项目选择适当的位速取决于播放目标:如果您想把制作的 VCD 放在 DVD 播放器上播放,那么视频必须是 1150 Kbps,音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。 VBR(Variable Bitrate)动态比特率。也就是没有固定的比特率,压缩软件在压缩时根据音频数据即时确定使用什么比特率。这是Xing发展的算法,他们将一首歌的复杂部分用高Bitrate编码,简单部分用低Bitrate编码。主意虽然不错,可惜Xing编码器的VBR算法很差,音质与CBR相去甚远。幸运的是,Lame完美地优化了VBR算法,使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式,推荐编码模式。 ABR(Average Bitrate)平均比特率,是VBR的一种插值参数。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR也被称为“Safe VBR”,它是在指定的平均Bitrate内,以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量。举例来说,当指定用192kbps ABR对一段wav文件进行编码时,Lame会将该文件的85%用192kbps固定编码,然后对剩余15%进行动态优化:复杂部分用高于192kbps来编码、简单部分用低于192kbps来编码。与192kbps CBR相比,192kbps ABR在文件大小上相差不多,音质却提高不少。ABR编码在速度上是VBR编码的2到3倍,在128-256kbps范围内质量要好于CBR。可以做为VBR和CBR的一种折衷选择。 CBR(Constant Bitrate),常数比特率,指文件从头到尾都是一种位速率。相对于VBR和ABR来讲,它压缩出来的文件体积很大,但音质却不会有明显的提高。 对MP3来说Bitrate是最重要的因素,它用来表示每秒钟的音频数据占用了多少个bit(bit per second,简称bps)。这个值越高,音质就越好。 心理声学音频压缩 心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如,如果我扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的声音。通过去掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。 (附:心理视觉视频压缩 心理视觉视频压缩与和其对等的音频压缩相似。心理视觉模型去掉的不是我们听不到的音频数据,而是去掉眼睛不需要的视频数据。假设有一个在 60 秒的时间内显示位于同一位置的一把椅子的未经压缩的视频片段,在每帧图像中,都将重复这把椅子的同一数据。如果使用了心理视觉压缩,就会把一帧图像中椅子的数据存储下来,以在接下来的帧中使用。这种压缩类型—叫做“统计数据冗余”—是 WMV、MPEG 和其他视频格式用于压缩视频并同时保持高质量的一种数学窍门。) 一首MP3音乐主要有这么几个参数:频率,比特,码率,长度等。 要理解这些东西,还需要说到音乐文件是怎么在计算机上存储的。请看: 让我们来看看一个很短的例子。要把自然界的模拟声音变成计算机存储的数字文件,需要进行模、数转换。如果按CD质量保存,所以你以441KHz的采样频率,立体声,每个采样值16比特的方式进行采样。441KHz意味着每秒钟有44100个采样值从你的声音卡(或输入文件)里出来。乘以2是因为你有两个通道。再乘以2是因为每个采样值有两个字节(这是16比特的意思)。那首歌总共会占据: 44100 (样本值/秒) 2(两个通道) 2(每样本值两个字节)60(每分钟60秒) =10584000 (字节) 压缩率,比特率和质量 因为压缩率是比较难以测量,专家们在谈及压缩的强度时使用术语比特率。比特率表示一秒的声音数据会消耗的平均BITS的数量。这里的通常单位是KBPS,即每秒1000 BITS 在CD上的数字音频信号,比特率是14112KBPS。使用了MPEG-2ACC,如同CD音质的声音质量可以达到96KBPS的比特率。 一首标准的MP3,频率,比特,码率这几个参数的值一般都是这样的:44100 Hz,16 Bits,128 Kbps需要声明的是比特和比特率是不一样的概念:比特就是每个采样值用几比特的二进制代码表示,一般都是8比特,因为是2个通道,所以是16比特。其中码率就是比特率的另一种叫法。128Kbps的意思就是每秒钟消耗128比特的存储空间 说说立体声吧:我们人的耳朵有两个,当一个声源发出声音的时候,因为我们的两只耳朵分别接受到声音,而且因为声音传输的距离不同,造成给两只耳朵的感觉就不同,我们人就通过这二者的差别来判断声源的位置。如果只有一只耳朵的话,那么我们不能判断声源的位置,只能知道声音的大小。立体声音乐至少需要两个通道,当然可以有很多个,来保存不同位置的声音信息,我们听起来就有一种身临其境的感觉。如果我们听的是单声道音乐,给我们的感觉就是声源始终在我们脑袋中间位置。假如你玩立体声的射击游戏,你可以真实的感觉子d是从哪里打到你身上。 flv转换mp3或者录制MP3的时候,只有比特这个参数影响生成文件的大小,所以采样率尽量选高点吧,声音层次感更清楚。

以上就是关于模拟音频数字化的过程全部的内容,包括:模拟音频数字化的过程、什么软件能绘制声波,、华硕B85-Pro Gamer主板的SONIC RADAR声波雷达软件怎么使用等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/9752087.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存