人类耳朵的听力有一个频率范围,大约是20Hz~20kHz
通过采样和量化技术获得的离散性(数字化)音频数据。计算机内部处理的是二进制数据,处理的都是数字音频,所以需要将模拟音频通过采样、量化转换成有限个数字表示的离散序列 (即实现音频数字化) 。
对于高质量的音频信号,其频率范围(人耳能够听到的频率范围)是20Hz~20kHz,所以采样频率一般为 441kHz ,这样就可以保证采样声音达到20kHz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。而所谓的441kHz就是代表1秒会采样44100次。
量化是指在幅度轴上对信号进行数字化,比如用16比特的二进制信号来表示声音的一个采样。
表示一个样本的二进制的位数,即样本的比特数。量化是将经过 采样得到的离散数据转换成二进制数的过程 ,量化深度表示每个采样点用多少比特表示,在计算机中音频的量化深度一般为4、8、16、32位(bit)等。例如:量化深度为8bit时,每个采样点可以表示256个不同的量化值,而量化深度为16bit时,每个采样点可以表示65536个不同的量化值。量化深度的大小影响到声音的质量,显然, 位数越多,量化后的波形越接近原始波形 ,声音的质量越高,而需要的存储空间也越多
就是按照一定的格式记录采样和量化后的数字数据,比如 顺序存储或压缩存储。
==比特率==(它用于衡量音频数据单位时间内的容量大小)
是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。
==无损压缩== 是指解压后的数据可以完全复原。在常用的压缩格式中,用得较多的是有损压缩,
==有损压缩== 是指解压后的数据不能完全复原,会丢失一部分信息,压缩比越小,丢失的信息就越多,信号还原后的失真就会越大。
根据不同的应用场景(包括存储设备、传输网络环境、播放设备等),可以选用不同的压缩编码算法,如PCM、WAV、AAC、MP3、Ogg等。
<u> 压缩编码的原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号 </u>
而WAV编码的一种实现(有多种实现方式,但是都不会进行压缩 *** 作)就是 在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。
MP3具有不错的压缩比,使用LAME编码(MP3编码格式的一种实现)的中高码率的MP3文件,听感上非常接近源WAV文件,当然在不同的应用场景下,应该调整合适的参数以达到最好的效果。
特点 :音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件和硬件都支持,兼容性好。
适用场合 :高比特率下对兼容性有要求的音乐欣赏。
AAC是新一代的音频有损压缩技术,它通过一些附加的编码技术(比如PS、SBR等),衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式
特点 :在小于128Kbit/s的码率下表现优异,并且多用于视频中的音频编码。
适用场合 :128Kbit/s以下的音频编码,多用于视频中音频轨的编码。
Ogg是一种非常有潜力的编码,在各种码率下都有比较优秀的表现,尤其是在中低码率场景下。Ogg除了音质好之外,还是完全免费的,这为Ogg获得更多的支持打好了基础。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,
特点 :<u>可以用比MP3更小的码率实现比MP3更好的音质</u>,高中低码率下均有良好的表现,兼容性不够好,流媒体特性不支持。
适用场合 :语音聊天的音频消息场景。
(Moving Picture Experts Group,动态图像专家组)是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。
Acc一个音频帧包含1024个采样点,MP3一个音频帧包含1152个采样点。
音频帧的播放时间
在音序器软件中看到的一条一条的平行“轨道” 。每条音轨分别定义了该条音轨的属性,如音轨的音色,音色库,通道数,输入/输出端口,音量等。
当使用音序器时,一条音轨对应于音乐的一个声部,它把 MIDI 或者音频数据记录在特定的时间位置。每一音轨可以定义为一种乐器的演奏。 所有的音序器都可以允许多音轨 *** 作,这就意味着一首歌所有的音轨,无论是 MIDI 还是音频都能同时播放。
指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号 ,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。
从双声道开始,声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。
记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道。使用双声道记录声音,能够在一定程度上再现声音的方位,反映人耳的听觉特性。
音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级
频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富, 为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为441kHz。
通常我们采用脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 \x0d\\x0d\1、什么是采样率和采样大小(位/bit)? \x0d\\x0d\频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为441kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。 \x0d\\x0d\2、有损和无损 \x0d\\x0d\根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 \x0d\\x0d\3、为什么要使用音频压缩技术 \x0d\\x0d\要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为441KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 441K×16×2 =14112 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个14112 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即1764KB/s。这表示存储一秒钟采样率为441KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要1764KB的空间,1分钟则约为1034M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。 \x0d\\x0d\4、频率与采样率的关系 \x0d\\x0d\采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为441KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的441KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的441KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。 \x0d\\x0d\因为,根据耐奎斯特采样理论,你的采样频率必须是信号最高频率的两倍。例如,音频信号的频率一般达到20Hz,因此其采样频率一般需要40Hz。 而人耳收听的范围只能到23Khz以下,所以CD的采样率才是441Khz。22Khz×2=44Khz,考虑到一定的余量采用441Khz \x0d\\x0d\5、流特征 \x0d\\x0d\随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。
转成二进制数据。
计算机和网络存储、处理和传递的是二进制数据。用二进制数字序列表示声音,是利用现代信息技术处理和传递声音信号的前提,常见的声音文件格式有AU,AIFF等。
AU格式是UNIX系统开发的音频格式。AIFF格式则是苹果公司开发的音频格式。
数字化信息的获取方法:
一、网上获取资源
在因特网上有许多专业的网站,上面存储了大量的数字信息资源,并且进行了分类和整理。从这些网站上下载数字化信息资源,能起到事半功倍的作用。
二、光盘获取资源
数字化信息光盘是数字化信息资源的一大来源。由于是正规出版物,所以光盘中的信息化资料权威性较高,多媒体课件制作精美,质量有保证。
三、软件获取资源
信息软件中也蕴藏了大量的信息化资源,如课题软件中就有许多试题作为教育资源,成语词典软件中的成语解释、英语单词类软件中的词库也是一种教育资源。从这些软件中获取的资料可以大大丰富信息化育资源。
最简单的回答:
用电脑的麦克风录下你自个的声音,就完成了“获取自己的数字化声音”的工作。
当然,你也可以用当前可以录音的任何数码设备来完成这个工作,包括你的手机、MP3、等等。
用老式的磁带录音机,你可以完成“获取自己的模拟化声音”的工作。
以下是相关知识,有耐心可以看看,科普一下。
一、声音是什么:
1、别笑,并不是所有人都知道声音是什么。
2、声音是物体振动,我们最常见的情况是,振动通过空气传播到我们的耳朵里,让我们感受到,这就是声音。
3、我们能感受到声音的三个方面,一是振动的频率,二是振动的强度,三是声音传来的方向(需要两个耳朵感受的不同来得到)。
二、声音的数字化:
1、当我们把某时刻的声音的振动频率、强度用数值记录下来,就得到了某时刻数字化了的声音,当连继的记录下这些时刻,且这此时刻的密度值高于人的耳朵能感受到的间隔密度时,我们感觉听到了一个连继的声音。如果有多个录音设备从不同角度来记录某个声音在各方面上的差别,还能记录下声音的方向。
2、放音时,就用设备,一般我们称为扬声器,也叫喇叭将这些振动模拟出来,这就是声音的还原。
3、早先的设备记录声音的方法是使用设备直接将振动转变成磁场的变化频率和强度,这就是模拟化的声音记录。从理论上去说的话,没有哪个方法比另一个方法更好之说,只能说,在现有技术条件下,数字化的声音可以更易于使用,更易于保管和传播,能更好的实现。
以上就是关于音频基础概念全部的内容,包括:音频基础概念、为什么音频信号的采样频率一般取44.1KHZ、标题讨论401声音是如何被计算机和手机获取并存储的。你知道哪些声音文件格等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)