当前位置：文档库 › 音频基本知识

音频基本知识

第一部分模拟声音-数字声音原理

第二部分音频压缩编码

第三部分和弦铃声格式

第四部分单声道、立体声和环绕声

第五部分 3D环绕声技术

第六部分数字音频格式和数字音频接口

第一部分模拟声音-数字声音原理

一、模拟声音数字化原理

声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。

图1 模拟声音数字化的过程

声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。

声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率

采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。

?量化精度

光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。

?压缩编码

经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。

常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等

二、问题

1、为什么要使用音频压缩技术？

我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比：

PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。

MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：

比特率存1秒音频数据所占空间

CD(线性PCM) 1411.2 Kbps 176.4KB

MP3 128Kbps 16KB

AAC 96Kbps 12KB

mp3PRO 64Kbps 8KB

表1 相同音质下各种音乐大小对比

2、频率与采样率的关系

采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

3、流特征

随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。

第二部分音频压缩编码

一．有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式

未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的PCM 或WAV音轨。

无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频一般不使用于影音世界，但是存在的格式有无损WMA或Matroska里的FLAC。

有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件，包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio.

我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式（例如wav 转MP3），质量上有损失，那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式（例如Mp3转AAC）更槽糕，因为它不仅会引入原文件存在的损失，而且第2次编码也会有损失。

二、语音(Voice)编码和音频(Audio)编码

语音编码主要是针对语音通信系统中的编码方案，应用在有线或无线通信中；音频编码是针对音乐的编码方案，主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同，另一方面是压缩要求不一样，音乐要求具有高保真度和立体感等要求。音频编码最常见的是MPEG的音频编码。

语音的编码技术通常分为三类：波形编码、参量编码和混合编码。其中，波形编码和参量编码是两种基本类型。

波形编码是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。解码是其反过程，将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求不太严格的通信中得到应用，而对频率资源相对紧张的移动通信来说，这种编码方式显然不合适。

脉冲编码调制（PCM）和增量调制（△M），以及它们的各种改进型自适应增量调制（ADM），自适应差分编码（ADPCM）等，都属于波形编码技术。它们分别在64以及16Kbit/s的速率上，能给出高的编码质量，当速率进一步下降时，其性能会下降较快。

参量编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参量，并将其变换成数字代码进行传输。具体说，参量编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的可靠性，即保持原语音的语意，但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码，比特率可压缩到2Kbit/s-4.8Kbit/s ，甚至更低，但语音质量只能达到中等，特别是自然度较低，连熟人都不一定能听出讲话人是谁。线性预测编码（LPC ）及其它各种改进型都属于参量编码。

混合编码将波形编码和参量编码组合起来，克服了原有波形编码和参量编码的弱点，结合各自的长处，力图保持波形编码的高质量和参量编码的低速率，在4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码（MPLPC ），规划脉冲激励线性预测编码（KPELPC），码本激励线性预测编码（CELP）等都是属于混合编码技术。很显然，混合编码是适合于数字移动通信的语音编码技术。

三、无线通信中常见语音编码

PHS为32kbit/s的ADPCM编码，GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码，WCDMA使用的是自适应多速率编码(AMR)，cdma2000使用的是可变速率编码(IS-773，IS-127)。

1、AMR编码

（介绍它的原因是因为手机中有使用AMR铃声）。在3G多媒体通信的发展过程中，音视频编码有了很大的发展。1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR声码器采用代数码本激励线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR标准针对不同的应用，分别提出了AMR－NB，AMR-WB和AMR-WB+三种不同的协议。AMR-NB应用于窄带，而AMR-WB和AMR-WB+则应用于宽带通信中。

对于手机铃声，AMR－NB对应的铃声文件扩展名是.amr，AMR-WB对应铃声文件扩展名是.awb。它们不是音乐，而是录音得到的原声。

2、ADPCM编码

自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值，并将预测误差加以量化、编码，而后进行传输，由于预测误差的幅度变化范围小于原信号的幅度变化范围，因此在相同量化噪声条件下，DPCM的量化比特数小于PCM，从而达到语音压缩编码的目的。ADPCM与DPCM比较，两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时，在译码器中多了一个同步编码调整，其作用是为了在同步级连时不产生误差积累。

20世纪80年代以来，32kb／s的ADPCM技术已日趋成熟，并接近PCM的质量，但却节省一半的信道容量，因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器，这是一种具有自适应速度控制32kb／s的自适应量化器，并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正，称G726建议。

ADPCM不适合作音乐的编码，常用于录音。雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术，其中PCM和ADPCM就是模拟音效，包括人声。

四、各种主流音频编码（或格式）的介绍

1、PCM编码

PCM（Pulse Code Modulation）,即脉冲编码调制，指模拟音频信号只经过采样、模数转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是PCM编码，在 CD、DVD以及我们常见的WAV文件中均有应用。

2、WAVE格式（铃声）

这是一种古老的音频文件格式，由微软开发。WAV对音频流的编码没有硬性规定，除了

PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

3、 MP3编码（铃声）

MP3，众所周知也就是MPEG-1 Layer 3，是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。Layer 3不是MPEG Layer 1或Layer 2的新版，只是与它们不同的复杂的编码方案。现在有许多可用的MP3编码器，其中最高品质的莫过于Lame，同时它也是开源免费的。

MP3技术上支持多声道（多于2个声道），但从未实施过或者今后也不会了。事实上，你可以编码源文件为pro logic （II）的多声道文件变换成立体声MP3。

MP3有不同的采样率和比特率（注意比特率并不是量化精度，而是代表压缩比），代表不同的音质。网络上流行的MP3是44.1KHz采样率，128Kbps比特率的。下表中列出了不同品质的MP3，其中列表示SR(采样频率)，范围8KHz~48KHz，行表示BR（比特率），范围

8Kbps~320Kbps。

4、OGG编码（铃声）

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG的信念就是：

OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO 抓轨软件的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR(可变比特率)。

5、MPC 编码

MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

6、mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。 7、WMA（铃声）

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，而是网络。竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

8、RA

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的

在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

9、APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

10、AMR(铃声)

AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格式，也就是说我们用手机录音而成的文件就是这种格式的。AMR格式压缩率较高但是音质相对较差了一点。优点就是我们可以随心所欲地录制。

11、AAC/AAC+

?什么是AAC?

AAC代表Advanced Audio Coding(高级音频解码)，是一种由MPEG-4标准定义的有损音频压缩格式，由Fraunhofer发展，Dolby, Sony和AT&T是主要的贡献者。它被认为是MP3的继承者。AAC能够在一条音轨中包括48条全带宽（直到96khz）音频声道，加上15条低频增强（LFE，限制到120Hz）声道，直到15条数据流并且更多。

其实，AAC的技术早在1997年就成型了，当时被称为MPEG-2 AAC，但是随着2000年MPEG-4音频标准的出台，MPEG-2 AAC被用在这一标准中，同时追加了一些新的编码特性，所以它就改称为MPEG-4 AAC。与MP3不同，AAC的技术掌握在多家厂商手中，这使得AAC 编码器非常多，既有纯商业的编码器，也有完全免费的编码器。纯商业的编码器如Fraunhofer IIS的FhG、杜比公司的Dolby AAC，免费的有Free AAC、苹果公司的iTune，Nero也通过它的Nero 6提供了Nero AAC。

AAC是一种高压缩比的音频压缩算法，它的压缩比可达20:1，远远超过了AC-3、MP3等较老的音频压缩算法。一般认为，AAC格式在96Kbps码率的表现超过了128Kbps的MP3音频。AAC另一个引人注目的地方就是它的多声道特性，它支持1~48个全音域音轨和15个低频音轨。除此之外，AAC最高支持96KHz的采样率，其解析能力足可以和DVD-Audio的PCM 编码相提并论，因此，它得到了DVD论坛的支持，成为了下一代DVD的标准音频编码。

AAC的家族非常庞大，有9种规格，可适应不同场合应用的需要。其中LC低复杂性规格去掉了预测和增益控制模块，降低了复杂度，提高编码效率，是目前使用得最多的规格。

目前，苹果、AT&T和RealNetworks已经开始提供收费的AAC音乐下载服务。AAC也得到了众多硬件厂商的支持，除了苹果的iPOD随身听，还有诺基亚的多款手机及松下的部分随身听产品可支持AAC音频的播放。另外，目前已经有部分MPEG-1/2解码芯片中加入了AAC 解码功能，出现支持AAC音频播放的DVD影碟机肯定是迟早的事情。

?什么是HE-AAC(也称AAC+)和LC-AAC？

AAC有两种LC AAC与HE AAC，HE AAC是较新的。LC意思是"low complexity"(低复杂性)而HE意思是 "high efficiency"(高效性)。

HE-AAC也称之为AAC SBR/AAC+/aacplus等。注意HE-AAC注重于低码流的编码并很适合多声道文件（更小的文件尺寸）。

从学术上讲，HE-AAC混合了AAC与SBR技术，处理低比特率能有较好的效果。SBR代表的是Spectral Band Replication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或产生令人不快的噪音信号。SBR解决问题的方法是让核心编码去编码低频信号，而SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号（通常码流极低，~2 kbps）。这也是为什么被叫做Spectral Band Replication的原因，它只是增加音频的带宽，而非重建。(类似的技术也用在mp3 pro 64kbps能媲美128kbps的mp3就是这道理)

?MP4与AAC

MP4最初是一种音频格式，和MPEG-4没有太大的关系，就像MP3和MPEG-3没有关系一样。MP3是MPEG-1 Audio Layer 3 的缩写；而MP4是MPEG-2 AAC，完完全全是一种音频压缩格式，增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性，最重要的是，MP4通过特殊的技术实现数码版权保护，这是MP3所无法比拟的。

现在市面上的MP4多数偏向于多媒体播放器，能够播放AAC的，可以说是凤毛麟角。甚至有媒体把MP4说成是MPEG4的缩写，这在以前看来是一个谬论，但是经过商家不断的炒作，这个谬论也就成为了真理。现在若果你去电脑城听到MP4这个词，绝对是能播放视频格式的多媒体播放器的概念，而不是能播放音频MP4 AAC的随身听。出现这种怪现象不是毫无原因的，上面已提到AAC有版权保护功能，这也是众多唱片公司支持AAC的原因，要使自己的播放器支持AAC，还得支持付一定的版权费或专利费，另外，AAC的来源也是个问题，不像MP3那么开放，网上来源极少，所以目前音频MP4播放器发展尚不成熟，鉴于以上现状，众商家干脆“借尸还魂”，把MP4等同MPEG-4缩写而论，这样也恰好应了MP4是MP3的下一代这条规律，除了支持MP3所具有的音乐播放功能外，还具备强大的MPEG-4视频播放能力，另外，恰好“4”在“3”后，从这点出发，把MP4等同MPEG-4是合理的。

第三部分和弦铃声格式

与音乐不同的是，和弦铃声都是制作出来的。播放的时候，只需要合成（或解码）就可以输出PCM格式的数据，然后PCM格式的数据可以通I2S接口传输，然后经过数-模转换输出。

1、MIDI合成音乐

?什么是MIDI？

MIDI（Musical Instrument Digital Interface）音乐设备数字化接口，也称为数字音序。“MIDI”文件(*.MID)不是声音文件,不是一段录制好的声音，而是记录声音的信息，然后再告诉声卡如何再现音乐的一组指令。可以做这样的比喻：如果数字音频是一个人独奏吉它时的录音带，MIDI文件则相当于该独奏曲的乐谱。虽然乐谱本身不能产生出任何实际的声音来，但是乐谱确定了音乐演奏得有多快，拨哪个音符，以及应该用多大的力度弹奏吉它。我们可以从以下几点说明“MIDI”文件(*.MID)的特性:

1. 首先,正如上所说,它不是声音文件,只是一组指导声卡如何发声的指令，因此它生成的文件比较小。

2. 它只能应用于电子音乐设备(如电脑声卡等)，而不能应用于人声。原因很简单，它发出的声音只能来自声卡中的内置音源（例如波表ROM中存储的音色）。自然界中那么丰富的音乐的和非音乐的声音，都是不能包括在内的。要在MIDI中混合自然界的模拟音效，一般是在在MIDI上叠加PCM/ADPCM。

3. midi格式是记录每个音的音色、音名、响度、角度、时间等，根据记录查询音色库，

得到应发声音。简单的说，每个音轨对应一种乐器，上面以特定的格式记录每时刻该乐器所演奏的乐音。比如，在某时刻被定义为钢琴的音轨上记录着上面所说的135组成的和弦，那么芯片就查询音色库得到所对应的音效，然后合成、播放。所以音色库是关系midi是否动听的关键因素，好的音色库是很占地方的。手机中记录音乐的方法与电脑上的midi相同或相似，不同的是它所记录的全是单音，而复杂的和弦音效没有记录。手机和弦芯片中的音色库都预先存储在内置的波表ROM中。

?MIDI的分类：

MIDI格式后缀名是.MID，但其有MIDI0、MIDI1、MIDI2、SP-MIDI、XGMIDI等多种规范。

MIDI0和MIDI1：MIDI0是单音轨，MIDI1是多音轨。手机的和弦数目等于midi格式中的音轨数，手机的每个音轨都是单音音轨。网上的绝大多数MIDI音乐都是多音轨的。另外，MIDI0的读入和处理速度要快些，有的硬件可以直接读软盘上的MIDI文件回放（即时回放），而MIDI1的做不到。

SMF（Standard MIDI Format）：是标准的MIDI格式，SMF分为format0和format1两种格式，即MIDI0和MIDI1。

SP－MIDI：MIDI协会(MMA)推出一个新的规定Scalable Polyphony MIDI(简称SP-MIDI)，大概可以译成“可升级的MIDI复音”。据介绍，这个规定主要作用是当合成器或音源的同时发音数小于作品的要求时，可以根据作曲家的事先决定省略某些音符或声部。例如一部为GM2音源写作的作品（要求32复音）在GM1或GM Lite音源上演奏的时候，由于同时发音数不足，必然有一些音符被忽略掉。过去这个决定权在机器方面，带有随机的性质，可能把乐曲搞得残缺不全。现在依据“可升级的MIDI复音”规定，控制权转移到作曲家手中，创作音乐的时候就可以设计好不同的“乐队编制”，使MIDI乐曲的正确演奏更有保证。另外，SP-MIDI标准为使用MIDI消息实现对振动提示的控制定义了一种可选方法， SP-MIDI内容中可以同时含有音频和振动两种表现形式。振动控制被定义为弦乐器。

?什么是音乐合成技术？

音乐合成的途径

1. 采样合成（波表合成）：这是最常见的音乐合成方式，为了得到钢琴声，就把钢琴在不同音阶下发出的声音录制保存下来，当播放音乐需要钢琴声时，录制下来的样本被调用并通过计算来获得正确的音符。其缺点是需要许多存储空间来保存高质量的声音样本。例如，大多数PC使用采样合成，其波表将占用8MB或更多存储空间，这对移动电话电话来说是一个非常大的开销。

2. 波谱匹配：Yamaha的调频合成（FM合成）同润威公司的GAP都属于这种类型。这种方式包括找到一个数学公式来调制乐器声音输出使得其像真正的乐器那样。这种方式使用很少的系统开销，同时也比采样合成使用的存储空间少很多。

?MIDI的三个标准：GS、GM、XG

音乐的要素之一是音色。在MIDI中，一种乐器就是一种音色（Patch,Program和Timbre)。现实的情况是不同的合成器和音源的制造者为了使自己的产品有独特之处，总是开发出若干种特殊音色，因而不同品牌的设备在音色种类和音色排列顺序方面会大不相同。这就导致了一个缺陷的出现：使用甲合成器制作的MIDI文件，换了乙合成器就不能正确播放。其原因在于甲合成器上01号音色可能是钢琴，而在乙合成器上，01号音色可能是打击乐或其他音色。总而言之。每一种MIDI设备的音色设置（以及其他方面）都具有排他性。这就使音乐家受到了设备的制约。为了有利于音乐家广泛地使用不同的合成器设备和促进MIDI文件的交流， MIDI协会（MMA）于1991年制订了“通用MIDI”（GM）标准。该标准以日本Roland 公司的通用合成器（GS）标准为基础而制订。

值得注意的是，虽然现在有了国际通用的GM标准可供电子乐器生产厂家参照，但仍有

另外两个标准与GM标准共存，一个是GS标准，为Roland公司的产品所专用，它产生于GM 标准出现之前，也是GM的前身。另一个是后来出现的XG标准，为YAMAHA公司的产品所专用。

1、GS标准。 GS为General Synthesizer的缩写，意为“通用合成器”，是罗兰公司创立的一种 MIDI标准。该标准具有有以下五种主要功能：1）16个声部。2）最大复音数为24或更多。3）GS格式的乐器音色排列，该格式包含有各种不同风格的音乐所使用的乐器音色和打击乐音色。4）鼓音色可以通过音色改变信息进行选择。5）包含两种可调节的效果，有混响和合唱。

2、GM标准。 GM是 General MIDI Mode(通用MIDI）的缩写，即GMM，通常缩写为GM。该标准是MIDI协会以罗兰公司的通用合成器（GS）标准为基础而建立的标准。该标准为一般合成器所共有的128种乐器音色（分成16组）规定了序号，将47种标准的非旋律性打击乐器分配在第10通道，并为这47种打击乐器规定了音符序号（35（B2）-81（A6））。以下是GM标准的128种音色分类表：

音色号音色类别

1-8 钢琴

9-16 半音性打击乐器

17-25 风琴

26-32 吉它

33-40 贝司

41-48 弦乐器

49-56 合（唱）奏

57-64 铜管乐器

65-72 簧片乐器

73-80 管鸣乐器

81-88 合成领奏

89-96 合成背景音色

97-104 合成效果

105-112 民间乐器

113-120 打击乐

121-128 音响效果

表三 GM音色表

3、XG标准。XG-MIDI是Extended General MIDI(扩展的通用MIDI）的缩写。XG是继GM标准建立之后，雅马哈公司于1994年推出的新的音源控制规格。XG在保持与GM兼容的同时，又增加了许多新的功能，其中包括音色库（音色数量）的增加，和启用更多的控制器对音色亮度等方面进行控制等等。

2、SMAF格式（文件扩展名.MMF)

合成音乐移动应用格式（Synthetic music Mobile Application Format，缩写为SMAF），是雅马哈公司首创的一种移动电话内容标准，是目前手机上使用非常多的和弦铃声，网络上有非常多的铃声资源可供下载。最常见的为MA2，MA3，MA5。MA2对应16和弦，MA3对应40和弦，MA5对应64和弦。与MIDI相比，它采用了MIDI+PCM/ADPCM的技术，故而支持真人铃声。

3、VMD

VMD技术是针对手机平台的新一代多媒体技术，该技术可以用于制作铃声、音乐、卡拉OK、动画、移动电视、流媒体播放等，为手机用户提供完美的多媒体体验。这标志着移动多

媒体应用产业链的核心技术层面已经取得了关键性的突破，业内人士认为它将成为未来多媒体手机的新趋势。以铃声应用为例，目前普遍采用的MIDI播放效果受播放器或合成器的限制，由于文件尺寸较小无法嵌入人声、水声（wave或mp3）等自然界的声音，表现力不足；而WAVE和MP3文件格式可以保存自然界和乐器的声音。但 MP3需要快速解码，WAVE也需要格式转换。VMD格式中对MIDI音乐指令作了全面优化——这种格式对MIDI的指令合并精简，在保留完全相同音质的情况下，使得MIDI音乐指令的长度更小；VMD文件的组织结构也经过专门设计，使得文件组织模块化，从多轨转换为单轨，在这方面比其它格式更适合硬件平台处理。在文件格式上VMD吸取了SMIL等规范的优点，使得VMD-MIDI和WAV、MP3、JPEG 等数据可以保留原有存储方式，也可以独立解析；MIDI部分不包含专门针对合成器硬件的繁琐的控制信息，能够广泛地被合成器厂商支持；VMD格式中对歌词、版权等文本信息使用UNICODE编码，可支持多国语言。此外，在VMD文件中还可以控制手机的LED和马达，实现声、光和震动一体化的效果，并嵌入音色库和音效库。

第四部分单声道、立体声和环绕声

一、单声道（Mono）：

所谓的单声道，就是声音只由一只音箱产生，听众可以很明显地听出声音的来源就是音箱所摆放的位置，其本身的表现力较为平淡；当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声音是从两个音箱正中间传递到我们耳朵里的。

二、立体声（Stereo）：

它利用了两个独立声道进行录音，整个过程不加任何的声音处理。立体声系统的再现需要一对音箱来完成，它通过调整系统中两只音箱发出声音的大小，让我们误认为声源来自两只音箱之间直线段中的任意位置。特别是当使用耳机的时候，由于左右两边的声音串音情况很少发生，所以声音的定位比较准确；再加上比较真实的音场感觉，它的表现力比单声道真实得多。但（Stereo）的缺陷也十分明显，最明显就是对音箱的位置摆放要求较高，摆位的不好会直接影响声音的表达。

图2 立体声及其音场

四、3D环绕声 (3D Surround)

有时也称作3D增强立体声(3D Enhancement)。它是一种模拟环绕声系统。左、右声道的

立体声信号，经过数字信号处理后，通过左、右两路音箱，产生三维的环绕声场效果。它使用一般双声道创建一个具有三维感觉的环绕声音场，比立体声好，但与编码式环绕系统有相当的差距。常见的有SRS实验室的SRS WOW、Q-sound实验室的Qxpander、Spatializer实验室的Spatializer 3D等技术，主要针对普通双声道立体声信号进行处理，对于杜比环绕声信号不作解码，采用强制处理的方式，显而易见不可能处理AC-3信号。

图3 3D环绕声及其音场

五、环绕声系统与虚拟环绕声（Virtual Surround）：

比较出名的有杜比AC-3（也称Dolby Digital，杜比数字)、DTS(Digital Theater System，数字影院系统)、THX家庭影院系统。以著名的AC-3杜比数码环绕声系统为例。杜比实验室在1991年开发出一种杜比数码环绕声系统(Dolby Surround DigitaI), 即AC-3系统。 AC-3杜比数码环绕声系统由5个完全独立的全音域声道和一个超低频声道组成, 有时又将它们称为5.1声道。其中5个独立声道为: 前置左声道、前置右声道、中置声道、环绕左声道和环绕右声道；另外还有一个专门用来重放120Hz以下的超低频声道, 即0.1声道。

图4 5.1声道立体环绕声

在环绕声的实现上，无论是杜比AC3还是DTS，都有一个特点，就是回放时需要多个音箱，一般一个声道对应至少一个音箱，比如用杜比数字系统，起码需要5个全音频范围的音箱，再加上一个低音炮，由于价格及空间方面的原因，有的消费者，如多媒体电脑的用户，

并没有足够的音箱，这时候就需要一种技术，能够把多声道的信号经过处理，在两个平行放置的音箱中回放出来，并且能够让人感觉到环绕声的效果，这就是虚拟环绕声技术。

与3D环绕技术不同的是，它是对杜比类环绕声信号进行解码，再利用单耳效应和双耳效应对环绕声信号进行虚拟化处理，尽管仅有两个重放声道，但让听众感到多声道效果，即产生所谓的扬声器虚拟幻像。虚拟环绕声技术主要有SRS公司的SRS TruSurround、Q-sound 公司的Qsurround、Aureal公司的A3D、Spatializer公司的N-2-2DVS等技术，当然还有杜比实验室的杜比虚拟环绕声VSS（Virtual Surround Sound）技术，非杜比实验室的技术一般也获得了杜比实验室的认可，可以用于回放杜比定向逻辑和杜比数字信号。

图5 虚拟环绕声

第五部分 3D环绕声技术

在MP3中用到的最多的音效有BBE Sound的BBE音效和SRS实验室的SRS音效。在音乐芯片FT1960中采用了SRS公司的 WOW XT Surrond Sound技术；在松下的立体声功放AN12974A中采用了Spatializer 3D技术；在雅吗哈的YMU788芯片中采用了DVX技术。

一、SRS音效

这里介绍SRS实验室的SRS WOW（立体声增强技术）。SRS Labs根据人类听觉的基本元素，开发出“心理声音”(psychoacoustic)音响技术，包括SRS（环绕声）、TrueBass（低音增强）、FOCUS（声场提升）及WOW（Trubass+SRS），让人类感觉到受器材限制而听不出的声音。

现在MP3播放器所用的SRS音效是SRS WOW，它由SRS（环绕声）, TruBass（低音增强）和FOCUS（声场提升）组成。

官方对WOW的描述如下（可能翻译的并不准确）：

?WOW：可以突破小型扬声器和耳机的固有局限，通过提供3D音频图象在水平及垂直方位上扩展声音使其超越器材本身的能力。这样，小型音频设备，电视，无线和个人/便携产品的制造商不用增大扬声器尺寸便可显著改善其产品的声响效果。特别在诸如MP3，WMA和音频CD这些经数码压缩使空间感被极大削弱的单声道或立体声音频格式上，WOW 的修饰效果尤其显著。

?SRS： SRS能恢复被传统录制和播放设备掩盖住的空间信息。通过将立体声信号分解为

多个部分，它可以分离并恢复空间信号或原始录音所呈现的环境信息。并且把它们放在直接声音的正常空间。这些空间信号被专利幅频响应校正曲线所处理。这样，再现的声音会非常接近艺术家最初设想的那种现场效果。SRS没有所谓的最佳听音位置（sweet spot），因此，音乐和声音好像充满了房间，使听者完全处在全三维声音包围中。

?TruBass： TruBass是一种SRS专利技术，运用人类声音心理学专利技术来增强低音性能。这些技术能利用原始音源中表现的和声再现低频信息。恢复基本低频音调的感觉－即使该信息低于扬声器和耳机的低频极限。因此TruBass可以呈现出比小型、中型和大型扬声器和耳机的低频极限还低八度，并且深邃丰富的听感。

?FOCUS： FOCUS通过提升声场来生成声音图象的高度感。当于SRS 3D结合时，FOCUS 会放大声音图像，产生一个非常高广，最佳听音位置（sweet spot）宽广的声场。另外，FOCUS能改善高频通透度让听者沉浸其中。在扬声器低于音场的产品中，比如内投影电视或固定在门板上的汽车扬声器，FOCUS将可用电子学方法调节重新将声场定位于听者前方的最佳位置上。

二、BBE音效

BBE音效的3D环绕立体声技术包括， BBE、BBE Mach3Bass、BBE MP三种。

?BBE系统具有两个基本功能，其中之一是调节低、中和高频相位之间的关系。第二个功能是增强了高频和低频信号。此外，BBE还具有静噪功能。BBE电路内部设有噪声门和高截止滤波器，能对输入的杂散信号进行衰减。

?BBE Mach3Bass用电子学方法扩展特定扩音器的低音响应并能精确调整需要的低频极限。在世界知名的BBE处理相位误差校正技术的帮助下，BBE Mach3Bass可提供比标准低音提升电量更深，更密，更精确的低音频率。BBE Mach3Bass不影响中低段声音，否则会在中低频段产生混浊并改变角色的嗓音。

?BBE MP (最小化多项非线性饱和)技术通过数字压缩复原和增强谐波损失，进而提高经数字压缩处理的音频（如MP3）音效。BBE MP从原始资料中复原声音，因而有效地恢复声音的温暖感、细腻感和细微差别。BBE MP可将声级平均提高3个分贝，同时保持峰间摇摆不变。由于声音输出高出3个分贝，信噪比也相应地得到了改善。

通过上面技术描述的对比可以发现，虽然都可以提升低音，但两者对音乐的实质影响是完全不同的，SRS WOW带给音乐的改变是在空间感方面，就是听上去感觉声音范围更大了，而BBE提高声音的清晰度，整个声场强度都上了个台阶。

三、Spatializer 3D

Spatializer实验室的3D增强技术。具体不详。

四、DVX技术

日本DiMAGIC公司的DiMAGICVirtu-alizerX(DVX)环绕立体声技术。具体不详。

第六部分数字音频格式和数字音频接口

一、数字音频格式

1、PCM格式及其分类

PCM 是未压缩(无损)的数字音频格式。其采样速率为可以为6、8、11.025、16、22.05、32、44.1、48、64、88.2、96、192KHz,采样精度可以为8、12、13、16, 20, 或24 bits。可以有1到8个声道。最大比特速率为6.144 Mbps，如果有5个或更多声道,这个最大速率就限制了采样率和比特位数。例如音频CD为44.1 kHz/16 bits/双声道；DVD不仅能够播放2声道的超高保真音响（192KHz/24bit/双声道），还能播放线性PCM 最多6个声道的环绕声

音响（96kHz/24bit/6声道）。

PCM格式又根据其量化方式可以分为线性PCM（linear PCM）和非线性PCM(non-linear PCM)，前者是均匀量化得到的，后者是非均匀量化得到的。

?均匀量化

如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图6所示。

图6 均匀量化

?非均匀量化

非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，如图7所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时，采用相同的规则。

在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为u律压扩(companding)算法，另一种称为A律压扩算法。

u律(u-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。它的输入和输出关系是对数关系，所以这种编码又称为对数PCM。A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中。A律压扩的前一部分是线性的，其余部分与u律压扩相同。

对于采样频率为8 kHz，样本精度为13位、14位或者16位的输入信号，使用u律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位。

图8 非均匀量化

2、DSD音频格式

PCM脉码调制数字音频格式是70年代末发展起来的，记录媒体之一的CD，80年代初由飞利浦和索尼公司共同推出。PCM的音频格式也被DVD-A所采用，它支持立体声和5.1环绕声，1999年由DVD讨论会发布和推出的。

PCM的比特率，从14-bit发展到16-bit、18-bit、20-bit直到24-bit；采样频率从44.1kHz发展到192kHz。到目前为止PCM这项技术可以改善和提高的方面则越来越来小。只是简单的增加PCM比特率和采样率，不能根本的改善它的根本问题。其原因是PCM的主要问题在于： 1）任何PCM数字音频系统需要在其输入端设置急剧升降的滤波器，仅让20 Hz - 22.05 kHz的频率通过（高端22.05 kHz是由于CD 44.1 kHz的一半频率而确定），这是一项非常困难的任务。2）在录音时采用多级或者串联抽选的数字滤波器（减低采样率），在重放时采用多级的内插的数字滤波器（提高采样率），为了控制小信号在编码时的失真，两者又都需要加入重复定量噪声。这样就限制了PCM技术在音频还原时的保真度。

为了全面改善PCM 数字音频技术，获得更好的声音质量，就需要有新的技术来替换。近年来飞利浦和索尼公司再次联手，共同推出一种称为直接流数字编码技术DSD的格式, 其记录媒体为超级音频CD即SACD，支持立体声和5.1环绕声。

DSD音频格式简化了信号流程，去掉了PCM使用的多级滤波器，将模拟音频直接以2.8224MHz的高采样频率，按1-bit的数字脉冲来记录。虽然DSD格式表示的声音信号是数字化数据，但是它又与真正的声波非常接近，可完整的记录当今最佳模拟系统的信息。最好的30ips半英寸模拟录音机能记录的频率能超过50KHz，而DSD格式的频率响应指标为从DC 到100KHz。能覆盖高级模拟调音台的动态范围，通过其音频频段的剩余噪声功率，保持在-120dB。DSD的频率响应和动态范围，是任何数字和模拟的录音系统无法与之比拟的。从声音的质量上来说, 数字音频技术是为了接近模拟声音的质量。DSD音频格式的发展将更有利的与模拟音频系统配合。

二、数字音频接口

常见的数字音频接口有I2S接口、PCM接口和SPDIF接口。这里只作简要介绍。

?I2S接口：

只能传输单声道或双声道立体声的数字音频，数据格式为PCM格式。该接口又派生出三类：左对齐格式、右对齐格式、I2S格式。I2S时差性能要优于SPDIF，适合短距离通讯。

?PCM接口：

也叫DSP模式音频接口。一般用来传输单声道或双声道立体声的数字音频，但是理论上

也可以传输多声道的数字音频。数据格式为PCM格式。

?SPDIF接口：

SPDIF(Sony Phillips Digital Interface) SONY、PHILIPS数字音频接口。它的传输载体有同轴和光纤两种，后者抗干扰能力更强。SPDIF能传输PCM流，也能传输杜比数字（Dolby Digital）、DTS这类环绕声压缩音频信号。PCM流是原始、未经压缩的音频信号，杜比数字、DTS也是来源于PCM流。

录音技术基础知识

个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上

多媒体技术图片音视频知识点

多媒体技术图片音视频知识点多媒体＝多种媒体（文本、图形、图像、声音、动画和视频等）多媒体技术：计算机综合处理文字、图形、图像、音频、视频等多媒体信息，使多种信息建立逻辑连接，集成为一个系统并且具有交互性的一门综合性技术。多媒体技术主要包括：媒体处理技术、人机交互技术、数据压缩技术、软硬件平台技术、通信与网络技术。多媒体技术基本特征：数字性、多样性、交互性、集成性和实时性。其中交互性是关键特征。多媒体计算机特征部件：光驱、音箱、显卡声卡、视频采集卡、刻录机、摄像头、触摸屏、扫描仪、数码相机、数字投影仪……多媒体技术主要应用：教育培训、电子出版、影音娱乐、网络。多媒体【例题】 1、多媒体技术不包含以下哪种技术（C） A、数据压缩技术 B、人机交互技术 C、机械技术 D、通信与网络技术 2、以下哪一项不是常用的多媒体设备（B） A、摄像头 B、U盘 C、数据照相机 D、数字投影仪 3、以下哪一项不是多媒体技术的应用（D） A、教育培训 B、电子出版 C、网络 D、数字投影仪 4、计算机可以处理图像、声音和视频等信息，这种技术属于（D） A、智能化技术 B、自动控制技术 C、网络技术 D、多媒体技术 5、在多媒体计算机中，用来播放、录制声音的硬件设备是（B） A、网卡 B、声卡 C、视频卡 D、显卡 6. 下列关于多媒体技术主要特征描述正确的是：(D) ①多媒体技术要求各种信息媒体必须要数字化 ②多媒体技术要求对文本，声音，图像，视频等媒体进行集成 ③多媒体技术涉及到信息的多样化和信息载体的多样化 ④交互性是多媒体技术的关键特征 A. ①② B. ①④ C. ①②③ D. ①②③④ 7. 下面关于多媒体技术的描述中,正确的是： (C) A. 多媒体技术只能处理声音和文字 B. 多媒体技术不能处理动画 C. 多媒体技术就是计算机综合处理声音，文本，图像等信息的技术 D. 多媒体技术就是制作视频 8、以下属于多媒体技术应用的是：（B）（1）远程教育（2）美容院在计算机上模拟美容后的效果（3）电脑设计的建筑外观效果图（4）房地产开发商制作的小区微缩景观模型 A、(1)(2) B、(1)(2)(3) C、(2)(3)(4) D、全部 9、在多媒体课件中，课件能够根据用户答题情况给予正确和错误的回复，突出显示了多媒体技术的(D)。Ａ、多样性Ｂ、非线性Ｃ、集成性Ｄ、交互性

数字音频基础知识

第一章数字音频基础知识主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。 ?人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。 ?乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。 ?噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。 1.2 声音的传播 ?声音靠介质传播，真空不能传声。 ?介质：能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。 ?双耳效应的应用：立体声 ?人耳能感受到（听觉）的频率范围约为20Hz~ 20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。 ?人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。 ?传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素：音调、响度（音量/音强）和音色 ?人们就是根据声音的三要素来区分声音。音调（pitch ） ?音调：声音的高低（高音、低音），由―频率‖（frequency）决定，频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。 ?低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度（loudness ） ?响度：又称音量、音强，指人主观上感觉声音的大小，由―振幅‖（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）音色（music quality） ?音色：又称音品，由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。 1.5 声道

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式？C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式？B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式？D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式？D a)MP4：AVC+AAC b)3GP：AVC+AMR-NB c)FLV：H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端（iphone，ipod，ipad）本地播放器支持以下哪种视频编码？B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架（Profile）？D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称？A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps，需要每秒2个关键帧，则每隔多少帧需设置一个关键帧？A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的？D a)H.264+MP3，350K+32K，15fps，22050，320x240 b)H.264+MP3，350K+32K，15fps，22050，320x240 H.264+MP3，500K+64K，25fps，44100，480x320 c)H.264+MP3，500K+64K，25fps，44100，480x320 H.264+MP3，800K+64K，25fps，44100，640x480 d)ONVP6+MP3，300K+32K，12fps，22050，480x320 ONVP6+MP3，400K+32K，12fps，22050，320x240 ONVP6+MP3，500K+32K，12fps，22050，240x180

录音技术基础知识

录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

音视频技术基本知识一

https://www.wendangku.net/doc/2a2574622.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

录音技术基础知识

录音技术基础知识基本录音/多轨录音无论是盒式磁带录音机、数码多轨录音机、硬盘录音机，还是其它录音媒体，其录音过程大致相同，目的都是将声音获取到缩混带上。做此工作，录音工程师采用两个步骤： 1、多轨录音——各种乐器和人声的录音与叠加录音的过程，每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上（“母带录音”），可以用某种播放系统如CD播放机或磁带卡座等进行再制作。录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，以便在播放任意一种音色时，同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。换言之，假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.wendangku.net/doc/2a2574622.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.wendangku.net/doc/2a2574622.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

音频基础知识

一般认为20Hz－20kHz是人耳听觉频带，称为“声频”。这个频段的声音称为“可闻声”，高于20kHz的称为“超声”，低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别，所以二者的接线方法是不一样的，应引起注意。声学的基本概念音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如： 1．语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定，即以主观打分（MOS）来度量，它分为以下五级：5（优），不察觉失真；4（良），刚察觉失真，但不讨厌；3（中），察觉失真，稍微讨厌；2（差），讨厌，但不令人反感；

专业音频中的十个知识点

专业音频中的十个知识点 1.如果音乐家们在舞台上能够听到他们所需要的声音，那他们会感觉非常舒适，在舞台上的表现往往也会更好。当然，那些经验丰富的监听技术人员还有录音技术人员肯定是知道这一点的。但是对那些经验不足的人来说，了解这一点是非常重要的。这并不是一个关于需要使用多大的功率的问题，也不是一个关于需要使用什么样的楔形返听音箱的问题。这其实是一个关于心理学的问题。而且我认为，如果您了解了舞台监听的技术，并且知道如何取悦舞台上的音乐家们，那么您就已经达到了成为一名优秀的混音工程师90%的条件。当然，最后的那10%可能要靠天赋，运气等等其他因素，但是如果没有之前的那90%的基础，无论您有多好的天赋和运气都没有用。 2.在海拔高度为海平面高度，温度为68华氏度，相对湿度为4%的条件下，声音的传播速度是每秒1,130英尺。这是非常重要的信息，因为如果您对声音传播的方式有着足够的了解，那么在工作中，您会对麦克风的架设，延迟塔的设置，以及平衡前后延迟这类问题拥有更深入的了解。不仅如此，您还应该知道，声音的传播速度是会随着空气的温度，湿度和海拔高度的变化而变化。(如果您对此还不了解，那么请尽快学习一下相关的知识。)

3.反平方定律。如果距离声源的距离每增加一倍，那么声功率就会减少为原来的四分之一，我想这一点很多人都是知道的。这一定律几乎可以适用于所有的地方，无论是麦克风还是扬声器阵列。了解这一定律，对于我们确定功率放大器所需的功率十分重要。例如，如果您通常所使用的扬声器阵列所能覆盖的观众席区域是从20英尺到60英尺，而在某一个演出当中，观众席的区域是在40到100英尺之间，那么您需要使用多大的功率才能在观众席内维持相同的声功率?答案是：大约四倍的功率! 反平方定律，如上图所示 4.人类听觉系统的等响度曲线(等响曲线)。早在20世纪30年代，Harvey Fletcher和他在贝尔实验室领导的团队就通过了一系列试验，获得了如下这张等响曲线图。从图中我们可以看出人类的耳朵对于中高频率信号最为敏感，而对于频率非常低和频率非常高的声音信号，最不敏感。换句话说，如果我们想让100 Hz的音调与3.5 kHz的音调听起来一样大，100 Hz时的声音必须比3.5 kHz时的声音大上15 dB!(这里我们假设3.5 kHz的音调为85 dB SPL)

现代录音基础知识

现代录音基础知识（上）快速录音基础知识入门连载（一）录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。什么是叠加？假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可以找到），XLR（一般用于话筒）和1/4inch（一般用于乐器）。

视频音频编码知识

audio。AAC（Advanced Audio Coder)区别于ac3，mp3（全称MPEG1 Layer3，可不是MPEG3的缩写哦)等等，aac是Mp4官方指定的mp4音频规格。和video一样，她也有两个profile： - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据，HE比LC更高级一些，允许你在相同音质下已更低的bitrate编码。帧间压缩。其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

音频基础知识

Audio知识简介干一行专一行VS学一行丢一行第一部分：HTS基本概念： HTS（Home Theater System）通俗的讲就是将电影院搬到家里，然后就成了家庭影院，就公司的产品而言可以简单的理解为：DVD/BD player + 功放+ Speaker 组成：节目源（碟片+碟机等）+ 放声系统（AV功放+音箱组等）+显示部分（电视机/投影仪）配置家庭影院的好处：高清晰的如水晶般的画面，环绕的立体声，清晰的人声，震撼的低音效果，可以提供几乎身临其境的感觉。在强烈的视听冲击下，能感受到现实和虚拟的完美交汇，触发更深的人生感悟。第二部分：Audio 百度定义： 1.Audio指人说话的声音频率，通常指300Hz---3400Hz的频带 2.指存储声音内容的文件 3.在某些方面能指作为波滤的振动。音频这个专业术语，人类能够听到的所有声音都称之为音频，它可能包括噪音，声音被录制下来以后，无论是说话声，歌声乐器都可以通过数字音乐软件处理。把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音，演讲和音乐，如果有计算机加上相应的音频卡，可以把所有的声音录制下来，声音的声学特性，音的高低都可以用计算机硬盘文件的方式储存下来，反过来，也可以把眄来的音频文件通过一定的音频程序播放，还原以前录下的声音。 Audio的分类：按编码格式分类： mp3,wav, aac, ogg, flac, aiff, ac3(亦称之Dolby digital), dts, pcm, Dolby true hd(HD), Dolby digital plus(HD), dts hd master audio(HD), dts hd high resolution audio(HD), dts hd low bit rate(HD) 多声道音频的分类： C:center L: left front R: Right front LS: Left surround RS: right surround S: surround(单个环绕声道) LB：left back surround RB: right back surround Cs: Center surround 1.带LFE声道的分法：根据码流中实际的通道数分 X的值为0/1，0表示不带LFE通道，1表示含LFE通道