文档库 最新最全的文档下载
当前位置:文档库 › 音视频编码文档

音视频编码文档

音视频编码文档
音视频编码文档

音视频编码说明

1音视频编码参数

1.1音频编码参数

音频编码格式采用AAC格式,其参数设置比较简单,主要设置参数如下:

(1)音频样本格式的设置

c->sample_fmt = AV_SAMPLE_FMT_S16;

sample_fmt是一个enum类型,包含了多种样本格式,样本格式的设置应保持与Android应用层音频采样格式一致。此处,我们设置为AV_SAMPLE_FMT_S16,Android应用层采样格式也是16位的

ENCODING_PCM_16BIT格式。

(2)音频码率设置

c->bit_rate = 64000;

此参数为应用层提供参数接口,由应用层根据编码效果来设定。此处参考值为64000。

(3)音频采样率设置

c->sample_rate = 44100;

此参数为应用层提供参数接口,由应用层获取实际机型可用的采样率来决定。采样率越低,音频效果越差,反之,越好。音频采样率一般有8000,44100, 47250, 48000, 47250,32000, 11025, 16000,

22050等值,此处参考值为44100HZ,现在基本所有机器都支持44100采样,而且音频效果也很好。

(4)音频通道设置

c->channels = 2;

此参数为应用层提供参数接口,根据应用层需求来设置。当设置1时为单声道模式,设置2时为立体声道模式。此处参考值为2.

1.2视频编码参数

视频编码参数相对音频编码参数复杂,其中一些参数关系到视频编码的质量和编码速度,为此需要设置一套最优的参数以确保质量和速度达到一个平衡点。

(1)视频编码基本参数设置

<1> DEC_ID_H264;

视频编码格式采用H264格式。

<2> c->width = 480;

c->height = 480;

width和height两个参数为应用层提供参数接口,根据具体需求来设置编码后视频的大小,即最终视频的width和height。应用层也可以考虑通过调节width和height的大小来改变视频编码的速度,例如480*320的大小比480*480的大小编码速度快很多。此处默认是

480*480大小。

<3> c->time_base.den = 15;

常见的视频编码详解

常见的视频编码详解 A VI所采用的压缩算法并无统一的标准。也就是说,同样是以A VI为后缀的视频文件,其采用的压缩算法可能不同,需要相应的解压软件才能识别和回放该A VI文件。除了Microsoft 公司之外,其他公司也推出了自己的压缩算法,只要把该算法的驱动(Codec)加到Windows 系统中,就可以播放用该算法压缩的A VI文件。最新流行的MPEG-4视频也借用A VI的名称,只要机器安装了它的编码解码,也能够实现正常的播放。这些A VI都能够在用Authorware 或PowerPiont开发的作品当中正常放映。各种编码Codec所生成的A VI文件的大小和质量是不同的,对系统和硬件要求也不同。 因此在压缩A VI时,必须根据计算机的软硬件情况,来考虑采用什么Codec算法,否则你的作品中视频放映是难以令人满意的。下面就是对各种常见编码解码Codec的说明。 常见的视频编码 1、Cinepak Codec by Radius 它最初发布的时候是用在386的电脑上看小电影,在高数据压缩率下,有很高的播放速度。利用这种压缩方案可以取得较高的压缩比和较快的回放速度,但是它的压缩时间相对较长。 2、Microsoft Video 1 用于对模拟视频进行压缩,是一种有损压缩方案,最高仅达到256色,它的品质就可想而知,一般还是不要使用它来编码A VI。 3、Microsoft RLE 一种8位的编码方式,只能支持到256色。压缩动画或者是计算机合成的图像等具有大面积色块的素材可以使用它来编码,是一种无损压缩方案。 4、Microsoft H.261和H.263 Video Codec 用于视频会议的Codec,其中H.261适用于ISDN、DDN线路,H.263适用于局域网,不过一般机器上这种Codec是用来播放的,不能用于编码。 5、Intel Indeo Video R3.2 所有的Windows版本都能用Indeo video 3.2播放A VI编码。它压缩率比Cinepak大,但需要回放的计算机要比Cinepak的快。 6、Intel Indeo Video 4和5

7种常见的音频格式简析

7种常见的音频格式简析 (MP3,WMA,WAV,APE,FLAC,OGG,AAC) MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。 简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件)。 MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。 WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名,一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络串流媒体及行

几种常见的工程材料编码方式对比分析与实践

数字化协同设计对智能油气田建设的支持 宋光红1陈亮2成岩3 (1.中国石油工程建设有限公司西南分公司;2.中国石油西南油气田分公司蜀南气 矿;3. 鹰图中国) 摘要材料编码是工程建设项目开展精细化管理的重要基础工作。本文分析了材料编码工作的意义与编码要素,对国际上常用的编码结构和物资材料管理软件进行了介绍,以及对我公司将集团ERP系统物资分类码应用于企业级材料编码的方案进行的说明,供业内学习和参考。 关键词ERM 材料编码编码原则编码结构材料管理5497 0 引言 随着石油天然气化工项目信息化建设的不断深入发展,工程设计普遍采用三维设计软件。随着软件技术的进步,以及工程项目信息化管理的需要,以管道安装设计为主要目标的传统三维设计逐步向多专业的三维协同设计方向发展,实现多专业设计成果输出,同时形成了工程项目完整的虚拟资产模型【1】。 无论是传统的三维设计,还是三维协同设计,均是以材料数据库为基础,驱动三维建模,并为工程建设提供全流程数据支持。采用专业的材料管理软件,对多专业三维材料数据库进行编码,并进行材料管理,能有效提高物资材料的管理质量和效率,并能有效节约项目建设成本【2】。 1材料编码及意义 材料编码也称物资编码,通过一串简短的数字、字母、符号来代替材料的名称和其他属性。通过对材料进行编码,能确保材料进入材料数据库后具有唯一性【3】。以材料编码为基础建立的材料数据库,可以驱动产生带材料编码的工程物资材料清单,以便于在项目建设过程中通过以编码为材料的唯一标识来进行物资材料的计算机管理。通过对工程材料进行统一编码,可以在工程设计阶段加强专业设计与材料控制之间的协调性,更能促进项目全生命周期内设计、采购、施工、成本管理的有效沟通,进而实现规范法、一体化、精细化材料管理的目标【4】;同时,还能够整合、集成公司的知识和经验,形成高水平的公司级信息资源库和知识资产,并形成一个优良的信息资源和知识生长机制与平台,不断提升全公司的工作质量、水平和效率。

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 二、W A VE 这是一种古老的音频文件格式,由微软开发。W A V是一种文件格式,符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头,这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念,我们拿A VI做个示范,因为A VI和WAV在文件结构上是非常相似的,不过A VI多了一个视频流而已。我们接触到的A VI 有很多种,因此我们经常需要安装一些Decode才能观看一些A VI,我们接触到比较多的DivX 就是一种视频编码,A VI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,W AV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的W A V,但这不表示W A V只能使用PCM编码,MP3编码同样也可以运用在W A V中,和A VI一样,只要安装好了相应的Decode,就可以欣赏这些W A V了。 在Windows平台下,基于PCM编码的W A V是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,W A V也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的W A V被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。 三、MP3编码 MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group)Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。 VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪

音视频编码技术

音视频编码技术报告 姓名: 学号: 学院(系):电子与信息工程学院 专业: 电子与通信工程 题目: 基于DCT变换的图像压缩技术的仿真

1.引言 在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。 本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像 信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信 号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。 2.图像压缩编码的简介 从信息论的角度看,图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多,其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差(对原图像的保真程度),图像编码压缩分为无误差(亦称无失真、无损、信息保持)编码和有误差(有失真或有损)编码两大类。 无损压缩(冗余度压缩、可逆压缩):是一种在解码时可以精确地恢复原图像,没有任何损失的编码方法,但是压缩比不大,通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合,例如复制、保存十分珍贵的历史、文物图像等。 有损压缩(不可逆压缩):只能对原始图像进行近似的重建,而不能精确复原,适合大数工用于存储数字化了的模拟数据。压缩比大,但有信息损失,本文采用有损压缩。 DCT图像压缩编码可以概括成图2.1的框图。 图2.1 DCT压缩编码过程简化 3.DCT变换 最小均方误差下得到的最佳正交变化是K-L变换,而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换,目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是,将图像分为8×8的子块或16×16的子块,并对每一个子块进行单独的DCT变换,然后对变换结果进行量化、编码。

音视频技术基本知识一

https://www.wendangku.net/doc/fc528207.html, 音视频技术基本知识一 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云总结网络上的知识,与大家分享一下音视频技术基本知识。 与画质、音质等有关的术语 这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧 一般来说,帧是影像常用的最小单位,简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的,现在大多数视频也类似,下面说说帧速率和帧大小。 帧速率,有的转换器也叫帧率,或者是每秒帧数一类的,这可以理解为每一秒的播放中有多少张图片,一般来说,我们的眼睛在看到东西时,那些东西的影像会在眼睛中停留大约十六分之一秒,也就是视频中只要每秒超过15帧,人眼就会认为画面是连续不断的,事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况,当视频中有较快的动作时,帧速率过小,动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上,这24帧是电影的帧速率。 帧大小,有的转换器也叫画面大小或屏幕大小等,是组成视频的每一帧的大小,直观表现为转换出来的视频的分辨率的大小。一般来说,软件都会预置几个分辨率,一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等,当然很多转换器提供自定义选项,这里,不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率,如果是转换到普通手机、PSP等设备上,视频分辨率选择与设备分辨率相同,否则某些设备可能会播放不流畅,设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率 比特率,又叫码率或数据速率,是指每秒传输的视频数据量的大小,音视频中的比特率,是指由模拟信号转换为数字信号的采样率;采样率越高,还原后的音质和画质就越好;音视频文件的体积就越大,对系统配置的要求也越高。 在音频中,1M以上比特率的音乐一般只能在正版CD中找到,500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式,一般的MP3是在96K到320K之间。目前,对大多数人而言,对一般人而言192K就足够了。 在视频中,蓝光高清的比特率一般在40M以上,DVD一般在5M以上,VCD一般是在1M 以上。(这些均是指正版原盘,即未经视频压缩的版本)。常见的视频文件中,1080P的码率一般在2到5M之间,720P的一般在1到3M,其他分辨率的多在一M一下。 视频文件的比特率与帧大小、帧速率直接相关,一般帧越大、速率越高,比特率也就越大。当然某些转换器也可以强制调低比特率,但这样一般都会导致画面失真,如产生色块、色位不正、出现锯齿等情况。

常见的几种高清视频编码格式

高清视频的编码格式有五种,即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类是经过MPEG-2标准压缩,以tp和ts为后缀的视频流文件;一类是经过WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv是一样的。真正效果好的高清视频更多地以H.264与VC-1这两种主流的编码格式流传。 H.264编码 H.264编码高清视频 H.264是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H.264 最具价值的部分是更高的数据压缩比,在同等的图像质量,H.264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高1.5~2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,H.264只需要1Mbps~2Mbps 的传输速率,目前H.264已经获得DVD Forum与Blu-ray Disc Association采纳,成为新一代HD DVD的标准,不过H.264解码算法更复杂,计算要求比WMA-HD 还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对H.264硬解码的支持。与MPEG-4一样,经过H.264压缩的视频文件一般也是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质,相同效果的MPEG2与H.264影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,H.264不仅能够节省HDTV的存储空间,而且还可以

视频监控常见编码格式

视频监控常见的视频编码格式: CIF、QCIF、4CIF、D1、MPEG-4、H.264、M-JPEG等。 备注: 1.NTSC和PAL属于全球两大主要的电视广播制式,但是由于系统投射颜色影像的频率不一样而有所不同。 NTSC是National Television Standards Committee的缩写,意思是“(美国)国家电视标准委员会”。NTSC负责开发一套美国标准电视广播传输和接收协议。此外还有两套标准:逐行倒相(PAL)和顺序与存色彩电视系统(SECAM),用于世界上其他的国家。NTSC标准从他们产生以来除了增加了色彩信号的新参数之外没有太大的变化。NTSC信号是不能直接兼容于计算机系统的。其标准主要应用于日本、美国,加拿大、墨西哥等等。 PAL是Phase Alternating Line (逐行倒相)的缩写。它是西德在1962年制定的彩色电视广播标准,它采用逐行倒相正交平衡调幅的技术方法,克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港,澳大利亚、新西兰等国家采用这种制式。

NTSC电视标准:每秒29.97帧(简化为30帧),电视扫描线为525线,偶场在前,奇场在后,标准的数字化NTSC电视标准分辨率为720*480像素, 24比特的色彩位深,画面的宽高比为4:3。NTSC电视标准用于美、日等国家和地区。场频为每秒60场,帧频为每秒30帧,扫描线为525行。 PAL电视标准:PAL电视标准,每秒25帧,电视扫描线为625线,奇场在前,偶场在后,标准的数字化PAL电视标准分辨率为720*576, 24比特的色彩位深,画面的宽高比为4:3, PAL 电视标准用于中国、欧洲等国家和地区,PAL制电视的供电频率为50Hz,场频为每秒50场,帧频为每秒25帧,扫描线为625行,图像信号带宽分别为4.2MHz、5.5MHz、5.6MHz等。 2.目前监控行业中主要适用QCIF(176 x 144)、CIF(352 x 288)、HALF D1(704 x 288)、D1(704 x 576)等几种分辨率。针对安防行业的网络摄像机主要生产厂家,采用最多的编码方案是MPEG-4和M-JPEG,采用H.264的也越来越多。标清监控中用得最多的是D1路式。 3.H.264和MPEG-4由于能够在低带宽下传送高质量的图像,目前在电信全球眼业务和网通宽世界业务的视频码流格式被采用,尤其是H.264。 4.所谓标清,是物理分辨率在720p(1280*720)以下的一种视频格式。而物理分辨率达到720p以上则称作为高清(High Definition),简称HD。所谓全高清(FULL HD),是指物理分辨率高达1920 x 1080显示(包括1080i和1080P),其中i(interlace)是指隔行扫描;P (Progressive)代表逐行扫描,这两者在画面的精细度上有着很大的差别,1080P的画质要胜过1080i。对应地把720称为准高清。很显然,由于在传输的过程中数据信息更加丰富,所以1080在分辨率上更有优势,尤其在大屏幕电视方面,1080能确保更清晰的画质。

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称,是当今比较流行的一种数字音频编码和有损压缩格式(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:1)。简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency,以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1,48和32 kHz三种频率,比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。 一.概述: MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和 6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB 的存储空间,而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式,为了降 低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉 噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3 文件,并使压 缩后的文件在回放时能够达到比较接近原音源的声音效果。 二.整个MP3文件结构: MP3 文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1) ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1 的信息量。 Frame 一系列的帧,个数由文件大小和帧长决定

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月 来源: 包括作者、单位名称等与创作者相关的信息 标题: 状态: 描述文件的版本或其他需要说明的信息,例如视频提案、DRM信息等 ___________________________________________________ 正文 中国数字音视频编解码技术标准工作组 会员提案专利披露与许可承诺表 根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定,A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》,作为该提案的必要组成部分同时提交。 专题组名称:音频□视频□系统□DRM□ 提案A VS文档编号:_ 提案日期:________ 提案标题: 提案会员名称:_ 提案代表姓名(印刷体):Email: 提案代表通讯地址:邮编 电话:______ __ 传真:__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。 表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请,提案会员应当填写下表: 表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

几种常见音频视频音乐文件格式

几种常见音频视频音乐文件格式 1、.wmv WMV是微软推出的一种流媒体格式,它是在“同门”的ASF(Advanced Stream Format)格式升级延伸来得。在同等视频质量下,WMV格式的体积非常小,因此很适合在网上播放和传输。AVI文件将视频和音频封装在一个文件里,并且允许音频同步于视频播放。与DV D视频格式类似,AVI文件支持多视频流和音频流。WMV 不是仅仅基于微软公司的自有技术开发的。从第七版(WMV1)开始,微软公司开始使用它自己非标准MPEG-4 Par t 2。但是,由于WMV第九版已经是SMPTE的一个独立标准(421M,也称为VC-1),有理由相信WMV的发展已经不象MPEG-4那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家(2006年4月),微软公司也是MPEG-4 AVC/H.264专利共享企业中的一家。微软的WMV还是很有影响力的。可是由于微软本身的局限性其WMV 的应用发展并不顺利。第一, WM9是微软的产品它必定要依赖着Windows,Windows 意味着解码部分也要有PC,起码要有PC机的主板。这就大大增加了机顶盒的造价,从而影响了视频广播点播的普及。第二,WMV技术的视频传输延迟非常大,通常要10几秒钟,正是由于这种局限性,目前WMV也仅限于在计算机上浏览WM9视频文件。WMV-HD是由软件业的巨头微软公司所创立的一种视频压缩格式,一般采用.wmv为文件后缀名。其压缩率甚至高于MPEG-2标准,同样是2小时的HDTV节目,如果使用MPEG-2最多只能压缩至30GB,而使用WMV-HD这样的高压缩率编码器,在画质丝毫不降的前提下都可压缩到15GB以下。WMV-HD,基于WMV9标准,是微软开发的视频压缩技术系列中的最新版本,尽管WMV-HD是微软的独有标准,但因其在操作系统中大力支持WMV系列版本,从而在桌面系统得以迅速普及。在性能上,WMV-HD的数据压缩率与H.264一样,两者的应用领域也极其相似,因此在新一代主流视频编码标准霸主地位的争夺之中,双方展开了针锋相对的斗争,而斗争的焦点集中在下一代光盘规格“HD DVD”和数字微波广播电视等领域。一般采用.wmv为后缀的HDTV文件就是采用的WMV-HD压缩的。目前DVD论坛已经初步批准将MPEG-2、H.264和微软的WMA-HD作为下一代DVD即HD-DVD技术的强制执行 标准。 2、.MOV MOV即QuickTime影片格式,它是Apple公司开发的音频、视频文件格式,用于存储常用数字媒体类型,如音频和视频。当选择QuickTime (*.mov)作为“保存类型”时,动画 将保存为.mov 文件. 用格式工厂1.90可以转换 3、.mpeg MPEG1 MPEG1格式即我们通常所说的VCD视频格式。它可针对SIF标准分辨率的图像进行压缩,视频速度每秒可播放30帧,具有画质好、音质接近于CD等优点,不过对解码芯片的运算能力有较高要求。

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

音视频的编码解码

编码: 编码和文件格式(也称容器)是什么? 文件(即容器)是既包括了视频、又包括音频、甚至还带有一些脚本的集合; 文件中视频和音频的压缩算法才是真正的编码; 对于一种文件,它的视频和音频可以分别采用不同的编码。 1.什么是视频编码? 所谓视频编码就是通过特定的压缩技术,将某个视频格式的文件转换成另外一种视频格式文件的方法。 视频编码的主要功能是完成图像的压缩,使数字电视信号的传输量由1Gbit/s(针对1920x1080显示格式)减少为20-30Mbit/s。 2.什么是音频编码? 自然界中的声音以及波形都非常复杂,声音其实也是一种能量波,它有频率和振幅;其中频率所对应的是时间轴线,振幅对应的是电平轴线。波是无限光滑的,弦线可看成由无数点组成。 音频编码主要是完成对声音信息的压缩。声音信号数字化后,信息量比模拟传输状态大很多,不能像模拟电视声音那样直接传输;因而需要对声音多一道压缩编码工序,即为音频编码。 1.视频编码原理简介 视频编码主要是对图像进行有效的压缩。原始视频图像数据中包含 大量的冗余信息视频编码主要采取块运动估计和运动补偿技术有效的去除图像帧间冗余度,来压缩码率和带宽,实现信号有效传输的目的。 2.音频编码的原理简介 我们需要通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。抽样就是在时间上将模拟信号离散化。量化是用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。编码就是按一定的规律把量化后的值用二进制数字表示,然后转换成二值或多值得数字信号流。 通常我们采用PCM编码,其主要过程是将话音、图像等模拟信号每隔一段时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,并将抽样值按一组二进制码来表示抽样脉冲的幅值。 目前常见的几种视频编码技术方案: 1)MPEG-2 MPEG-2图像压缩的原理是主要利用了图像中的两种特性:空间相关性和时间相关性.另外它综合采用了运动补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。同时它开始用半像素精度运动矢量搜索,引入了“帧”和“场”的编码方法,和MPEG-1向下兼容;主要针对存储媒体、数字电视、高清晰等应用领域,分辨率为:低(352*288)中(720*480)次高(1440*1080)高(1920*1080)。 2)MPEG-4 采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。实现了从基于像素的传统编码向基于对象和内容的现代编码的转变。主要特点是支持交互性、高压缩比及能用存储性; 3)Windows Media Video 采用了MPEG4的压缩算法,所以压缩率和图像的质量都很不错,由于Windows Media

音视频编码文档

音视频编码说明 1音视频编码参数 1.1音频编码参数 音频编码格式采用AAC格式,其参数设置比较简单,主要设置参数如下: (1)音频样本格式的设置 c->sample_fmt = AV_SAMPLE_FMT_S16; sample_fmt是一个enum类型,包含了多种样本格式,样本格式的设置应保持与Android应用层音频采样格式一致。此处,我们设置为AV_SAMPLE_FMT_S16,Android应用层采样格式也是16位的 ENCODING_PCM_16BIT格式。 (2)音频码率设置 c->bit_rate = 64000; 此参数为应用层提供参数接口,由应用层根据编码效果来设定。此处参考值为64000。 (3)音频采样率设置 c->sample_rate = 44100; 此参数为应用层提供参数接口,由应用层获取实际机型可用的采样率来决定。采样率越低,音频效果越差,反之,越好。音频采样率一般有8000,44100, 47250, 48000, 47250,32000, 11025, 16000,

22050等值,此处参考值为44100HZ,现在基本所有机器都支持44100采样,而且音频效果也很好。 (4)音频通道设置 c->channels = 2; 此参数为应用层提供参数接口,根据应用层需求来设置。当设置1时为单声道模式,设置2时为立体声道模式。此处参考值为2. 1.2视频编码参数 视频编码参数相对音频编码参数复杂,其中一些参数关系到视频编码的质量和编码速度,为此需要设置一套最优的参数以确保质量和速度达到一个平衡点。 (1)视频编码基本参数设置 <1> DEC_ID_H264; 视频编码格式采用H264格式。 <2> c->width = 480; c->height = 480; width和height两个参数为应用层提供参数接口,根据具体需求来设置编码后视频的大小,即最终视频的width和height。应用层也可以考虑通过调节width和height的大小来改变视频编码的速度,例如480*320的大小比480*480的大小编码速度快很多。此处默认是 480*480大小。 <3> c->time_base.den = 15;

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽: Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k 是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型:Audio 制定者:ITU-T 所需频宽:32Kbps 特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。 它的核心想法是: ①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术) 缺点:声音质量一般 应用领域:voip

相关文档
相关文档 最新文档