文档库 最新最全的文档下载
当前位置:文档库 › 一种基于H_264的细粒度多适应性视频编码算法

一种基于H_264的细粒度多适应性视频编码算法

系统仿真学报V ol. 17 No. 6

JOURNAL OF SYSTEM SIMULATION Jun. 2005·1462·

一种基于H.264的细粒度多适应性视频编码算法

蒲菊华,熊璋,侯亚荣

(北京航空航天大学计算机学院601, 北京 100083)

摘要:提出了一种基于H.264的细粒度多适应性编码算法并对其进行了仿真实验。该算法综合运

用了MP(Matching Pursuit)变换和位面编码等细粒度编码技术,灵活地将MP变换结果分为两个

层次的码流,帧间预测也采用了两级预测模式,生成了多层次细粒度的视频压缩码流。该算法输出

码流具有精细可调性,能自适应网络带宽变化,对于解决视频应用在现有尽力而为网络上所面临的

带宽波动和异构等问题有着重要意义。仿真实验证明了该算法的恢复质量和可伸缩性。

关键词: 视频;细粒度;H.264;多适应性编码;匹配追踪变换

文章编号:1004-731X (2005) 06-1462-04 中图分类号:TP391 文献标识码:A Fine Granularity Adaptive Video Coding Algorithm Based on H.264

PU Ju-hua, XIONG Zhang, HOU Ya-rong

(Lab 601, School of Computer Science and Engineer,Beijing University of Aeronautics and Astronautics, Beijing 100083, China) Abstract: A fine granular adaptive video coding algorithm is presented based on H.264, which combines such fine granular scalable (FGS) coding methods as matching pursuit and bit-plane, and the results of video residual after matching pursuit are encoded into two layer bit streams. Another point presented here is the two layer inter-prediction mode. All these results are multi-layer FGS video bit streams. The algorithm is flexible for granularity adjustment and adaptive to bandwidth variation, so it is a promising solution to video application over the best-effort internet with heterogeneity and bandwidth variation. The simulation and experiments indicate its performance in video recovery and scalability.

Key words: video; fine granularity; H.264; adaptive video coding; matching pursuit

引言

随着多媒体技术和网络技术的迅速发展,互联网上的视频应用有着越来越广泛的前景,也面临着诸多挑战。视频(尤其是实时视频)对带宽、延迟和丢失率等都有一定要求,而现有的因特网提供的服务不能为视频应用提供服务质量保证。并且,由于网络和接收端的异构性,使得很难充分利用现有网络带宽和资源、实现服务的灵活性。欲解决视频在现有互联网络上应用传输所面临的这些问题,公认的经济有效的方式是应用层的服务质量控制策略[1-3],尤以可伸缩性视频编码较突出。而不同的可伸缩性视频编码算法提供的码流可控粒度是不同的,解码所恢复的视频质量也有很大区别,具有不同的适用背景和应用前景。文献[1]和[3]详细介绍了视频的编码控制粒度和视频质量之间的关系,阐明了细粒度服务质量控制对视频质量的影响,以及细粒度视频编码的重要意义。因此有必要进一步研究如何提供细粒度的视频编码方式,以保证视频应用能够在波动的网络上满足异构用户的不同需求。

视频应用的迅速发展也带动了多种视频标准的不断出现和发展,H.264就是新出现的一个视频编码标准,成为视

收稿日期:2004-07-14 修回日期:2004-12-25

基金项目:航天科技创新基金;航空基础科学基金(00F51057)

作者简介:蒲菊华(1976-), 女, 四川阆中人, 博士生, 研究方向为视频编码、传输与服务质量控制;熊璋(1956-), 男, 湖北武汉人, 教授, 博导, 研究方向为多媒体技术和分布式信息处理;侯亚荣(1974-), 女, 山西太原人, 博士生, 研究方向为分布式多媒体系统。频应用的重要标准之一,将带动很多基于H.264的视频应用[4]。但是,目前H.264标准所提出的编码框架对于细粒度可伸缩性的支持还不是很成熟,文献[5]提出了一种基于H.26L的细粒度视频编码算法,但是该算法在码流粒度上的处理比较简单,仅仅是将传统DCT变换和位面编码引入到编码框架中,所以不能避免DCT变换编码所引入的诸多缺陷,比如块效应、低码速率下压缩比太低、以及误差积累等问题。因此需要进一步研究如何以H.264为标准,提供细粒度多适应性编码。

本文是在研究分析H.264的主要特点的基础上,提出了一种基于H.264的细粒度可伸缩性编码算法。文章详细介绍了该算法的编解码器原理、层次调整和粒度控制等关键技术,并给出了相关试验结果。论文后续组织如下:第二部分介绍算法的基本思想;第三部分描述了算法粒度及其控制的主要问题,第四部分描述了解码器,第五部分是试验介绍与分析;最后进行总结。

1 算法基本思想及框架

该编码器

(图1)的基本思路是:首先对帧内模式的帧,采用现有H.264框架提出的编码方式,即帧内预测后,对预测信息和残差信号进行整数变换和量化,并进行熵编码形成该帧码流;对帧间模式的帧,经帧间预测后,残差信号采用MP变换编码,并依据MP的诸多优点,将MP变换结果形成基本MP原子和增强MP原子两种层次。其中,基本MP 原子形成了视频数据流的基本层,并据此进行下一帧基本层

V ol. 17 No. 6

Jun. 2005 蒲菊华, 等:一种基于H.264的细粒度多适应性视频编码算法

·1463·

预测;增强MP 原子形成了视频数据流的最低的增强层,并将该增强层引入到增强层预测中。对经过增强层预测的残差信号,为了减少编码器计算复杂度,采用了整数变换和位面编码的方式。

1) MP 编码及其两种层次的形成:MP 变换是一种信号变换方法,用某定义了内积的信息空间中的一组超完备的信号簇(即通常所说的字典集合,由若干信号函数构成)来表示该空间中的其他信号[6]。用一维信号来解释,MP 变换过程为:对信号f (t ),首先从字典集合D 中选择一个函数g r 0(t ),使下式成立:

)( )()(),(-)( D,)(1t R t g t g t f t f t g ≥><∈?(1)

其中R 1(t ) = f (t ) - g r 0(t ),表示f (t )经一次变换后的差信号。式(1)表明g r 0(t )的

选择应使残差信号最小,这样就完成了对f (t )的一次分解。

接着对差信息R 1(t )进行上述分解。循环操作,直到所得的差信号R n (t )小于某个阈值。定义R 0(t ) = f (t ),则f (t )就可以用如下序列近似表示[7]:

{, i = 0,1,…,n } (2)

MP 变换编码就是将视频中经过预测后的残差信号用所设计的一个超完备的信号簇(视频残差信号空间的字典集合)来表示。用该种方式编码视频有很多优点[7],最关键的一点是,视频最重要的特征会优先编码,相对不重要的特征稍后编码,而且可以通过有效选择字典集合来控制哪些特征需要更有效的编码。因此,它在同等码率下使视频的失真少,而且是一种细粒度的编码方式,所以有广阔的应用前景,尤其是低码速率和广播与多播视频应用,所以,本文采用MP 变换来编码帧间预测后的残差信号。

MP 变换有着复杂度大和编码效率高的双重特征,一般只要合理选取残差信号(本文策略见“MP 原子分配”)编码,少数MP 变换系数(称为MP 原子)就能大致恢复编码帧,因此,该编码器将MP 原子分为两个层次:基本MP 原子和增强MP 原子,分别构成基本层码流和最低增强层码流。接收端可根据其要求和处理能力调整接收的MP 原子层次,从而恢复出不同质量的视频。本文算法所采用的字典集合由可分离的离散Gabor 函数构成[7]

,定义为:

x,y x G (,)()(),,{0,1,...,1}y

i j g i g j i j N =∈?v v v v (3) 而x x

/212(/21)().()cos(),{0,1,...,1}i N i N g i K g i N πξ?+?+=+Φ∈?v v ,其中 ),(s,x Φ=ξv ,x v K 是为了使)(x

i g v 规范化,242)(t e t g π?=是高斯函数。

原子是如下定义的五元组:

{p y x y x ,,,,v

v } (4)

其中,(y x v

v ,)确定了字典集合中的元素;(x , y )对应高频图像

中匹配块的位置;p 为内积映射值,即(x ,y )处的图像值对

于字典集合中的(y x v

v ,)确定的元素上的投影。

2) MP 原子分配:本文MP 变换形成两个层次的原子,需解决如何确定编码原子位置(即编码哪些残差信号)、以及如何分配基本MP 原子和增强MP 原子。算法采用了基于能量的机制来搜索需要编码的残差信号,即查找该帧中能量最大的块,对该块的信号进行MP 变换与编码;然后继续搜索视频帧,查找未编码且能量最大的块进行MP 变换编码,循环操作,直到所有未编码块的能量达到某个最小值的极限或者已编码MP 原子个数达到所设定的原子个数。该方法是同等原子数目下对残差信号的最佳表示。

对视频信号进行能量查找时作MP 原子分配,根据能量阈值来决定编码多少基本MP 原子和增强MP 原子。即算法中设计两个域值E l 和E h ,对视频帧中的任何信号块a ,根据其能量大小E a ,有三种情况:

·如果E a ≥ E h ,则编码为基本MP 原子; ·如果E l < E a ≤ E h ,则编码为增强MP 原子; ·否则,如果E a

3) 位面编码:为了减少编码器的计算复杂度,对于增强层预测后的残差信号,不再采用MP 变换编码而选择位面编码。不但可达到细粒度控制,而且可形成多个增强层。

4) 编码控制:为了正常编码,编码过程中需要多种控制,包括编码模式的控制和预测模式的选取、帧内编码整数变换的直/交流分量以及色度与亮度块变换控制、量化器选择与控制、熵编码模式选取、MP 变换控制等。

2 算法粒度及其调整

2.1 码流层次调整

本文所提出的编码器是一种多层次的视频编码器,视频服务端在编码过程中可进行输出码流层次的调整,接收端也

V ol. 17 No. 6

系统仿真学报 Jun. 2005 ·1464·

可根据自己的带宽条件或需求来调节所接收的视频层次。采用上述编码框架,形成了3类视频层次:基本码流层、增强MP原子形成的最低增强层以及通过增强层预测采用位面编码形成的更高增强层。而其中位面编码形成的增强层可以根据网络带宽动态调整,进一步形成更细的增强视频层,其层次结构如图2所示。对于如图所示的层次结构,任何接收端都需要接收基本层视频码流,如果想增加视频层次,必须先增加增强MP原子形成的最低增强层,然后再依次增加一个或多个位面编码形成的其

他高级增强层。相反,接

收端要减少接收的视频层

次时,需要按“位面编码

增强层(先减少高级的位

面增强层,依次到低级的

位面增强层)→增强MP

原子增强层”的顺序来减少。

2.2 输出码流粒度控制

粒度控制是指,在一定码流层次下,编码器如何调节码流输出,它是编码器调整输出码流位速率的一个有效方式。该编码器中,接收不同层次的视频可以形成不同速率的码流;在一定层次下,则可通过调整位面编码的位面数或MP 变换原子个数等进行更加精细的码流调整。若MP原子映射个数越多,位面编码采用的位面数越多(在由最大编码系数所决定的最大位面数范围内),则输出码流的位速率高,视频质量就越好;反之,若MP原子映射相对简略,位面编码采用的位面数越少,则输出码流位速率就低,视频质量也较差。MP变换和位面编码都是细粒度的编码策略,故该编码器的控制也必然是细粒度的。

3 解码器描述

对解码器而言,接收端根据接收码流的类型进行相应的反变换处理。如果是帧内预测的码流,则通过熵解码、反量化和整数反变换以后,形成基

本的帧内视频帧;如果是MP原

子码流,则按基本MP原子和增

强MP原子分别进行处理,并对

应形成基本层视频流,或者基本

层和最低增强层(如果接收端接

收了该层次的话)的视频帧;如

果是位面编码的码流,则进行相

应的高级增强层的补偿,形成包

含更高层次的视频帧(图3)。码

流类型的判断主要通过图3中的

“选择控制”来完成,对应的1

表示帧内编码码流,2表示MP

变换码流和对应的运动矢量信息,3则表示位面编码的码流信息。

4 实验与分析

作者在2.1和2.2节详细描述了算法的码流层次结构及其细粒度调整特性,因此,此处主要对算法的编码质量进行仿真实验和分析。文章以JM73为基础进行实验,实验主要测试显示了三种不同码流层次(A、B和C表示)的质量和码速率,其中,A表示只接收基本层MP原子的码流;B表示接收基本层和增强层MP原子,但是增强层MP原子不参加增强层运动补偿;C则表示接收了所有的增强层的码流,它表示了输出码流的最好质量。主要实验参数取值为:宏块划分为8×8或16×16;运动估计时最多允许参考3帧;运动搜索窗口尺寸为16×16;每50帧编码一个I帧;I帧量化器固定在32;MP原子搜索时,计算能量阈值的块尺寸和搜索窗口均为16×16;实验只包含I帧和P帧,帧速率为25fps;测试包括运动平缓的Mother、Coast,也包括运动剧烈的Mobile和Tennis。实验首先设定两个能量阈值,测试各序列的三种典型层次的恢复质量和位速率,相关结果如表1,其中X_PSNR 和R X分别表示了X层次码流的亮度信号恢复质量和位速率;N MaxB和N MaxE分别表示编码的基本层MP原子数和增强MP原子数。

表1 设定能量阈值的视频编码结果

Mother Coast

Forman

Mobile Tennis

E l 120 120 120 550 550 E h150 150 150 650 650 N MaxB(个/帧)24 153 98 99 129 N MaxE(个/帧)19 59 43 51 33 A_PSNR(dB)34.97 28.33 33.47 23.56 27.99 R A(Kbps) 21.42 88.12 60.83 76.7 71.13 B_PSNR(dB)35.34 28.65 33.91 23.99 28.16 R B(Kbsp) 30.73 117.03 81.90 101.69 90.65 C_PSNR(dB)35.55 28.73 34.10 24.27 28.30 R C(Kbps) 33.84 118.33 84.67 104.13 92.92 在进行MP编码过程中,宏块的能量大小与运动估计的好坏直接相关,如果运动估计充分,则残差信号的非0点可

V ol. 17 No. 6

Jun. 2005 蒲菊华, 等:一种基于H.264的细粒度多适应性视频编码算法

·1465·

能较少,从而能量较少;如果运动估计不充分,则残差信号中可能出现很多能量较大的宏块,从而需要编码的MP 原子数将增加,进而影响码流量。可以预测,平均每帧需编码的

MP 原子数呈上升趋势。文章统计了上述5个序列每帧的MP 原子的平均值,从图4可以看出,无论是基本MP 原子还是增强MP 原子,其个数都呈上升趋势。因此,实验改进了设置能量控制增强层和基本层的码流的情况,通过固定设置不同层次的原子数对视频序列进行编码,其测试结果如表2。

图4 每帧平均MP 原子数 表2 设定原子个数的编码结果

Mother Coast Forman Mobile Tennis N MaxB (个/帧) 48 48 48 96 96 N MaxE (个/帧) 16 16 16 32 32 E l 95 192 185 542 632 E h

105 205 209 602 711

A_PSNR (dB ) 36.41 25.68 32.21 22.63 26.86 R A (Kbps ) 33.25 36.75 36.25 75.25 58.25 B_PSNR (dB ) 36.77 25.91 32.34 22.82 28.55

R B (Kbsp ) 41.75 44.50 44.25 91.00 74.00

C_PSNR (dB ) 37.14 26.2532.69 22.99 28.56 R C (Kbps ) 47.63 49.81

49.27 93.74 74.37

表1的试验对残差信号进行了量化,量化器设置为8;表2的试验未对残差信号进行量化,为了保持和表1的比较,表2中描述的能量阈值是测试值模64后的结果。上述实验表明,可以通过设置能量阈值或编码原子个数来编码控制不同层次的MP 原子,从而实现输出码流粒度控制,如何将二

者融合提供更好的控制策略,需进一步实验。

5 结论

本文针对现在H.264视频编码标准,提出了一个基于

H.264标准的细粒度多层次的编码控制框架,该框架采用了MP 变换编码和位面编码等细粒度编码方式,使输出码流可控粒度很细;同时,除了将基本层引入到预测中以外,还将以增强MP 原子形成的最低增强层也引入到高级增强层预测中,形成多适应性、细粒度的多个码流层次。试验证明该编码器有较好的恢复质量,比较有效地解决了目前互联网上传输视频流所普遍面临的带宽波动和异构等问题,具有广泛的应用前景。

该H.264编解码框架中引入了MP 变换,下一步的工作就是研究在尽量提高视频质量的前提下,如何进一步降低该编码器的算法复杂度。

参考文献:

[1] 蒲菊华, 熊璋, 史肖燕. 带QoP 反馈的实时视频服务质量控制框架[J]. 北京航空航天大学学报, 2004, 30(2): 164-167.

[2] 蒲菊华, 熊璋, 孟岩. 服务质量控制粒度及基本细粒度编码算法研究[J]. 微电子学与计算机, 2004, 21(6): 67-70.

[3]

Weiping Li. Overview of Fine Granularity Scalability in MPEG-4 Video Standard [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2001, 11(2): 301-317.

[4] ITU-T Rec. H.264 | ISO/IEC 14496-10 A VC, Draft ITU-T

Recommendation and Final Draft International Standard of Joint Video Specification (S). [5]

Yuwen He, Rong Yan, Feng Wu, Shipeng Li. H.26L-based Fine Granularity Scalable Video Coding [A]. IEEE International Symposium on Circuits and Systems, 26-29 May 2002, V ol. 4: 548 – 551.

[6] Stephane G . Mallat, Zhifeng Zhang. Matching Pursuits with

Time-Frequency Dictionaries [J]. IEEE Transactions on Signal Processing, 1993, 41(12): 3397-3415. [7]

Ralph Neff, Avideh Zakhor. Very Low Bit-Rate Video Coding Based on Matching Pursuits [J]. IEEE Transactions on Circuits and Systems for Video Technology, 1997, 7(1): 158–171.

参考文献格式

请参照以下格式标注参考文献:

1. 专著[M]、论文集[C]、报告[R]、学位论文[D]

主要责任人.文献题目名[文献类型标识]. 出版地:出版者,出版年.起止页码(任选). 2. 期刊文章

主要责任人.文献题目名[J].刊名,年,卷(期):起止页码.

3. 论文集中的析出文献

析出文献主要责任人.析出文献题目名[A].原文献主要责任人(任选).原文献题名[C].出版地:出版者,出版年. 析出文献起止页码. 4. 报纸文章

主要责任人.文献题名[N].报纸名,出版日期(版次). 5. 电子文献([EB/OL]网上电子公告,[J/OL]网上期刊,

[M/CD]光盘图书,[DB/MT]磁带数据库,[DB/OL]联机网上数据库)

主要责任人.电子文献题名[电子文献类型标识].电子文献出处或地址,发表或更新日期(任选). 6. 国际、国家标准

标准编号,标准名称[S]. 7. 专利

专利所有者.专利题名[P].专利国别:专利号,出版日期. 8. 各种未定义类型的文献

主要责任人.文献题目名[Z].出版地:出版者,出版年.

相关文档
相关文档 最新文档