文档库 最新最全的文档下载
当前位置:文档库 › 基于特征点的视频流拼接帧选择优化算法

基于特征点的视频流拼接帧选择优化算法

收稿日期:2009-02-23;修回日期:2009-04-08。 基金项目:河南省自然科学基金资助项目(0611051900)。

作者简介:王铁建(1982-),男,河南周口人,硕士研究生,主要研究方向:虚拟现实; 赵红领(1978-),男,河南郑州人,讲师,博士研究生,主要研究方向:虚拟现实、水利信息技术; 王宗敏(1964-),男,河南郑州人,教授,博士生导师,主要研究方向:虚拟现实、网络技术与应用、水利工程信息技术。

文章编号:1001-9081(2009)08-2112-04

基于特征点的视频流拼接帧选择优化算法

王铁建

1,2

,赵红领

1,3

,王宗敏

1

(1.郑州大学河南省信息网络重点学科开放实验室,郑州450052; 2.郑州大学信息工程学院,郑州450001;

3.郑州大学水利与环境学院,郑州450001)

(z mwang@zzu .edu .cn )

摘 要:提出了一种具有公共视野的视频流拼接中视频帧的选择优化算法,算法计算候选帧与基准帧特征匹配

对的特征向量差值的算术均值,选择均值最小的候选帧作为最佳拼接帧,与基准帧进行拼接。实验结果表明,基于该算法拼接的视频流全景视图效果较好,算法很好地解决了视频流拼接中最佳拼接帧的自动选择问题。

关键词:基于图像的绘制技术;尺度不变特征变换;视频流拼接;帧选择中图分类号:TP391.41 文献标志码:A

O ptim i zed fram e selecti on a lgor ith m for v i deo stitch i n g ba sed on fea ture po i n ts

WANG Tie 2jian

1,2

,ZHAO Hong 2ling 1,3,WANG Z ong 2m in

1

(1.Henan Provincial Key Laboratory on Infor m ation N et w ork,Zhengzhou U niversity,Zhengzhou Henan 450052,China ;

2.School of Infor m ation Engineering,Zhengzhou U niversity,Zhengzhou Henan 450001,China ;

3.School of W ater Conservancy and Environm ental Engineering,Zhengzhou U niversity,Zhengzhou Henan 450001,China )

Abstract:This paper p resented an op ti m ized algorith m of fra me selecti on on the stitching of videos with overlapped visi ons .Firstly,it compared the Scale I nvariant Feature Transfor m (SI FT )value differences of all the match points of standard fra me and candidacy frames,and then selected the point pairs with m ini m al SI FT value difference,and calculated the mean values of these differences .Finally,the frame with the m ini m u m mean value was selected as the best fra me,and stitched with the standard fra me .This algorith m assures the best matching fra me and can be used t o choose the best stitching frame aut omatically in video stitching .Si m ulati on shows the effectiveness of this algorith m.

Key words:I m age Based Rendering (I B R );Scale I nvariant Feature Transf or m (SI FT );video stitching;fra me selecti on

0 引言

基于图像的绘制技术(I m age Based Rendering,I B R )主要研究如何采用已知实景图像来直接生成虚拟视点下的相应图像[1-2]。由于I B R 从根本上解决了基于模型绘制技术(Model Based Rendering,MBR )在建模工作繁杂、实时渲染困难、真实感不足等方面的致命缺陷,所以在近年来得以迅速发展。I B R 成败的关键是采用图像拼接技术来构建能够观察到全局场景的全景图像[3-4](Panora m ic I m age ),而目前,大多数的图像拼接技术研究还集中于静态图像的拼接。

将图像拼接技术应用于动态的视频流,从而将两段有部分公共视野的视频流拼接为一段视野范围较大的全景视频流,使人们在浏览该段视频流时对场景内容有更加直观、详尽的了解,具有重要的理论和实用价值。当然,动态视频流的拼接与静态图片的拼接相比具有其特殊性:动态视频流中图像帧的数目要比静态图像多得多[5]。由于存在DV 开机不同步等诸多问题,按照采集得到的帧序号直接将两段视频流进行拼接,并不一定能够得到较好的全景视图。如何从两段视频流中找出最为合适的视频帧进行拼接,得到最佳的全景视图,进而得到最佳的全景视频流,是视频流拼接的关键问题。本文在提取尺度不变特征变换[6-7](Scale I nvariant Feature Transfor m,SI FT )特征点的基础上,提出了基于SI FT 特征向量的最佳拼接帧选择算法,很好地解决了这一问题。

1 总体设计

视频流拼接的过程大致分为视频流采集、视频帧提取、视

频流拼接三步[8]

。为了得到最佳的全景视频流,必须在视频流拼接之前,加入最佳视频帧选择步骤,对两段视频流中提取到的视频帧进行分析选择,找出最为合适的视频帧进行拼接,从而得到最佳的全景视图(图1)

图1 视频流拼接流程

2 视频帧的采集

2.1 采集视频流

视频流的采集过程如下:把两台DV 固定在操作台上,使

DV 1和DV 2有部分公共视野,匀速推动操作台前行,则两台

第29卷第8期

2009年8月

 

计算机应用

Journal of Co mputer App licati ons

 

Vol .29No .8Aug .2009

DV 分别采集到相邻场景的视频流(图2)

图2 视频帧的采集

2.2 提取视频帧

采集得到视频流以后,

还需要将视频流提取为视频帧序

列。通过程序实现视频流的提取,DV 的帧速率是25帧/秒,可以根据需要,决定每隔多少帧提取一帧[9]。

3 SI FT 特征提取

提取得到的视频帧实际上是一幅幅的静态图像。接下来就要通过SI FT 算法,找出每幅图像的SI FT 特征,为将来的图像配准做准备。SI FT 算法分三个阶段实现。3.1 检测高斯差分(D ifference of Gaussian,DOG )尺度空间的极值点,目的是把提取到的极值点作为候选SI FT 特征点。这一步分三个阶段完成,不仅保证了特征点的缩放不变性,而且保证了特征点不受亮度差异和噪声影响。

1)构建高斯尺度空间。高斯图像金字塔共O 阶(O =

4),每阶有S 层尺度图像(S =5),第一阶的第一层是放大2

倍的原始图像,下一阶第一层由上一阶的中间层尺度图像进行亚采样得到;同一阶中相邻两层的尺度因子比例系数为k 。

2)构建DOG 尺度空间。高斯金字塔中相邻尺度空间函数相减即得到DOG 金字塔。DOG 金字塔第1层的尺度因子与高斯金字塔的第1层一致,其他阶也一样(图3)。

图3 高斯差分尺度空间

3)在DOG 空间中找出极值点作为候选特征点。为寻找

尺度空间的极值点,DOG 尺度空间中间层的每一个采样点都

要和它同尺度的8个相邻点和邻尺度的9×2个相邻点(共

26个点)做比较(图4),以确保在尺度空间和图像空间都检

测到局部极值点,标记下局部极值点的位置和对应尺度。

3.2 确定特征点的位置、尺度和方向3.2.1 确定特征点的位置和尺度

由于DOG 值对噪声和边缘较敏感,因此还要对DOG 尺度空间中的局部极值点进行三维二次函数拟和才能精确确定

特征点的位置和缩放尺度;同时,还应去除那些低对比度的特

征点和不稳定的边缘响应点,以提高抗噪声能力,增强匹配稳定性。

1)确定哪些极值点为特征点。局部极值点(x 0,y 0,σ

0)处的三维二次函数拟和函数(尺度空间函数在局部极值点的泰勒展开式)为:D (x,y,σ)=D (x 0,y 0,σ0)+

5D T 5X +12

X T

52D

5X 2

X ;对这个式子求导并令导数为0,求得精确的特征点:X =-52D -15X 25D

5X

,即可获取特征点的精确位置和缩放尺度。

2)去除低对比度的特征点。特征点对应的极值为:

D (X )=D +125D

T

5X

X ;剔除极值小于0.03的低对比度特征

点。

3)去除不稳定的边缘响应点。特征点的Hessian 矩阵

H =

D XX D X Y D X Y

D YY

的特征值α和β分别代表特征点X 方向和Y

方向的梯度,剔除仅对一个方向梯度大的边缘相应点。

3.2.2 确定特征点的主方向

利用特征点邻域像素的梯度方向分布特性为每个特征点指定主方向,使特征点具备旋转不变性。

计算出特征点邻域内的像素点L (x,y )的梯度大小m (x,y )和方向θ(x,y ),进行高斯加权求和,把邻域内所有像素点的投票方向作为该特征点的主方向。

m (x,y )=

(L (x +1,y )-L (x -1,y ))2+(L (x,y +1)-L (x,y -1))2

θ(x,y )=αactan L (x,y +1)-L (x,y -1)

L (x +1,y )-L (x -1,y )

实际计算时在以关键点为中心的邻域窗口内采样,并用方位直方图统计邻域像素的梯度方向,方位直方图的最高峰值点对应处的方向就是该关键点的主方向(存在高于最高峰值80%的高峰值时,将这个方向认为关键点的辅方向,可以增强匹配鲁棒性)。3.3 生成SI FT 特征向量

我们把特征点邻域的方向信息进行联合,生成SI FT 特征向量。这样可以大大增强特征点的抗噪声能力和容错能力,从而增强图像匹配的稳健性(图4)。

图4 SI FT 特征向量

4 视频流拼接

4.1 匹配SI FT 特征向量

对于两幅视频帧,分别获取SI FT 特征向量后,建立K 2D

树[10]]进行优先搜索,查找每个SI FT 特征点的最邻近特征点,进行SI FT 特征点对的匹配。

在特征点匹配过程中,只保留两幅拼接图像的对应匹配特征点对,对这N 对匹配特征点对,按照它们的SI FT 特征向量差值进行从小到大排列,只保留前M 对匹配特征点对,删除差值过大的匹配特征点对,这样就能保证保留的特征点对

3112第8期王铁建等:基于特征点的视频流拼接帧选择优化算法

匹配得相当精确(图5)

图5 SI FT 特征向量的匹配

4.2 选择最佳拼接帧

由于存在DV 开机不同步等问题,直接按照帧序号进行拼接,即:把DV 1采集到的第a i 帧与DV 2采集到第b i 帧拼接,并不一定能够得到最佳全景。为了得到最佳全景,采取如下最佳拼接帧自动选择算法:

设DV 1采集到的视频序列为a 1,a 2,a 3,…,a i ,…,a n ,DV 2

采集到的视频序列为b 1,b 2,b 3,…,b n 。

1)取DV 1采集的第a i 帧作为基准帧;取DV 2采集的第b i-m 帧至第b i+m 帧共2m 帧作为候选帧。

2)SIFT 配准。用DV 1的基准帧a i 与DV 2的候选帧b i-m 进

行SIFT 特征匹配,得到一组匹配特征点对。

3)计算特征点对差值并排序。对该组匹配特征点对,计

算出每对匹配特征点的差值D istance (p ),并按差值D istance

从小到大排列,保留差值D istance 小的前N 对。

4)计算算术均值。算出基准帧a i 与候选帧b i-m 的前N 对

匹配特征点对差值D istance 的算术均值D (a i ,b i-m )

=

1N

∑p =N p =1

D istance (p )。

5)对基准帧a i 与其他候选帧,依次进行2)~4)处理,求

出各自的算术均值D,最小均值M in (D )对应的第b j 帧为基准帧a i 的最佳拼接帧。

通过上述算法,即可从2m 帧候选帧里选出基准帧的最佳拼接帧。将基准帧与该候选帧进行拼接,即可得到最佳全景图,进而得到最佳全景视频。

5 实验结果

实验采用的DV 型号为:Sony HDR 2HC1E,场景为郑州大学新校区计算中心教学楼,提取视频帧时设定每隔6帧抽取

1帧,即抽取每秒内的第1、6、11、16、21帧图像进行实验。

取DV 1采集的第a 11帧图像作为基准帧。根据匹配算法,应该取DV 2采集的第b 1、b 6、b 11、b 16、b 21帧作为候选帧(图6)。

根据SI FT 算法,将基准帧a 11分别与候选帧b 1、b 6、b 11、

b 16、b 21进行SI FT 特征匹配。依次执行最佳匹配帧筛选算法

的第3)步,分别计算出匹配特征点对的差值D istance,只保留差值D istance 最小的前15对(若第15对差值大于2.5,则将其去掉)。然后依次执行最佳拼接帧自动选择算法的第4)步,计

算出各自SIFT 特征向量差值D istance 的均值D (表1)

图6 待匹配视频帧

表1 SI FT 特征向量差值的算术均值

序号

a 11-

b 1

a 11-

b 6

a 11-

b 11

a 11-

b 16

a 11-

b 21

10.0919380.3087230.2992030.0642990.14731620.3470910.5316030.4047800.8048150.20098230.6090510.5779630.5230890.8070550.23042940.8041980.6265020.9020060.8100300.34033450.8231940.661800 1.007400 1.0354100.3893386 1.0884800.813615 1.011580 1.0818300.4497077 1.129560 1.310100 1.020980 1.1264500.5396878 1.137700 1.354720 1.035190 1.1339500.6411579 1.218340 1.398400 1.169390 1.1404600.75736010 1.478510 1.483370 1.190120 1.1866100.77143411 1.490730 1.764120 1.391760 1.2057400.95561812 1.697140 1.764220 1.479830 1.3336600.95972213 2.266420 1.900530 1.677420 1.423420 1.15014014 2.728360 2.048920 3.171930 1.578970 1.241510

15

2.203990

1.675710 1.466630

均值 1.2079080 1.249905 1.163191 1.0938940.682758

从结果看,最小均值m in (D )对应的候选帧为第b 21帧。根据最佳拼接帧自动选择算法,第b 21帧候选帧应为基准帧

a 11的最佳拼接帧。图7为a 11与

b 21拼接得到的全景a 112b 21。

为了比较拼接的效果,将基准帧a 11分别与候选帧b 1、b 6、

b 11、b 16、b 21进行拼接,得到5幅全景,图8给出了这5幅全景

的拼接处截图。

从拼接处的截图看(图中用线框标志出拼缝的拼接痕迹),全景a 112b 21的确是5幅全景里的最佳全景,也就说明采用最佳拼接帧自动选择算法筛选出的候选帧b 21的确是基准帧a 11的最佳匹配帧。

采取相同方法,对另外两组场景进行了实验。最小均值

4112

计算机应用第29卷

对应的候选帧分别为第d 16帧和第f 16帧。实验结果如图9~

12所示

6 结语

本文根据SI FT 算法,对获得的SI FT 特征点匹配对按照其差

值的均值大小进行排序,提出了视频流拼接中基于SI FT 的最佳拼接帧自动选择算法,解决了具有公共视野的视频流拼接中最佳拼接帧的自动选择问题。实验结果表明,

该算法有效。

图12 e 112f 16全景图拼合处比较

参考文献:

[1] K ANG S B.A survey of i m age 2based rendering techniques,CRL

97/4[R ].Ca mbridge:Cambridge Research Laborat ory,1997.[2] 王俊杰,刘家茂,胡运发,等.图像拼接技术[J ].计算机科学,

2003,30(6):41-45.[3] BROWN M ,LOW E D G .Aut omatic panoram ic i m age stitching u 2

sing invariant features [J ].

I nternati onal Journal of Computer V i 2

si on,2007,74(1):59-73.

[4] BROWN M ,LOW E D G .Recognising panora mas [C ]//Pr oceed 2

ings of the N inth I EEE I nternati onal Conference on Computer V i 2si on .W ashingt on,DC:I EEE Computer Society,2003:1218.[5] 朱云芳,叶秀清,顾伟康.视频序列的全景图拼接技术[J ].中国

图象图形学报,2006,11(8):1150-1155.[6] LOW E D G .Object recogniti on fr om l ocal scale 2invariant features

[C ]//Pr oceedings of the 7th I EEE I nternati onal Conference on Computer V isi on .W ashingt on,DC:

I EEE Computer Society,

1999:1150-1157.

[7] LOW E D G .D istinctive i m age features fr om scale 2invariant key 2

points [J ].I nternati onal Journal of Computer V isi on,2004,60

(2):91-110.

[8] 张朝伟,周焰,吴思励,等.基于SI FT 特征匹配的监控图像自动

拼接[J ].计算机应用,2008,28(1):191-194.[9] 郭三华,方贤勇,罗斌.一种视频序列的拼接算法[J ].计算机应

用,2007,27(11):2786-2788.[10]MOORE A W.An intr oduct ory tut orial on K D 2trees [R ].Ca m 2

bridge:University of Ca mbridge,1991.

(上接第2067页)

度和砧区特征,设计的基于八方向链码的累积导数和差码特别有利于突显图像轮廓上不规则的凹凸形态。实验证明,本文提出的提取图像层次类特征和图像轮廓的形态特征的思想和算法合理有效,类间区分度高,为与传统统计特征一起共同训练高质量分类器奠定了坚实的基础,对同类图像识别问题具有借鉴作用。参考文献:

[1] 曾雅靖,曾昌军.从化一次短时暴雨过程的雷达回波演变特征

[J ].广东气象,2008,30(4):72-74.[2] 李庆,黄成亮.盆地东北部特大暴雨雷达回波分析[J ].成都信息

工程学院学报,2003,18(3):2-6.[3] 许焕斌,段英,刘海月.雹云物理与防雹的原理和设计[M ].北

京:气象出版社,2006:249-263.[4] 俞小鼎,周小刚,等.新一代天气雷达讲义[Z ].北京:中国气象

局培训中心,2000:1-50.

[5] 王萍,董晓凯,贾惠珍.基于雷达回波反射率图的雹云特征提取

[J ].天津大学学报,2007,40(10):1241-1246.[6] I ntel Cor porati ons.Open Source Computer V isi on L ibrary [Z ].

US A:I ntel Cor porati on,2001:91-92.[7] WANG X I A OL I N G,X I E K ANG L I N .A novel directi on chain code 2

based i m age retrieval [C ]//Pr oceedings of the Fourth I nternati onal Conference on Computer and I nfor mati on Technol ogy (C I T ’04).

W ashingt on,DC:I EEE Computer Society,2004:190-193[8] L I N H 2J,K AO J 2T,YEN S 2H,et al .A study of shape 2based i m age retrieval[C ]//Pr oceedings of the 24th I nternati onal Conference on D istributed Computing Syste m s Workshop s (I CDCS W ’04).W ash 2

ingt on,DC:I EEE Computer Society,2004,7:118-123.

[9] 陆宗骐,童韬.链码和在边界形状分析中的应用[J ].中国图象图形学报,2002,7(12):22-26.[10]冈萨雷斯.数字图像处理[M ].2版.阮秋琦,译.北京:电子工

业出版社,2003:50-400.

5112第8期王铁建等:基于特征点的视频流拼接帧选择优化算法

相关文档