文档库 最新最全的文档下载
当前位置:文档库 › 视频内容特征的提取

视频内容特征的提取

视频内容特征的提取
视频内容特征的提取

视频内容特征的提取

【摘要】本文是基于视频特征提取的技术研究,主要是对关键帧进行特征提取,得到一个尽可能充分反映关键帧内容的特征空间,作为视频聚类和检索的依据,着重研究了关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征和运动特征等。

【关键词】关键帧;特征;运动

0 引言

关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。

1 视频特征描述的要求

基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点:

1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较;

2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合;

3)独立性:所用的各个特征之间应彼此不相关;

4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。

2 静态特征提取

2.1 提取颜色特征

色彩是物体表面的一种视觉特性,是人类视觉的重要组成部分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰度直方图来实现,这对检索具有

视频与图像处理-文字特征提取

图像文本提取算法研究 摘要: 根据图像中文字与背景区城的形态特征,提出了一种基于形态运算和连通域标记的复杂背景图像文档提取算法。实验结果表明,即使在图像分辨率不高以及文字布局较复杂的情况下,该算法仍然较快较准确地提取出复杂背景图像中的文字。关键词: Ostu,二值化,形态学,连通域 1 引言 近年来,随着计算机和网络技术的发展,网页上的数字化图像和视频呈现爆炸式增长。而随着移动数码摄像设备的普及,用户也可以方便地使用移动设备拍摄自然场景中的数字化图像。同时,传统的图书馆为了满足用户对多媒体内容的查询需求,也开始收藏图像和音视频等内容。多样的信息给人们的生产和生活带来了巨大便利的同时,也使如何能让用户准确迅速地找到自己所需的多媒体内容成为日益突出和紧迫的需求,因而也需要有效的方法来组织和检索这些多媒体内容。 以往的文档分析与识别领域,主要着眼于对一些布局较有规律的二值文档进行字符/图形分割与识别。目前,随着WWW页面中图片的大量使用,以及图像、视频数据库的广泛应用,使得图像成为另一种重要的信息载体。Loprest指出,互联网上相当一部分文字是嵌入在图像中的,而且其中大部分文字并没有在HTML页面的其他地方重复出现[1]。Wong则认为视频图像中的文字可为我们提供关于该视频产品的丰富语义信息图。不幸的是,目前大多数的搜索引擎都无法直接对嵌人在图像中的文字内容进行检索。因此,如何在复杂的图像背景下快速、准确地分割与提取文字将具有广泛的应用前景和研究价值。文献[1]~文献[6]分别在Web图像及视频图像的文字分割领域进行了相关研究。 经大量观察后我们发现,WWW图片、Video图像及杂志封面图片一般具有以下特点: (1)图像中包含色彩较为丰富的文字与背景; (2)图像背景可能由一些具有较多灰度变化的复杂图案构成; (3)图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的; (4)图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂。 我们称这类图像为包含复杂背景及文字的图像。本文将讨论如何在这一类图像中提取文字。2 算法描述 本文设计用于实现文本的提取的方法,改方法主要分为三个步骤: 第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离; 第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取; 第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。 2.1 阈值分割 2.1.1 阈值分割方法 为了便于对文字的识别,我们需要将检测到的文字进行二值化。图像二值化的方法主要分为局部阈值二值化和全局阈值二值化两种[7],全局阈值二值化是整幅图像都用同一个阈值进行二值化的方法,其计算简单,但是适合背景简单,灰度直方图只有连个明显的波峰的图像。对于背景复杂、噪声严重或者图像光照分布不均时全局阈值二值化的效果就会很差,造成很多虚景或者造成目标的丢失[8]。局部阈值的方法是将图像分块,对每块使用不同的阈值进行二值化。局部阈值能很好的克服全局阈值所面临的问题,但是局部阈值计算相对较为复杂,对图像的分块方式不同会影响二值化的效果[9]。 图像阈值分割技术的关键在于如何选取阈值。根据其对像素的处理方式,主要分为三类: (1)全局阈值法:是指在二值化过程中只使用一个全局阈值T的方法。它将图像的每个像素的灰度值与T进行比较,若大于T,则取为前景色(白色);否则,取为背景色(黑色)。 设图像的灰度函数为f(x,y),则二值化算法的表达式: 255(,) (,) f x y T f x y > ? =? ?其他 (1)

【CN110020639A】视频特征提取方法及相关设备【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910312917.8 (22)申请日 2019.04.18 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区北一街2号爱奇 艺创新大厦10、11层 (72)发明人 晋瑞锦 张云桃  (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 钱娜 王宝筠 (51)Int.Cl. G06K 9/00(2006.01) G06N 3/04(2006.01) (54)发明名称视频特征提取方法及相关设备(57)摘要本发明提供了一种视频特征提取方法及相关设备,本方案可以对多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征,然后对第一预设数量通道的第一视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理,得到每个分组各自对应的第二预设数量通道的第二视频特征,再对第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。本方案中,3D卷积神经网络可以将输入的多帧视频图像进行通道分离处理,不同通道在时域上进行不同尺度的卷积处理,分组的方式可以有效地减少网络参数,从而提高视频特征的提取效率,进而使得该网络模型的实际应用效果 更佳。权利要求书3页 说明书11页 附图3页CN 110020639 A 2019.07.16 C N 110020639 A

权 利 要 求 书1/3页CN 110020639 A 1.一种视频特征提取方法,其特征在于,所述方法适用于3D卷积神经网络,包括: 获得多帧目标视频图像; 对所述多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征; 对所述第一预设数量通道的第一视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理,得到每个分组各自对应的第二预设数量通道的第二视频特征; 对所述第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。 2.根据权利要求1所述的视频特征提取方法,其特征在于,所述对所述第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征,包括:合并每个分组各自的第二预设数量通道的第二视频特征,以得到一组包括第三预设数量通道的第二视频特征; 分别对一组中的每个通道的第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。 3.根据权利要求1所述的视频特征提取方法,其特征在于,还包括: 对所述第三预设数量通道的第三视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第三视频特征进行时域上的卷积处理,得到每个分组各自对应的第四预设数量通道的第四视频特征。 4.根据权利要求3所述的视频特征提取方法,其特征在于,还包括: 合并每个分组各自的第四预设数量通道的第四视频特征,以得到一组包括第五预设数量通道的第四视频特征; 将所述第一视频特征进行升维处理,以得到第五预设数量的第五视频特征,并将第五预设数量的所述第四视频特征与第五预设数量的所述第五视频特征分别对应相加,以得到第五预设数量的第六视频特征。 5.根据权利要求1所述的视频特征提取方法,其特征在于,所述获得多帧目标视频图像,包括: 获得多帧原始视频图像; 对所述多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整,以得到符合3D 卷积神经网络的分辨率要求的目标视频图像。 6.根据权利要求1所述的视频特征提取方法,其特征在于,所述获得多帧目标视频图像,包括: 获得多帧原始视频图像; 按照预设的帧间隔长度,从所述多帧原始视频图像中间隔抽取原始视频图像,以得到目标视频图像。 7.一种视频特征提取装置,其特征在于,适用于3D卷积神经网络,所述装置包括: 视频图像获得单元,用于获得多帧目标视频图像; 普通卷积处理单元,用于对所述多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征; 2

视频内容特征的提取

视频内容特征的提取 【摘要】本文是基于视频特征提取的技术研究,主要是对关键帧进行特征提取,得到一个尽可能充分反映关键帧内容的特征空间,作为视频聚类和检索的依据,着重研究了关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征和运动特征等。 【关键词】关键帧;特征;运动 0 引言 关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。 1 视频特征描述的要求 基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点: 1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较; 2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合; 3)独立性:所用的各个特征之间应彼此不相关; 4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。 2 静态特征提取 2.1 提取颜色特征 色彩是物体表面的一种视觉特性,是人类视觉的重要组成部分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰度直方图来实现,这对检索具有

视频内容特征的提取-精选资料

视频内容特征的提取 0 引言 关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。 1 视频特征描述的要求 基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点:1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较; 2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合; 3)独立性:所用的各个特征之间应彼此不相关; 4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。 2 静态特征提取 2.1 提取颜色特征 色彩是物体表面的一种视觉特性,是人类视觉的重要组成部

分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰 度直方图来实现,这对检索具有相似的总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。比如,颜色集是通过抽取空间局部颜色信息来提供颜色区域的有效索引。而颜色矩特征的数学依据是任何颜色的分布均可由它的矩来刻画,且大部分信息集中在低阶矩上。 2.2 提取纹理特征 纹理就是图像局部不规则而宏观有规律的特性。它是与物体表面材质有关的图像特征。目前也是基于内容检索系统中所采用的一个重要手段。纹理特征表达是Tamura等人在对人类对纹理的视觉感知的心理学研究的基础上提出的,在视觉上和心理上都是有意义的。纹理特征包括粗糙性(Coarseness)、规则性(Regularity)、线条相似性(Linelikeness)、凹凸性(Roughness)、方向性(Directionality)和对比度(Contrast)等,这些特征都可作为检索项。纹理特征可使用统计方法和结构方法进行分析。结构方法假定图像由较小的纹理基元排列而成,

相关文档