文档库 最新最全的文档下载
当前位置:文档库 › 视频与图像处理-文字特征提取

视频与图像处理-文字特征提取

视频与图像处理-文字特征提取
视频与图像处理-文字特征提取

图像文本提取算法研究

摘要: 根据图像中文字与背景区城的形态特征,提出了一种基于形态运算和连通域标记的复杂背景图像文档提取算法。实验结果表明,即使在图像分辨率不高以及文字布局较复杂的情况下,该算法仍然较快较准确地提取出复杂背景图像中的文字。关键词: Ostu,二值化,形态学,连通域

1 引言

近年来,随着计算机和网络技术的发展,网页上的数字化图像和视频呈现爆炸式增长。而随着移动数码摄像设备的普及,用户也可以方便地使用移动设备拍摄自然场景中的数字化图像。同时,传统的图书馆为了满足用户对多媒体内容的查询需求,也开始收藏图像和音视频等内容。多样的信息给人们的生产和生活带来了巨大便利的同时,也使如何能让用户准确迅速地找到自己所需的多媒体内容成为日益突出和紧迫的需求,因而也需要有效的方法来组织和检索这些多媒体内容。

以往的文档分析与识别领域,主要着眼于对一些布局较有规律的二值文档进行字符/图形分割与识别。目前,随着WWW页面中图片的大量使用,以及图像、视频数据库的广泛应用,使得图像成为另一种重要的信息载体。Loprest指出,互联网上相当一部分文字是嵌入在图像中的,而且其中大部分文字并没有在HTML页面的其他地方重复出现[1]。Wong则认为视频图像中的文字可为我们提供关于该视频产品的丰富语义信息图。不幸的是,目前大多数的搜索引擎都无法直接对嵌人在图像中的文字内容进行检索。因此,如何在复杂的图像背景下快速、准确地分割与提取文字将具有广泛的应用前景和研究价值。文献[1]~文献[6]分别在Web图像及视频图像的文字分割领域进行了相关研究。

经大量观察后我们发现,WWW图片、Video图像及杂志封面图片一般具有以下特点:

(1)图像中包含色彩较为丰富的文字与背景;

(2)图像背景可能由一些具有较多灰度变化的复杂图案构成;

(3)图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的;

(4)图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂。

我们称这类图像为包含复杂背景及文字的图像。本文将讨论如何在这一类图像中提取文字。2 算法描述

本文设计用于实现文本的提取的方法,改方法主要分为三个步骤:

第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;

第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;

第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。

2.1 阈值分割

2.1.1 阈值分割方法

为了便于对文字的识别,我们需要将检测到的文字进行二值化。图像二值化的方法主要分为局部阈值二值化和全局阈值二值化两种[7],全局阈值二值化是整幅图像都用同一个阈值进行二值化的方法,其计算简单,但是适合背景简单,灰度直方图只有连个明显的波峰的图像。对于背景复杂、噪声严重或者图像光照分布不均时全局阈值二值化的效果就会很差,造成很多虚景或者造成目标的丢失[8]。局部阈值的方法是将图像分块,对每块使用不同的阈值进行二值化。局部阈值能很好的克服全局阈值所面临的问题,但是局部阈值计算相对较为复杂,对图像的分块方式不同会影响二值化的效果[9]。

图像阈值分割技术的关键在于如何选取阈值。根据其对像素的处理方式,主要分为三类:

(1)全局阈值法:是指在二值化过程中只使用一个全局阈值T的方法。它将图像的每个像素的灰度值与T进行比较,若大于T,则取为前景色(白色);否则,取为背景色(黑色)。

设图像的灰度函数为f(x,y),则二值化算法的表达式:

255(,)

(,)

f x y T

f x y

>

?

=?

?其他

(1)

全局阈值法主要适合于质量较好、目标和背景对比度较大,且直方图呈现双峰的图像。典型的全局阈值法有Ostu 法[10]、最大熵方法等。

(2)局部阈值法:由当前像素灰度值与该像素周围点局部灰度特征来确定像素的阈值。例如可以将原图像划分为一些不相交的小块,将各块图像的灰度均值作为该部块图像的阈值,局部采用全局阈值法。典型的局部阈值法有Bernsen 法。

(3)动态阈值法:它的阈值选择不仅取决于该像素及周围像素的灰度值,而且还与该像素的坐标位置有关。例如我们可以在局部上统计该区域灰度值分布特征,根据统计结果来确定不同的局部阈值。 在下面的小节中我们主要讨论本实验使用的ostu 法的原理和特点。 2.1.2 OSTU 法

在众多阈值分割算法中,1979年由Otsu 提出的基于类间方差最大化的分割算法一直被认为是分割阈值自动选取的最优方法。它将图像分为背景与目标两类,通过搜索计算类间方差最大值,得到最优阈值。

图像中像素值0-T 的均值为:

0()()k T

u T k p k ≤≤=

(2)

式中()p k 为图像中像素值为K 的概率。

图像中像素值0-T 的概率和为:

0()()k T

w T p k ≤≤=

(3)

图像总的均值为:

0255

()k u k p k ≤≤=

(4)

图像背景和目标两类像素的类间方差定义为:

2

(()())()()(1())

u w T u T G T w T w T -=- (5)

在Ostu 方法中,图像最佳阈值g 则为max(G(T))下的T 值。根据阈值g ,整幅图像可以分为背景和目标两部分。由于方差是衡量图像中像素灰度分布均匀性的一个度量,方差值越大,说明组成图像的背景和目标两部分的差别越大。当部分背景被错误地划分为目标或者部分目标被错误地划分为背景时,会导致两部分的差别变小。因此,Ostu 方法实际上是以错分概率最小作为分割阈值的选取准则的。以下是采用Ostu 方法二值化和固定阈值二值化的比较图。

图1 原图效果

图2 Ostu 二值化效果 图3 固定阈值二值化效果 原图中比较灰暗的文字如果当做文档来提取增

加了文档提取的难度,所以当做背景来处理。从效果图比较可以看出采用Ostu 法二值化效果较好,适应性较强。本实验中要对20幅图像进行处理,采用固定阈值二值化对于不知道背景和目标像素区别的情况下,效果不好。而Ostu 对于这种情况较好。 2.2 图像形态学处理 2.2.1 基本原理

原理:在特殊领域运算形式——结构元素(Sturcture Element ),在每个像素位置上与二值图像对应的区域进行特定的逻辑运算。运算结构是输出图像的相应像素。运算效果取决于结构元素大小内容以及逻辑运算性质。

结构元素:膨胀和腐蚀操作的最基本组成部分,用于测试输出图像,通常要比待处理的图像小还很多。二维平面结构元素由一个数值为0或1的矩阵组成。结构元素的原点指定了图像中需要处理的像素范围,结构元素中数值为1的点决定结构元素的邻域像素在进行膨胀或腐蚀操作时是否需要参与计算。

先来定义一些基本符号和关系。 1. 元素

设有一幅图象X ,若点a 在X 的区域以内,则称a 为X 的元素,记作a ∈X ,如图4所示。

2. B 包含于X

设有两幅图象B ,X 。对于B 中所有的元素ai ,都有ai ∈X ,则称B 包含于(included in)X ,记作B X ,如图5所示。

3. B 击中X

设有两幅图象B ,X 。若存在这样一个点,它即是B 的元素,又是X 的元素,则称B 击中(hit)X ,记作B ↑X ,如图6所示。

4. B 不击中X

设有两幅图象B ,X 。若不存在任何一个点,它即是B 的元素,又是X 的元素,即B 和X 的交集是空,则称B 不击中(miss)X ,记作B∩X=Ф;其中∩是集合运算相交的符号,Ф表示空集。如图7所示。

5. 补集

设有一幅图象X ,所有X 区域以外的点构成的集合称为X 的补集,记作Xc ,如图6.5所示。显然,如果B∩X=Ф,则B 在X 的补集内,即B Xc 。

图8 补集的示意图

6. 结构元素

设有两幅图象B ,X 。若X 是被处理的对象,而B 是用来处理X 的,则称B 为结构元素(structure element),又被形象地称做刷子。结构元素通常都是一些比较小的图象。

7. 对称集

设有一幅图象B ,将B 中所有元素的坐标取反,即令(x ,y)变成(-x ,-y),所有这些点构成的新的集合

称为B 的对称集,记作Bv ,如图9所示。

8. 平移

设有一幅图象B ,有一个点a(x0,y0),将B 平移a 后的结果是,把B 中所有元素的横坐标加x0,纵坐标加y0,即令(x ,y)变成(x+x0,y+y0),所有这些点构成的新的集合称为B 的平移,记作

Ba ,如图10所示。

2.2.2 腐蚀

把结构元素B 平移a 后得到Ba ,若Ba 包含于X ,我们记下这个a 点,所有满足上述条件的a 点组成的集合称做X 被B 腐蚀(Erosion)的结果。用公式表示为:E(X)={a| Ba X}=X B ,如图11所示。

图11 腐蚀的示意图

图11中X 是被处理的对象,B 是结构元素。不难知道,对于任意一个在阴影部分的点a ,Ba 包含于X ,所以X 被B 腐蚀的结果就是那个阴影部分。阴影部分在X 的范围之内,且比X 小,就象X 被剥掉了一层似的,这就是为什么叫腐蚀的原因。

值得注意的是,上面的B 是对称的,即B 的对称集Bv=B ,所以X 被B 腐蚀的结果和X 被Bv 腐蚀的结果是一样的。如果B 不是对称的,让我们看看图12,就会发现X 被B 腐蚀的结果和X 被Bv 腐蚀的结果不同。

图12 结构元素非对称时,腐蚀的结果不同图11和图12都是示意图,让我们来看看实际上是怎样进行腐蚀运算的。

在图13中,左边是被处理的图象X(二值图象,我们针对的是黑点),中间是结构元素B,那个标有origin的点是中心点,即当前处理元素的位置,我们在介绍模板操作时也有过类似的概念。腐蚀的方法是,拿B的中心点和X上的点一个一个地对比,如果B上的所有点都在X的范围内,则该点保留,否则将该点去掉;右边是腐蚀后的结果。可以看出,它仍在原来X的范围内,且比X包含的点要少,就象X被腐蚀掉了一层。

图13 腐蚀运算

图14为原图,图15为腐蚀后的结果图,能够很明显地看出腐蚀的效果。

图14原图图15 腐蚀后的结果图

2.2.3 膨胀

膨胀(dilation)可以看做是腐蚀的对偶运算,其定

义是:把结构元素B平移a后得到Ba,若Ba击中X,

我们记下这个a点。所有满足上述条件的a点组成的

集合称做X被B膨胀的结果。用公式表示为:D(X)={a

| Ba↑X}=X B,如图16所示。图16中X是被处理

的对象,B是结构元素,不难知道,对于任意一个在

阴影部分的点a,Ba击中X,所以X被B膨胀的结

果就是那个阴影部分。阴影部分包括X的所有范围,

就象X膨胀了一圈似的,这就是为什么叫膨胀的原

因。

同样,如果B不是对称的,X被B膨胀的结果

和X被Bv膨胀的结果不同。

让我们来看看实际上是怎样进行膨胀运算的。在

图17中,左边是被处理的图象X(二值图象,我们针

对的是黑点),中间是结构元素B。膨胀的方法是,

拿B的中心点和X上的点及X周围的点一个一个地

对,如果B上有一个点落在X的范围内,则该点就

为黑;右边是膨胀后的结果。可以看出,它包括X的

所有范围,就象X膨胀了一圈似的。

图16 膨胀的示意图

图17 膨胀运算

图19为图18膨胀后的结果图,能够很明显的看

出膨胀的效果。

图18 原图

图19 膨胀后效果图

形态学处理中开运算是对原图先进行腐蚀处理,后再进行膨胀的处理。开运算可以在分离粘连目标物的同时,基本保持原目标物的大小。闭运算是对原图先进行膨胀处理,后再进行腐蚀的处理。闭运算可以在合并断裂目标物的同时,基本保持原目标物的大小。

3 连通域标记算法

3.1 图像初始标记

连通域标号:图像像素点所在的连通域的序号,用与图像大小相同的二维数组保存每个像素点的连通域标号。连通域标号在本算法有两个阶段:第一阶段,对二值图像扫描取得的临时连通域标号,此阶段,会有不同的连通域标号属于同一目标。因此,将此阶段的像素点连通域标号称为待合并连通域标号或临时连通域标号。

第二阶段,合并等价连通域标号,即利用共同连通域标号替换第一阶段的临时连通域标号,此阶段的像素点连通域标号就是最终的目标标号,称为目标连通域标号。

等价标号:在待合并连通域标号矩阵中,会有不同的连通域标号属于同一目标,则将此类连通域标号称为等价标号,也称为冲突标号。

共同连通域标号:指示待合并连通域标号所标记的连通域所属的目标的标号,用一维数组保存,以待合并连通域标号为下标,该值指示临时连通域标号所标记的连通域属于哪个目标。3.2 算法简介

本算法分为两个阶段。

第一阶段,对二值图像进行一次扫描,按某种连通(4邻域或8邻域) 规则,标记所有像素点的待合并连通域标号,同时,按一定的规则,标记待合并连通域标号的共同连通域标号。由于4邻域和8邻域的模板核过小,无法一次正确标记所有的目标,会有大量等价标号存在。用共同连通域标号标记各等价标号所属的共同连通域。

第二阶段,扫描临时连通域标号矩阵,纠正矩阵中的临时连通域标号,即用共同连通域标号替换各像素点的临时连通域标号,实现连通域的合并。合并时,按共同连通域标号出现的次序,重新定序,确保目标连通域标号连续。合并后,矩阵中的像素点连通域标号即是最终所得的目标连通域标号。

3.3 算法原理

本算法的8邻域和4邻域的处理方法相似,以4邻域为例,对算法阈述。

设某像素点f(x,y),则f(x-1,y),f(x+1,y),f(x,y-1),f(x,y+1)为其四邻域左、右、上、下像素点。设merge(x,y)是f(x,y)像素点连通域标号。当扫描f(x,y)时,已完成了f(x-1,y)和f(x,y-1)扫描,merge(x-1,y)和merge(x,y-1)为已知数。因此在4邻域内,f(x,y)像素点连通域标号merge(x,y)仅和像素点f(x-1,y)、f(x,y-1)及其像素点连通域标号merge(x-1,y)、merge(x,y-1)有关,如式(6)所示。

(6)

式(6)表示:

(1)当像素点f(x,y)=f(x-1,y)且f(x,y)!f(x,y-1),即f(x,y)和左邻域像素点值相等时,表明f(x,y)与左邻域像素点是连通的,则f(x,y)的像素点连通域标号merge(x,y)与merge(x-1,y)标号相同。

(2)当像素点f(x,y)!f(x-1,y)且f(x,y)=f(x,y-1)时,表示f(x,y)与上邻域连通,但与左邻域不连通,则f(x,y)的像素点连通域标号merge(x,y)与merge(x,y-1)标号相等。

(3)当像素点f(x,y)=f(x,y-1)且f(x,y)=f(x-1,y)时,则f(x,y)与上邻域、左邻域在同一个连通域内,则需考虑:

(i)若merge(x,y-1)=merge(x-1,y),则表明f(x,y)的上邻域和左邻域连通域标号一致,仅需merge(x,()

()()()()()

()()()()()

()()()()()

()()()()

merge x-1,y f x,y=f x-1,y f x,y!f x,y-1

merge x,y-1f x,y!f x-1,y f x,y=f x,y-1

merge x,y=

merge x,y-1f x,y=f x-1,y f x,y=f x,y-1

New label f x,y!f x-1,y f x,y!f x,y-1

?

?

?

?

?

?

?

若且

若且

若且

若且

y)=merge(x,y-1)即可。

(ii)若merge(x,y-1)!merge(x-1,y),则表明f(x,y)的上邻域和左邻域连通域标号冲突,需按2.4节处理冲突标号,然后merge(x,y)=merge(x,y-1)。

(4)若f(x,y)!f(x-1,y)且f(x,y)!f(x,y-1)时,表明像素点f(x,y)属于新的连通域,因此连通域标号自动加1,即Newlabel=Newlabel+1,并将新的连通域标号Newlabel赋予merge(x,y)。

3.4 等价标号处理

本算法的实现难点主要是等价标号的处理和共同连通域的标记。如上节所述,在算法的第一阶段,扫描图像后获得临时连通域标号merge,其中会出现大量的等价标号即标号冲突,用一维数组记录各临时连通域标号的共同连通域标号,数组的下标为临时连通域标号,其值为共同连通域标号。当遇到标号冲突时,要合并等价连通域标号,即对共同连通域数组扫描一遍,将等价标号的共同连通域标号标记成一致。

设一维数组common,其下标为临时连通域标号,即merge(x,y)的值,common元素的值表示某个共同连通域标号。common(merge(x,y))表示像素点f(x,y)的共同连通域标号。

扫描二值图像时,common按如下方法处理:

(i)当f(x,y)!f(x,y-1)且f(x,y)!f(x-1,y)时,表明像素点f(x,y)属于新的连通,则共同连通域标号common新增一个元素,即common(merge(x,y))=merge(x,y)。

(ii)扫描图像时,当出现f(x,y)=f(x,y-1)且f(x,y)=f(x-1,y)和merge(x-1,y)!merge(x,y-1)时,则说明遇到标号冲突,需扫描common数组一遍,对于任一元素i,若common(i)=common(merge(x-1,y))则修改其共同连通域标号common(i)=common(merge(x,y-1))。扫描图像时,(i)表明出现新的孤点,共同连通域标号common新增元素标记该元素。(ii)表明元素f(x,y)与它的左邻域f(x-1,y)和上邻域f(x,y-1)连通,且连通域标号merge(x-1,y)与merge(x,y-1)不一致,即左邻域和上邻域冲突,需要合并,因此要对共同连通域标号common中所有的值等于merge(x-1,y)的元素改为merge(x,y-1)。经合并处理后,merge的元素仍是临时连通域标号,有大量的冲突标号,但图像的每个像素点f(x,y)可通过common(merge(x,y)),得到共同连通域标号,且是唯一的。此时,common 的值是断续的,对后续的处理很不利,需要对common 及merge的标号调整。

调整方法如下:

定义临时一维数组temp及变量nIndex,temp大小与common相同。temp元素初始化为-1,nIndex初始化为0。扫描merge数组,对任一元素merge(x,y)作如下操作:

(i)若temp(common(merge(x,y)))<0,即该共同连通域标号首次扫描到,则nIndex=nIndex+1;temp(common(merge(x,y)))=nIndex;merge(x,y)=temp(common(merge(x,y)));

(ii)若temp(common(merge(x,y))) 0,即该共同连域已出现过,则merge(x,y)=temp(common(merge(x,y)));

上述调整主要完成合并图像等价连通域即用唯一的标号标记连通域,并按出现的先后次序,标记连通域。操作(i)表示:该等价标号所指的共同连通域标号首次出现,因此标号自动加1。操作(ii)表示:该等价标号所指的共同连通域标号至少已出现过1次,因此只需temp的已分配的标号直接赋给merge(x,y)即可。至此,对于每个像素点f(x,y),均可在merge 的相同位置检索到连通域标号merge(x,y)。

图像的第一行像素点没有上邻域,第一列没有左邻域,需特殊处理。如下所示:

(i)二值图像左上角的像素f(0,0),由于是第1个扫描的像素,无需考虑相邻点连通性。

(ii)二值图像第1行(最上行)的像素f(x,0),只需考虑左相邻像素的连通性。

(iii)二值图像第1列(最左列)的像素f(0,y),只需考虑上相邻像素的连通性。

除此之外的所有像素都要考虑左、上2个相邻像素的连通性来确定自己的连通性。

4 实验结果与分析

利用本文提出的算法对20幅书刊封面图像二值化,形态处理,文档提取。实验效果图如下图所示:

图20 实验效果图(1)

图21 实验效果图(2)

图22 实验效果图(3)

图23 实验效果图(4)

从实验效果图分析,文档提取效果较好,基本能提取出文档区域,但有些区域产生误检。主要原因是产生误检的区域与文字区域的像素值相近,在图像处理过程中误当作文字区域来处理。本实验方法中通过提取的方框长、宽限制可以略去很大一部分误检区域。

本实验中的20幅中,有15幅图像文字提取效果较好,能够提取出大部分的文字区域;而剩下的5幅图像提取效果略差。

4 结论

本实验在详细分析图像的预处理知识、文本区域定位方法、文字识别方法的基础上,给出了识别的三个主要步骤,分别为图像二值化,形态学处理,连通域标记的文本区域定位。

经过最后阶段的试验,实现了复杂背景下彩色图像中的文档提取。

本实验方法还存在不足之处,以下两点可以继续探讨深究:

(1)本方法还不能实现所有图像的文档提取,通用性有待加强。

(2)对图像文档提取的处理过程时间略长,主要是连通域标记算法花费的时间较长,可对此算法加以改进,提高运算速度。

参考文献(References)

[1] Zhou J Y Lopresti D. Extraeting Text from WWW

Image, In:Proc of the4th International Conference on docuument Analysis,15 and Recognition.Ulm,Germany,1997,248-252.

[2] Wong E K,Chen M.A New Robust Algorithm for Video

Text Extraetion.Pattern Recognition,2003,36(6):

1397-1406.

[3] Lienhart R,Wernieke A.Localizing and Segmenting Text in

Images and Videos.IEEE Transon Cireuirs and System,for Video Technology.2002,12:256-268.

[4] Mao W,Chung F,Lanm K,Siu W. Hybrid Chinese/English

Text Detectionin Images and Video Frames.Pattern Recgnition,2002,3:11-15.

[5] Hu J M,Wu L D.An Improved Rapid Text/Graphie,

segmentation Algorithm.Pattern Recognition and Artifieial Intelligence,2001,14(2):201-204(inChinese).

(胡建明,吴立翻.一种改进的文字/图形图像的快速分例

算法.模式识别与人工智能.2001,14(2):201一204).

[6] LoprestiD,Zhou J Y.Document Analysis and the World

Wide Web.In:Hull J,Taylor S,eds.Proc of the Works hopon Document Analysis Systems.Marven,

USA.1996.417-424.

[7] Bin Wang,Xiang-Feng Li,Feng Liu,Fu-QiaoHu.Color

Text Image Binarization Basedon Binary Texture

Analysis.Pattern Recognition Letter,2005,26:1650~1657.[8] Trier,Jain A K.Goal-directed evaluation of binarization

methods.IEEE Trans Pattern Analysis and Machine Intelligence,1995,17(12):1191~1201.

[9] Sang UK Lee,Seok Yook Chung.A comparative

performance study of several globa Thresholding techniques for segmentation.Computer Vision,Graphics,and Image Understanding,1990,50(2):171-190.

[10] Ostu N.A threshold selection method from gra-level

histogram.IEEE Trans Systems Man Cybernetic,1978(8):62-65.

[11]

视频与图像处理-文字特征提取

图像文本提取算法研究 摘要: 根据图像中文字与背景区城的形态特征,提出了一种基于形态运算和连通域标记的复杂背景图像文档提取算法。实验结果表明,即使在图像分辨率不高以及文字布局较复杂的情况下,该算法仍然较快较准确地提取出复杂背景图像中的文字。关键词: Ostu,二值化,形态学,连通域 1 引言 近年来,随着计算机和网络技术的发展,网页上的数字化图像和视频呈现爆炸式增长。而随着移动数码摄像设备的普及,用户也可以方便地使用移动设备拍摄自然场景中的数字化图像。同时,传统的图书馆为了满足用户对多媒体内容的查询需求,也开始收藏图像和音视频等内容。多样的信息给人们的生产和生活带来了巨大便利的同时,也使如何能让用户准确迅速地找到自己所需的多媒体内容成为日益突出和紧迫的需求,因而也需要有效的方法来组织和检索这些多媒体内容。 以往的文档分析与识别领域,主要着眼于对一些布局较有规律的二值文档进行字符/图形分割与识别。目前,随着WWW页面中图片的大量使用,以及图像、视频数据库的广泛应用,使得图像成为另一种重要的信息载体。Loprest指出,互联网上相当一部分文字是嵌入在图像中的,而且其中大部分文字并没有在HTML页面的其他地方重复出现[1]。Wong则认为视频图像中的文字可为我们提供关于该视频产品的丰富语义信息图。不幸的是,目前大多数的搜索引擎都无法直接对嵌人在图像中的文字内容进行检索。因此,如何在复杂的图像背景下快速、准确地分割与提取文字将具有广泛的应用前景和研究价值。文献[1]~文献[6]分别在Web图像及视频图像的文字分割领域进行了相关研究。 经大量观察后我们发现,WWW图片、Video图像及杂志封面图片一般具有以下特点: (1)图像中包含色彩较为丰富的文字与背景; (2)图像背景可能由一些具有较多灰度变化的复杂图案构成; (3)图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的; (4)图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂。 我们称这类图像为包含复杂背景及文字的图像。本文将讨论如何在这一类图像中提取文字。2 算法描述 本文设计用于实现文本的提取的方法,改方法主要分为三个步骤: 第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离; 第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取; 第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。 2.1 阈值分割 2.1.1 阈值分割方法 为了便于对文字的识别,我们需要将检测到的文字进行二值化。图像二值化的方法主要分为局部阈值二值化和全局阈值二值化两种[7],全局阈值二值化是整幅图像都用同一个阈值进行二值化的方法,其计算简单,但是适合背景简单,灰度直方图只有连个明显的波峰的图像。对于背景复杂、噪声严重或者图像光照分布不均时全局阈值二值化的效果就会很差,造成很多虚景或者造成目标的丢失[8]。局部阈值的方法是将图像分块,对每块使用不同的阈值进行二值化。局部阈值能很好的克服全局阈值所面临的问题,但是局部阈值计算相对较为复杂,对图像的分块方式不同会影响二值化的效果[9]。 图像阈值分割技术的关键在于如何选取阈值。根据其对像素的处理方式,主要分为三类: (1)全局阈值法:是指在二值化过程中只使用一个全局阈值T的方法。它将图像的每个像素的灰度值与T进行比较,若大于T,则取为前景色(白色);否则,取为背景色(黑色)。 设图像的灰度函数为f(x,y),则二值化算法的表达式: 255(,) (,) f x y T f x y > ? =? ?其他 (1)

【CN110020639A】视频特征提取方法及相关设备【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910312917.8 (22)申请日 2019.04.18 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区北一街2号爱奇 艺创新大厦10、11层 (72)发明人 晋瑞锦 张云桃  (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 钱娜 王宝筠 (51)Int.Cl. G06K 9/00(2006.01) G06N 3/04(2006.01) (54)发明名称视频特征提取方法及相关设备(57)摘要本发明提供了一种视频特征提取方法及相关设备,本方案可以对多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征,然后对第一预设数量通道的第一视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理,得到每个分组各自对应的第二预设数量通道的第二视频特征,再对第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。本方案中,3D卷积神经网络可以将输入的多帧视频图像进行通道分离处理,不同通道在时域上进行不同尺度的卷积处理,分组的方式可以有效地减少网络参数,从而提高视频特征的提取效率,进而使得该网络模型的实际应用效果 更佳。权利要求书3页 说明书11页 附图3页CN 110020639 A 2019.07.16 C N 110020639 A

权 利 要 求 书1/3页CN 110020639 A 1.一种视频特征提取方法,其特征在于,所述方法适用于3D卷积神经网络,包括: 获得多帧目标视频图像; 对所述多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征; 对所述第一预设数量通道的第一视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理,得到每个分组各自对应的第二预设数量通道的第二视频特征; 对所述第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。 2.根据权利要求1所述的视频特征提取方法,其特征在于,所述对所述第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征,包括:合并每个分组各自的第二预设数量通道的第二视频特征,以得到一组包括第三预设数量通道的第二视频特征; 分别对一组中的每个通道的第二视频特征进行空域上的卷积处理,以得到第三预设数量通道的第三视频特征。 3.根据权利要求1所述的视频特征提取方法,其特征在于,还包括: 对所述第三预设数量通道的第三视频特征进行分组,并使用不同尺寸的卷积核对各个分组的第三视频特征进行时域上的卷积处理,得到每个分组各自对应的第四预设数量通道的第四视频特征。 4.根据权利要求3所述的视频特征提取方法,其特征在于,还包括: 合并每个分组各自的第四预设数量通道的第四视频特征,以得到一组包括第五预设数量通道的第四视频特征; 将所述第一视频特征进行升维处理,以得到第五预设数量的第五视频特征,并将第五预设数量的所述第四视频特征与第五预设数量的所述第五视频特征分别对应相加,以得到第五预设数量的第六视频特征。 5.根据权利要求1所述的视频特征提取方法,其特征在于,所述获得多帧目标视频图像,包括: 获得多帧原始视频图像; 对所述多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整,以得到符合3D 卷积神经网络的分辨率要求的目标视频图像。 6.根据权利要求1所述的视频特征提取方法,其特征在于,所述获得多帧目标视频图像,包括: 获得多帧原始视频图像; 按照预设的帧间隔长度,从所述多帧原始视频图像中间隔抽取原始视频图像,以得到目标视频图像。 7.一种视频特征提取装置,其特征在于,适用于3D卷积神经网络,所述装置包括: 视频图像获得单元,用于获得多帧目标视频图像; 普通卷积处理单元,用于对所述多帧目标视频图像进行时域及空域上的卷积处理,得到第一预设数量通道的第一视频特征; 2

图像颜色特征提取原理

一、颜色特征 1 颜色空间 1.1 RGB 颜色空间 是一种根据人眼对不同波长的红、绿、蓝光做出锥状体细胞的敏感度描述的基础彩色模式,R、 G、B 分别为图像红、绿、蓝的亮度值,大小限定在 0~1 或者在 0~255。 1.2 HIS 颜色空间 是指颜色的色调、亮度和饱和度,H表示色调,描述颜色的属性,如黄、红、绿,用角度 0~360度来表示;S 是饱和度,即纯色程度的量度,反映彩色的浓淡,如深红、浅红,大小限定在 0~1;I 是亮度,反映可见光对人眼刺激的程度,它表征彩色各波长的总能量,大小限定在 0~1。 1.3 HSV 颜色模型 HSV 颜色模型依据人类对于色泽、明暗和色调的直观感觉来定义颜色, 其中H (Hue)代表色度, S (Saturat i on)代表色饱和度,V (V alue)代表亮度, 该颜色系统比RGB 系统更接近于人们的经验和对彩色的感知, 因而被广泛应用于计算机视觉领域。 已知RGB 颜色模型, 令M A X = max {R , G, B },M IN =m in{R , G,B }, 分别为RGB 颜色模型中R、 G、 B 三分量的最大和最小值, RGB 颜色模型到HSV 颜色模型的转换公式为: S =(M A X - M IN)/M A X H = 60*(G- B)/(M A X - M IN) R = M A X 120+ 60*(B – R)/(M A X - M IN) G= M A X 240+ 60*(R – G)/(M A X - M IN) B = M A X V = M A X 2 颜色特征提取算法 2.1 一般直方图法 颜色直方图是最基本的颜色特征表示方法,它反映的是图像中颜色的组成分布,即出现了哪些颜色以及各种颜色出现的概率。其函数表达式如下: H(k)= n k/N (k=0,1,…,L-1) (1) 其中,k 代表图像的特征取值,L 是特征可取值的个数,n k是图像中具有特征值为 k 的象素的个数,N 是图像象素的总数。由上式可见,颜色直方图所描述的是不同色彩在整幅图像中所占的比例,无法描述图像中的对象或物体,但是由于直方图相对于图像以观察轴为轴心的旋转以及幅度不大的平移和缩放等几何变换是不敏感的,而且对于图像质量的变化也不甚敏感,所以它特别适合描述那些难以进行自动分割的图像和不需要考虑物体空间位置的图像。 由于计算机本身固有的量化缺陷,这种直方图法忽略了颜色的相似性,人们对这种算法进行改进,产生了全局累加直方图法和局部累加直方图法。 2.2 全局累加直方图法 全局累加直方图是以颜色值作为横坐标,纵坐标为颜色累加出现的频数,因此图像的累加直方空间 H 定义为:

图象视觉特征的提取与表示

第1章图像视觉特征的提取和表示 1.1引言 图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程,是基于视觉内容的图像分类与检索的关键技术,因此,图像视觉特征的提取和表示一直是图像内容分析领域中一个非常活跃的课题。 图像底层视觉特征一定程度上能够反映图像的内容,可以描述图像所表达的意义,因此,研究图像底层视觉特征是实现图像分类与检索的第一步。一般来说,随着具体应用的不同,选用的底层特征也应有所不同,在特定的具体应用中,不同底层视觉特征的选取及不同的描述方式,对图像分类与检索的性能有很大的影响。通常认为,一种良好的图像视觉特征的提取和表示应满足以下几个要求: (1)提取简单,时间和空间复杂度低。 (2)区分能力强,对图像视觉内容相似的图像其特征描述之间也应相近,反之,对于视觉内容不相似的图像其特征描述之间应有一定的差别。 (3)与人的视觉感知相近,对人的视觉感觉相近的图像其特征描述之间也相近,对人的视觉感知有差别的图像其特征描述之间也有一定的差别。 (4)抗干扰能力强,鲁棒性好,对图像大小,方向不敏感,具有几何平移,旋转不变性。 本章重点讨论当前比较成熟的特征提取方法,在此基础上选取合适的特征提取方法,用于图像分类与检索系统的特征提取模块。接下来,将依次介绍颜色,纹理,形状等特征的提取和表示方法,最后对各种特征的特点加以比较。 1.2颜色特征的提取和表示 颜色是图像视觉信息的一个重要特征,是图像分类与检索中最为广泛应用的特征之一。一般来说同一类别的图像之间颜色信息具有一定的相似性,不同类别的图像,其颜色信息具有一定的差异。相对几何特征而言,颜色特征稳定性好,有对大小、方向不敏感等特点。因此,颜色特征的提取受到极大重视并得到深入研究。本章首先介绍几种常用的颜色空间模型,然后介绍各种颜色特征提取和表示方法。 1.2.1颜色空间模型 为了正确地使用颜色这一特征,需要建立颜色空间模型,通常的颜色空间模型可用三个基本量来描述,所以建立颜色空间模型就是建立一个3-D坐标系,其中每个空间点都代表某一种颜色。通常来说,对于不同的应用,应该选取不同的颜色空间模型。常用的颜色空间模型主要有:RGB、HIS、HSV、YUV、YIQ、Munsell、Lu*v*和La*b*等。颜色空间模型的选取需要符合一定的标准,下面就这一标准和最常用的颜色空间模型作一些介绍。 文献[错误!未找到引用源。]中介绍了选择颜色空间模型的标准主要有以下几个: (1)观察角度的鲁棒性

运动目标图像的识别与跟踪

运动目标图像的识别与跟踪 本文主要目的是将视频摄像头中的运动目标从背景中提取出来,并加以跟踪。首先考虑的是常见的目标检测的算法,其次考虑对于噪声的滤除,最后是对运动目标的跟踪。 一、基本目标检测算法 我们主要考虑的目标检测的算法主要有三种,光流场法、背景模型法以及时域差分法。 1.1光流场法 光流主要是图像亮度模式的表现运动。而光流场则是指灰度模式的表面运动。一般条件下,我们可以根据图像的运动,进行估算相对运动。 光流场法的基本理论是光流场基本方程: 0=++t y x I vI uI (1.1) 式中我们根据亮度守恒,利用泰勒公式展开,忽略高阶项与二次项。其中x I 、y I 和t I 是图像在对数轴x 、y 两个方向和t 的的导数,()v u ,就是这个点的光流坐标。 光流场法的目标检测,在摄像机运动时候也可以做出判断,但是图像的噪声太过明显,使得计算数据庞杂,计算的公式更加复杂,这样并不适合我们的对于目标跟踪的高精度的摄像系统。 1.2背景模型法 背景模型法,也被称为背景差法,主要利用当前的图像和背景的图像的二值化做差,然后取阈值,分割运动目标。 首先根据: ()()()y x b y x f y x D t t t ,,,-= (1.2) 我们可以得到当前的图像帧数()y x f t ,和背景图像的帧数),(y x b t 做差,然后以公式对图像进行二值化的处理。 ???≤>=)(,0)(,1),(BackGround T D ForeGround T D y x P t t t (1.3) 上面),(y x P t 是二值化模板图。假设某一区域大于一个给定的面积的时候,该区域就是我们要找的目标区域。 背景模型法的算法简单,可以快速反应,并且可以提供运动目标的大略特征等数据。但是对于复杂背景下,比如人流较大的公共场所,或者有光照等干扰时,就需以其他的算法以不断更新背景信息来进行弥补。

视频内容特征的提取

视频内容特征的提取 【摘要】本文是基于视频特征提取的技术研究,主要是对关键帧进行特征提取,得到一个尽可能充分反映关键帧内容的特征空间,作为视频聚类和检索的依据,着重研究了关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征和运动特征等。 【关键词】关键帧;特征;运动 0 引言 关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。 1 视频特征描述的要求 基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点: 1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较; 2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合; 3)独立性:所用的各个特征之间应彼此不相关; 4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。 2 静态特征提取 2.1 提取颜色特征 色彩是物体表面的一种视觉特性,是人类视觉的重要组成部分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰度直方图来实现,这对检索具有

运动人体图像识别

学习报告 一.意义和背景 随着信息技术的快速发展壮大和应用的普及,利用计算机视觉的技术在图像处理方面和模式识别领域中研究,并对视频图像进行人体运动特征提取与有效识别已成为人们关注的热点问题。计算机视觉技术对人体运动的视频或者图像进行识别是基于对其视频或者图像的序列进行分析处理;对检测出的人体运动目标进行运动特征提取和分类识别,从而达到理解和描述其行为的目的。基于视频图像的人体运动特征分析在智能视频监控、智能接口、虚拟现实等领域有着相当广阔的应用前景。 人体运动特征的提取与识别需要结合生物识别技术来识别和判断运动中人的行为、区别个体身份。所谓生物识别技术,其具体操作就是利用人体与生俱来的生物特征进行个体身份认证,最显著的特点是具有不变性和唯一性。 人体运动特征包括:肢体摆动特征,步态特征,人体轮廓投影特征,人体对称特征等,其中从视觉监控的角度来看,步态特征是远距离场景条件下最具有代表性最典型的人体运动特征,近年来备受关注,同时也涌现出大量富有意义的步态识别算法。 二.人体运动特征识别研究 运动特征识别在当今的科研领域中涉及面广泛,主要涉及到图像处理,多传感器技术,虚拟现实,模式识别,计算机视觉和图形学,

计算机辅助设计,可视化技术,智能机器人等一系列研究领域。针对人体运动图像序列进行分析处理的运动人体视觉分析技术,一般情况下可分为以下几个过程,运动目标检测,运动目标特征提取以及识别复杂背景下的运动目标身份。 图1 典型的运动特征识别系统 运动特征识别的主要研究方法 目前运动特征识别中的运动特征包含了两种分量:结构化分量和动态分量。其中结构化分量也就是静态分量,它负责记录运动人体的身高,步幅等身体形状信息;而动态分量则形象地表征出了在运动过程中人体的胳膊摆动,肢体倾斜度,迈腿方式等运动特征,依据上述两种类型分量,现有的运动特征识别算法大致分为两类:基于统计的方法和基于模型的方法。

视频内容特征的提取-精选资料

视频内容特征的提取 0 引言 关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。 1 视频特征描述的要求 基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点:1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较; 2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合; 3)独立性:所用的各个特征之间应彼此不相关; 4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。 2 静态特征提取 2.1 提取颜色特征 色彩是物体表面的一种视觉特性,是人类视觉的重要组成部

分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰 度直方图来实现,这对检索具有相似的总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。比如,颜色集是通过抽取空间局部颜色信息来提供颜色区域的有效索引。而颜色矩特征的数学依据是任何颜色的分布均可由它的矩来刻画,且大部分信息集中在低阶矩上。 2.2 提取纹理特征 纹理就是图像局部不规则而宏观有规律的特性。它是与物体表面材质有关的图像特征。目前也是基于内容检索系统中所采用的一个重要手段。纹理特征表达是Tamura等人在对人类对纹理的视觉感知的心理学研究的基础上提出的,在视觉上和心理上都是有意义的。纹理特征包括粗糙性(Coarseness)、规则性(Regularity)、线条相似性(Linelikeness)、凹凸性(Roughness)、方向性(Directionality)和对比度(Contrast)等,这些特征都可作为检索项。纹理特征可使用统计方法和结构方法进行分析。结构方法假定图像由较小的纹理基元排列而成,

图像特征提取与分析复习资料

图像分割概念:图像分割就是把图像分成各特性的区域并提取出感兴趣目标的技术和过程。这些区域互相不交叉,每一个区域都满足特定区域的一致性。医学图像的特点:成像设备的局限性、组织的蠕动-----伪影和噪声局部体效应------组织边缘模糊病变组织---------病变边缘不明确不均匀的组织器官-------灰度不均匀模糊、不均匀、个体差异、复杂多样医学图像分割方法的特点1、分割算法一般面向具体的分割任务,没有通用的方法2、重视多种分割算法的有效结合3、需要利用医学中大量领域的知识4、交互式分割方法受到日益重视图像分割算法基于区域的分割方法基于边缘的分割方法基于数学形态学的分割方法灰度阈值法:灰度值域法是把图像的灰度分成不同的等级,然后用设置灰度阈值的方法确定有意义的区域或分割物体的边界. 令f(x,y)原始图像 阈值的选取:1直方图法(极小值点阈值) 2 最小误差阈值 3 迭代阈值分割 4 最大方差阈值分割边缘检测(Edge Detection):基本思想是先检测图像中的边缘点,再按照某种策略将边缘沿点连接成轮廓,从而构成分割区域。边缘:指图像局部亮度变化显著的部分. 边缘的检测方法:最简单的边缘检测方法是并行微分算子法。利用相邻区域的像素值不连续的性

质,采用一阶或二阶导数来检测边缘点。一阶导数求极值点,二阶导数求过零点。一阶梯度算子:Roberts交叉算子Sobel算子 Priwitt 算子二阶拉普拉斯算子:在此基础上LoG 算子 Canny算子 :推导了最优边缘检测算子区域生长(region growing) 基本思想:将具有相似性质的像素集合起来构成区域。具体步骤:先对每个需要分割的区域找一个种子象素作为生长的起点,然后将种子象素周围邻域中与种子象素具有相同或相似性质的像素(根据某种事先确定的生长或相似准则来判定)合并到种子象素所在的区域中。将这些新象素当作新的种子象素继续进行上面的过程,直到在没有满足条件的像素可被包括进来。这样一个区域就生长了。解决的问题:① 如何选择一组能正确代表所需区域的种子象素; ② 如何确定在生长过程中能将相邻象素包括近来的准则;③如何确定生长终止的条件或规则例如:每一步所接受的邻近点的灰度级与先前物体的平均灰度级相差小于2。起始第二步第三步558655865586 48974897 4897 228322832283 333333333333 分裂合并(splitting and merging) 基本思想:从整幅图像开始通过不断分裂得到各个区域.具体步骤:先把图像分成任意大小且不重叠的区域,然后再合并或分裂这些区域以满足

图像特征提取方法

图像特征提取方法 摘要 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 至今为止特征没有万能和精确的图像特征定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。 特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。当光差图像时,常 常看到的是连续的纹理与灰度级相似的区域,他们相结合形成物体。但如果物体的尺寸很小 或者对比度不高,通常要采用较高的分辨率观察:如果物体的尺寸很大或对比度很强,只需 要降低分辨率。如果物体尺寸有大有小,或对比有强有弱的情况下同事存在,这时提取图像 的特征对进行图像研究有优势。 常用的特征提取方法有:Fourier变换法、窗口Fourier变换(Gabor)、小波变换法、最 小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。

设计内容 课程设计的内容与要求(包括原始数据、技术参数、条件、设计要求等):一、课程设计的内容 本设计采用边界方向直方图法、基于PCA的图像数据特征提取、基于Tamura纹理特征的纹理特征提取、颜色直方图提取颜色特征等等四种方法设计。 (1)边界方向直方图法 由于单一特征不足以准确地描述图像特征,提出了一种结合颜色特征和边界方向特征的图像检索方法.针对传统颜色直方图中图像对所有像素具有相同重要性的问题进行了改进,提出了像素加权的改进颜色直方图方法;然后采用非分割图像的边界方向直方图方法提取图像的形状特征,该方法相对分割方法具有简单、有效等特点,并对图像的缩放、旋转以及视角具有不变性.为进一步提高图像检索的质量引入相关反馈机制,动态调整两幅图像相似度中颜色特征和方向特征的权值系数,并给出了相应的权值调整算法.实验结果表明,上述方法明显地优于其它方法.小波理论和几个其他课题相关。所有小波变换可以视为时域频域的形式,所以和调和分析相关。所有实际有用的离散小波变换使用包含有限脉冲响应滤波器的滤波器段(filterbank)。构成CWT的小波受海森堡的测不准原理制约,或者说,离散小波基可以在测不准原理的其他形式的上下文中考虑。 通过边缘检测,把图像分为边缘区域和非边缘区域,然后在边缘区域内进行边缘定位.根据局部区域内边缘的直线特性,求得小邻域内直线段的高精度位置;再根据边缘区域内边缘的全局直线特性,用线段的中点来拟合整个直线边缘,得到亚像素精度的图像边缘.在拟合的过程中,根据直线段转角的变化剔除了噪声点,提高了定位精度.并且,根据角度和距离区分出不同直线和它们的交点,给出了图像精确的矢量化结果 图像的边界是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合,边界广泛的存在于物体和背 景之间、物体和物体之间,它是图像分割所依赖的重要特征.边界方向直方图具有尺度不变性,能够比较好的 描述图像的大体形状.边界直方图一般是通过边界算子提取边界,得到边界信息后,需要表征这些图像的边 界,对于每一个边界点,根据图像中该点的梯度方向计算出该边界点处法向量的方向角,将空间量化为M级, 计算每个边界点处法向量的方向角落在M级中的频率,这样便得到了边界方向直方图. 图像中像素的梯度向量可以表示为[ ( ,),),( ,),)] ,其中Gx( ,),),G ( ,),)可以用下面的

图像特征特点及其常用的特征提取与匹配方法

图像特征特点及其常用的特征提取与匹配方法 [ 2006-9-22 15:53:00 | By: 天若有情 ] 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。 一颜色特征 (一)特点:颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。 (二)常用的特征提取与匹配方法 (1)颜色直方图 其优点在于:它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。 最常用的颜色空间:RGB颜色空间、HSV颜色空间。 颜色直方图特征匹配方法:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。 (2)颜色集 颜色直方图法是一种全局颜色特征提取与匹配方法,无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从RGB颜色空间转化成视觉均衡的颜色空间(如HSV 空间),并将颜色空间量化成若干个柄。然后,用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达为一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系 (3)颜色矩 这种方法的数学基础在于:图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(m ean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。(4)颜色聚合向量 其核心思想是:将属于直方图每一个柄的像素分成两部分,如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。 (5)颜色相关图 二纹理特征 (一)特点:纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局

图像颜色特征提取基本知识

、颜色特征 1颜色空间 1.1 RGB 颜色空间 是一种根据人眼对不同波长的红、绿、蓝光做出锥状体细胞的敏感度描述的基础彩色模式 , R 、 G 、B 分别为图像红、绿、蓝的亮度值 ,大小限定在0?1或者在0?255。 1.2 HIS 颜色空间 是指颜色的色调、亮度和饱和度 ,H 表示色调,描述颜色的属性,如黄、红、绿,用角度0?360 度来表示;S 是饱和度,即纯色程度的量度,反映彩色的浓淡,如深红、浅红,大小限定在0? 1;1是亮度,反映可见光对人眼刺激的程度 ,它表征彩色各波长的总能量,大小限定在0?1。 1.3 HSV 颜色模型 HSV 颜色模型依据人类对于色泽、 明暗和色调的直观感觉来定义颜色 ,其中H (Hue)代表 色度,S (Saturat i on)代表色饱和度,V (V alue)代表亮度,该颜色系统比 RGB 系统更接近于 人们的经验和对彩色的感知,因而被广泛应用于计算机视 觉领域。 已知 RGB 颜色模型,令 M A X = max {R , G, B },M IN =m in{R , G,B }, 分别为 RGB 颜色 2颜色特征提取算法 2.1 一般直方图法 颜色直方图是最基本的颜色特征表示方法 ,它反映的是图像中颜色的组成分布,即出现了哪些 颜色以及各种颜色出现的概率。其函数表达式如下 : 模型中R 、G 、B 三分量的最大和最小值 S =(M A X - M IN)/M A X H = 60*(G- B)/(M A X - M IN) 120+ 60*(B - R)/(M A X - M IN) 240+ 60*(R -G)/(M A X - M IN) ,RGB 颜色模型到HSV 颜色模型的转换公式为 R = M A X G= M A X B = M A X

图像特征提取总结

图像常见xx方法简介 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。 一、颜色特征 (一)特点: 颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。 一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。 由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。 (二)常用的xx与匹配方法 (1)颜色直方图 其优点在于: 它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于: 它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。 最常用的颜色空间: RGB颜色空间、HSV颜色空间。 颜色直方图特征匹配方法:

直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。 (2)颜色集 颜色直方图法是一种全局颜色特征提取与匹配方法,无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间),并将颜色空间量化成若干个柄。然后,用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达为一个二进制的颜色索引集。 在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系 (3)颜色矩 这种方法的数学基础在于: 图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。 (4)颜色聚合向量 其核心思想是: 将属于直方图每一个柄的像素分成两部分,如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。 (5)颜色相关图 二纹理特征 (一)特点: 纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行

图像特征提取及识别过程

摘要 纹理特征是一种重要的视觉线索,是图像中普遍存在而又难以描述的特征。纹理分类与分割是图像处理领域一个经久不衰的热点研究领域,纹理特征提取作为纹理分类与分割的首要问题,一直是人们关注的焦点,各种纹理特征提取方法层出不穷。 本文在广泛文献调研的基础上,回顾了纹理特征提取方法的发展历程,分析了其研究现状,对纹理特征提取方法进行了较为全面的综述和分类,最后重点研究了基于灰度共生矩阵的图像纹理提取方法,研究如何有效地提取图像纹理特征来对图像进行描述,通过特征值来对图像进行识别。 灰度共生矩阵是一种简单有效的图像纹理特征描述方法,该方法的优势在于:它能利用了图像中像素相对位置的空间信息更加准确地描述图像的纹理,本文就是利用图像灰度共生矩阵的这一特性,从该矩阵中提取相应的统计参量作为纹理特征来实现对图像的识别。 关键字:灰度共生矩阵,纹理特征提取,图像识别

ABSTRACT Texture is a kind of important visual clues in images , it is widespread but cannot easy to be described . Texture classification and segmentation is a enduring popular research field in image processing area. Texture feature extraction has been the focus of attention,due to its priority to texture classification and image segmentation. all sorts of texture feature extraction methods has been emerged in endlessly. On the basis of extensive literature investigation, we review the texture feature extraction methods, analyze the development of the research status of the texture feature extraction methods and make a comprehensive review of its classification . Finally ,based on gray symbiotic matrix image problem extraction methods,we research how to effectively extract image texture feature described by the image characteristic value to image recognition. Graylevel co-occurrence matrix is a simple and effective image texture description method.This method's advantage is: it can use the image pixels relative positions of the spatial information more to accurately describe the texture image.This paper use the graylevel co-occurrence matrix of the properties to extract statistics from the matrix corresponding as texture feature parameters to realize image recognition. KEY WORDS: graylevel co-occurrence matrix, texture feature extraction, image recognition

图像特征及图像特征提取

图像特征提取 摘要本文着重阐述了图像的纹理特征、灰度共生矩阵及其特点,进行了基于灰度共生矩阵的纹理特征提取实验,并采用最小距离判别函数,对图像的特征值进行分类识别。实验表明,对于具有显著纹理特征的图像,基于纹理特征的图像分类识别具有一定的准确性、可靠性和实用性。 关键词特征提取;灰度共生矩阵;最小距离判别法 1 引言图像识别是随计算机的发展而兴起的一门学科,现已渗透各个领域。如生物学中的色体特性研究;天文学中的望远镜图像分析;医学中的心电图分析、脑电图分析、医学图像分析;军事领域中的航空摄像分析、雷达和声纳信号检测和分类、自动目标识别等等。当前,对图像分类识别的常用方法是先提取图像特征,再进行特征值的归类。图像特征包括几何特征、形状特征、颜色特征、纹理特征等等。本文主要针对图像的纹理特征进行提取、分析,最后实现具有显著纹理特性的图像的分类识别。 2 图像的纹理特征纹理是景物的一个重要特征。通常认为纹理是在图像上表现为灰度或颜色分布的某种规律性,这种规律性在不同类别的纹理中有其不同特点。纹理大致可分为两类:一类是规则纹理,它由明确的纹理基本元素(简称纹理基元)经有规则排列而成,常被称为人工纹理。另一类是准规则纹理,它们的纹理基元没有明确的形状,而是某种灰度或颜色的分布。这种分布在空间位置上的反复出现形成纹理,这样的重复在局部范围内往往难以体察出来,只有从整体上才能显露。这类纹理存在着局部不规则和整体规律性的特点,常被称为自然纹理。纹理特征可用来描述对象物表面的粗糙程度和它的方向性,也可用来分析生物材料组织,或者用来进行图像分割。纹理特征提取的方法随纹理类别的不同而不同,一般,规则纹理采用结构分析方法,准规则纹理采用统计分析方法。 3 灰度共生矩阵由于纹理是由灰度分布在空间位置上反复出现而形成的,因而在图像空间中相隔某距离的两象素之间会存在一定的灰度关系,即图像中灰度的空间相关特性。灰度共生矩阵就是一种通过研究灰度的空间相关特性来描述纹理的常用方法。3.1 灰度共生矩阵生成灰度直方图是对图像上单个象素具有某个灰度进行统计的结果,而灰度共生矩阵是对图像上保持某距离的两象素分别具有某灰度的状况进行统计得到的。取图像(N×N)中任意一点(x,y)及偏离它的另一点(x+a,y+b),设该点对的灰度值为(g1,g2)。令点(x,y)在整个画面上移动,则会得到各种(g1,g2)。值,设灰度值的级数为,则(g1,g2)。的组合共有k2种。对于整个画面,统计出每一种(g1,g2)值出现的次数,然后排列成一个方阵,在用(g1,g2)出现的总次数将它们归一化为出现的概率P(g1,g2),这样的方阵称为灰度共生矩阵。距离差分值(a,b)取不同的数值组合,可以得到不同情况下的联合概率矩阵。(a,b)取值要根据纹理周期分布的特性来选择,对于较细的纹理,选取(1,0)、(1,1)、(2,0)等小的差分值。 当a=1,b=0时,像素对是水平的,即0度扫描;当a=1,b=0 时,像素对是垂直的,即90度扫描;当 a=1,b=1时,像素对是右对角线的,即45度扫描;当a=-1,b=-1时,像素对是左对角线,即135度扫描。这样,两个象素灰度级同时发生的概率,就将(x,y)的空间坐标转化为“灰度对” (g1,g2)的描述,形成了灰度共生矩阵。实验中对灰

数字图像处理实验报告-图像边缘检测和特征提取

华南师范大学实验报告 一、实验目的 1、.掌握边缘检测的Matlab实现方法 2、了解Matlab区域操作函数的使用方法 3、了解图像分析和理解的基本方法 4、了解纹理特征提取的matlab实现方法 二、实验平台 计算机和Matlab软件环境 三、实验内容 1、图像边缘检测 2、图像纹理特征提取 四、实验原理 1、图像边缘检测 图像理解是图像处理的一个重要分支,它研究的是为完成某一任务需要从图像中提取哪些有用的信息,以及如何利用这些信息解释图像。边缘检测技术对于处理数字图像非常重要,因为边缘是所要提取目标和背景的分界线,提取出边缘才能将目标和背景区分开来。在图像中,边界表明一个特征区域的终结和另一个特征区域的开始,边界所分开区域的内部特征或属性是一致的,而不同的区域内部的特征或属性是不同的,边缘检测正是利用物体和背景在某种图像特性上的差异来实现

的,这些差异包括灰度,颜色或者纹理特征。边缘检测实际上就是检测图像特征发生变化的位置。 由于噪声和模糊的存在,检测到的边界可能会变宽或在某些点处发生间断,因此,边界检测包括两个基本内容:首先抽取出反映灰度变化的边缘点,然后剔除某些边界点或填补边界间断点,并将这些边缘连接成完整的线。边缘检测的方法大多数是基于方向导数掩模求卷积的方法。 导数算子具有突出灰度变化的作用,对图像运用导数算子,灰度变化较大的点处算得的值比较高,因此可将这些导数值作为相应点的边界强度,通过设置门限的方法,提取边界点集。 一阶导数 与 是最简单的导数算子,它们分别求出了灰度在x和y方向上的变化率,而方向α上的灰度变化率可以用下面式子计算: 对于数字图像,应该采用差分运算代替求导,相对应的一阶差分为: 方向差分为: 函数f在某点的方向导数取得最大值的方向是

相关文档