文档库 最新最全的文档下载
当前位置:文档库 › 8 基于几何光学的单幅二维图像深度估计

8 基于几何光学的单幅二维图像深度估计

8 基于几何光学的单幅二维图像深度估计
8 基于几何光学的单幅二维图像深度估计

第五章基于几何光学的单幅二维图像深度估计

第五章基于几何光学的单幅二维图像深度估计

由上一章的内容可知,图像大小恒常性计算的关键在于正确地估计二维图像的深度。二维图像深度估计也是计算视觉中的重点与难点。视觉心理学家通过经验观察和对人的统计实验,总结了人类视觉系统深度感知规律。在上一章的实验表明,应用这些规律建立的单幅二维图像深度模型基本上是有效的,但也存在一些没有很好解决的矛盾,如各种深度线索间的冲突。其次,这些规律是建立在人的主观实验之上的,本质上也需要进一步从物理学的角度进行解释。再次,虽然照相机与人眼在光学成像原理上是基本相同的,但在实现细节上还是存在一些差异。所以本章从几何光学出发,提出了一种基于几何光学的二维图像深度计算方法,并与上一章的基于心理学的深度模型实验结果进行比较,探讨心理学结论应用到计算机视觉问题中的适应性问题。

5.1 引言

尽管学者已从不同的角度对二维图像深度估计问题进行了卓有成效的研究,基于单幅图像(Single-image based)的深度计算仍然是一个挑战性问题。现有的各种方法都存在一定的局限性。用阴影求深度方法(Depth from shading)依赖太多的假定[Forsyth 2003, pp80-85][Castelan 2004][严涛2000]。在这些假定中,多数假定与客观世界的自然场景不完全一致。用模型求深度的方法(Depth from model)需要物体或场景模型的先验知识[Jelinek 2001][Ryoo 2004][Wilczkowiak 2001]。当物体或场景很难建模,或者模型库变得很大时,这种方法就会失效。用机器学习求深度的方法(Depth from learning)要对大量的范例进行训练[Torralba 2002][Battiato 2004][Nagai 2002],而且它们的泛化能力是很弱的。用主动视觉求深度方法(Depth from active vision)如编码结构光(Coded structured light)、激光条纹(Laser stripe scanning)扫描等需要昂贵的辅助光源设备来产生显著的对应点(对应元素)[Forsyth 2003, pp467-491][Wong 2005][Nehab 2005]。它轻易解决了图像体视匹配(Image stereo matching)难题,代价是丢失了物体或场景的其它的重要表面属性,如强度、颜色、纹理等。各种方法的比较见本章表5-4。

然而,人类视觉系统能轻易地、完美地感知单幅图像深度,即使只用一只眼睛看图片时也是如此。而且,人类视觉系统在完成这项任务时,好像毫不费

65

视觉心理学在计算机视觉中的应用研究

力,也不需要意识努力,基本上是自动的加工过程。故可以断言,人类视觉系统使用了某种固定的、简单的图像深度感知规则,并避免了复杂的计算。以此类推,计算机自动估计单幅图像深度也应该是非常简单,非常准确的,其计算量也应该是非常小的。基于这些考虑,我们先从分析人类视觉的成像特点及观察习惯开始。

5.2 感知深度及模型

在本章上述介绍的方法中,图像点的深度被定义为该图像点对应的场景点到相机光心(Pinhole)的距离。实际上,这种对图像点深度的定义与人的感知习惯是不一致的。根据视觉心理学理论与人们的日常体会,人类视觉基本上在无意识水平上运用三个规则来估计自我(Ego)与场景物体间的距离。首先,人眼位于头上,而头又在身体上,身体由四肢支撑,四肢站在地面上[Gibson 1979, pp111, 205]。这意味着,人眼在观察时离地面有一定的高度。类似的,人们在照相时,相机光心(Pinhole)离地面也有一定的高度。即使趴在地上照相,也是如此,因为相机本身具有一定的高度。在本章的研究中,我们特别强调相机光心离地面的高度,这是第一条规则。其次,人类视觉把人脚到物体脚之间的距离感知为物体的深度(脚到脚,foot-to-foot),而不是人身体的其它部分到物体的其它部分的距离。这是因为支持物体的地面是人类视觉深度感知最重要的参考面[Gibson 1979, pp156-164]。例如,图5-1中的场景点P’, Q’有相同的深度,因为两点在同一竖线上,它们有相同的脚。最后,如果在平坦地面上的直线与视网膜平面(即像平面,Imaging plane)平行,那么在这条直线上所有的点将会被感知有相同的深度。这是因为当估计物体的距离时,人类视觉系统通常会调整或想象调整头或身体以保持眼睛正对着物体(面对面,Face-to -face) [Gibson 1979, pp111-126]。例如,图5-1中直线L1与像平面Ⅱ平行,所以在L1上的点都与点P’有相同的深度。这样,整个图像深度的估计便归结为垂直中轴线上各点的深度估计。根据这些说明,我们把图像点的深度定义为遵守上述三条规则的、图像点对应场景点到相机光心的距离,而且称这种深度为感知深度(Perceived Depth, 缩写为PD)。例如,图5-1中,图像点P的感知深度是场景点P’到点E(相机光心在地面的投影点)的物理距离。这种定义与本文4.5.4中的实验结果是一致的。

现在给出本章使用的图像感知深度(PD)估计模型,见图5-1。这个模型的输

66

第五章 基于几何光学的单幅二维图像深度估计

67

入是单幅由被动视觉方法得到的二维图像;它的输出是图像垂直中轴线上各点的深度,这代表整个图像的深度;相机模型是考虑实际地面的针孔成像模型,在此模型中,相机离地面的高度是重要的深度感知因素;相机像平面被假定是与实际地面垂直的(后面的实验表明这个假定是不必要的)。地面被假定是平的,这合乎人的感知经验[Gibson 1979, pp10,33,131]。因为我们的目的仅是验证感知深度估计模型的有效性,所以对图像中的地面、物体等区域的分离都是手工进行的,因为图像分割技术目前还不是很成熟。这个感知深度模型有很多实际应用,如移动机器人定位、基于计算机视觉的车辆自动导航和上一章的大小恒常性计算等。在这些应用中,地面几乎是理想平坦的。其实,日常生活中,平坦的视觉局部参考地面是处处存在的。当我们观察桌子上的物品时,桌子就是参考地面。当我们欣赏湖光水色时,水面就是理想参考地面。当我们散步时,路面就是理想参考地面。

图5-1 考虑实际地面的相机针孔成像模型示意图(图像平面的比例被相对放大了)。在此模型中,相机光心离地面的物理高度(h c )是重要的感知因素。像平面(Image plane )Ⅱ中的点U, P, Q 分别是场景点U ’, P ’, Q ’ 所对应的像点。实际地平面Ⅰ被假定是理想平面。通过场景点E , U ’, P ’ 的直线是相机光轴(Optical axis )在地平面Ⅰ上的垂直投影,其中点E 是相机针孔 (Pinhole) O 在地平面Ⅰ上的垂直投影。点P, P ’, U,U ’,Q,Q ’,E,A,V 与针孔O 共面,这个平面记作Ⅲ,它既垂直于平面Ⅰ又垂直于平面Ⅱ。灭点(Vanishing point )V 是相机光轴穿过相机图像平面Ⅱ所形成的交点,它一般位于平面Ⅱ的中心,即相机胶卷平面的中心。像平面Ⅱ的中间线L 3把整个图像平面分成两部分:图像天空(Image sky ,下面部分)与图像地面(Image ground, 上面部分)。h g 是图像地面的图像高度,h p 是图像点的图像高度(图像高度的概念在本章5.3介绍)。 z p 是的图像点P 感知深度(PD )。

视觉心理学在计算机视觉中的应用研究

5.3 基于几何光学的感知深度估计

根据几何光学知识与图5-1中的成像模型,客观世界中位于实际天空与实际地面之间的地平线(灭线),一定会沿着光轴投影到像平面Ⅱ上,并形成一条直线,记作L3。该线也一定会与地面平行(见图5-1)。如第四章4.2节所述,称L3为像平面的中间线,并称L3的中点为像平面的灭点(Vanishing point),因为该点具有最大的感知深度。L3也必然将像平面分成两部分:图像地面与图像天空,它们分别是由实际的地面与实际的天空投影形成的。在本章中,我们仅计算图像地面的PD图,图像天空的PD图可用完全相同的方式来计算。

因为机械相机的胶片或数码相机的CCD图像传感器通常是矩形的,它们的尺寸是有限的,像平面顶部边界L4上点的PD在图像地面中是最小的,等于从场景点E到场景直线L2的距离,因为直线L2投影产生像平面顶部边界L4(见图5-1)。所以我们称L4的中点U为像平面Ⅱ的近点(Closest point),因在图像地面中点U的PD值最小。按照PD的定义,像平面上位于同一行(水平线)上的像点的PD是相同的,所以计算整个图像地面的PD图便归结为计算线段UV上每一像点的PD。设点P是线段UV上的任意一个像点,下面我们来推导点P的PD 的计算公式。

根据图5-1成像模型,像平面Ⅱ上的像点U, P, V,针孔O,及地平面Ⅰ上的场景点P’, U’, E是共面的,记作平面Ⅲ。根据平面几何知识,三角形POV与三角形OP’E是相似的,即,

△POV ∽△OP’E (5-1)

我们把点P到中间线L3在图像平面上的距离称作图像高度(Image Height),并记作h p(也即像平面Ⅱ上线段PV的长度,单位毫米)。点P的PD(感知深度)是场景点P’到点E在实际地平面Ⅰ上的距离),并记作z P (也即线段的P’E长度,单位米)。从O到Ⅱ的距离记作f(也即线段OV的长度,单位毫米)。从相机针孔O到地平面Ⅰ为相机高度记作h c (也即线段OE)的长度(单位米)。因此,将这些记号代入式(5-1),可得到下式:

z p = h c×f / h p(5-2)

68

第五章基于几何光学的单幅二维图像深度估计

然而,在图像中,h p通常使用像素单位(Pixel unit), 在此单位下,记它的值为h p-pixel。不失一般性,设CCD传感器上每像素的高度是s毫米,s的单位是毫米/像素,则有

h p = s×h p-pixel(5-3)

现将式(5-3)代入式(5-2),可得到

z p = k / h p-pixel(5-4)

这里k = h c×f /s对每一输入图像是一常量,所以z p能被1/h p-pixel唯一决定,这就是像点P的相对感知深度(PD)。

如图5-1所示,记整个图像地面的图像高度为h g,单位是像素。不失一般性,可设输入图像是直立(即图像天空在图像的上部,而图像地面在图像的下部),输入图像矩阵维数为m×n (宽×高),单位为像素,坐标原点在图像矩阵的左上角。同时设像点P的矩阵坐标为(p x , p y),图像地面的图像高度记为h g,则有h p-pixel =|p y –n+h g|,代入式(5-4),可得

z p = k / | p y–n + h g|(5-5)

因为像平面Ⅱ被假定是与实际地平面Ⅰ垂直的,而且CCD传感器通常在制造时是对称的,这就能保证灭点V与CCD传感器的中心位置对齐。所以中间线L3与CCD传感器的水平中轴线垂直,h g恰好是整个图像高度的一半,即h g=n/2。故式(5-5)能被进一步改写为:

z p= k / | p y–n/2|(5-6)

对任一输入图像,n与p y都很容易得到,所以对不同的像点,它们间的相对PD也是非常容易计算的。而且如果能得到一个绝对参考点,k值能被唯一确定,这样我们就能计算整个图像地面的绝对PD图。

69

视觉心理学在计算机视觉中的应用研究

70

图5-3 像点相对感知深度z p 随像点图像高度h p-pixel 的变化规律,图像高度从20到500像素。

图5-2 像点相对感知深度z p 随像点图像高度h p-pixel 的变化规律,图像高度从1到20像素。

根据式(5-4),像素点的相对深度z p 随它所处的图像高度变化而变化曲线见图5-2(h p-pixel 从1到20像素),图5-3(h p-pixel 从2到500像素),图5-4(h p-pixel 从200到800像素)。容易发现一个有趣的事实,当h p-pixel 趋近于0时,z p 迅速增大,特别是当h p-pixel 从1到0,z p 从1到∞(见图5-2),这表示像点的h p-pixel 越小,它的相对感知深度h p-pixel 的计算误差越大。实验结果表明,当h p / h g < 2.5%时,z p 的计算值变得不可靠。所以,当h g =768像素时,应保证h p-pixel > 768*2.5%≈20 像素。理想情况下,h p-pixel 应该大于200像素,因为此时PD 变化趋于一条直线,见图5-4(h p-pixel 从200到800)。

第五章基于几何光学的单幅二维图像深度估计

图像高度h p-pixel

图5-4 像点相对感知深度z p随像点图像高度h p-pixel的变化规律,图像高度从200到800像素。

5.4 实验结果与分析

使用不同型号的数码相机拍了大量实际图像,并对每张图像中的地面垂直

中轴线上显著点(加了标签的点)的实际PD值进行了测量。然后,运用式(5-5)或式(5-6),计算各标签点的图像高度h p-pixel ,各标签点相对PD(1/h p-pixel),各标签点k值(实际PD×h p-pixel),所有标签点的平均k值(记作Avg(k)),各标签点绝对PD(Avg(k)/h p-pixel,记作恢复PD),以及所有的k值标准偏差(记作Stdev(k))。所

有k值相对标准偏差(记作Relative Stdev(k))被定义如下:

Relative Stdev(k) = Stdev(k) / Avg(k) (5-7)

如果Relative stdev(k)是一个很小的值(通常要求小于5%),那么式(5-4)中k

就可认为是一个常数,从而支持了式(5-4),这也在某种程度上说明我们的方法

是正确的。另外,如果在实际PD与恢复PD间的曲线基本重合,那么这就更强

有力地表明式(5-4)、式(5-5)与式(5-6)是正确的。

71

视觉心理学在计算机视觉中的应用研究

5.4.1实验1:像平面是垂直的

图5-5显示了一用Nikon-E3700 CCD相机拍摄的图像和相应的标签点。图像的拍摄地点在北京交通大学博士生9号宿舍前。在拍摄时,保证像平面Ⅱ与实际地面Ⅰ是垂直的。图像的大小为2048×1536像素(宽×高),原点在图像矩阵的左上角。在这种情况下,式(5-6)是适用的,并且h g=768像素。实验结果见表5-1,其中Avg(k)是2149.38,Stdev(k)是39.52,Relative stdev(k) 是1.84%(小于5%)。这些指标表明k是一常数。从图5-6可以看出,各标签点的恢复PD连线与实际PD连线几乎是重合的,这表明式(5-6)是相当精确的。这些数据说明本章提出的感知深度(PD)模型是比较有效的,尽管存在系统测量误差与实际透镜系统的各种像差。

表5-1 图5-5中各标注点的实验结果。注:n=1536;h p-pixel = |p y–n/2 |=|p y–768|; 相对PD=1/ h p-pixel;

k = 实际PD×h p-pixel;恢复PD = 相对PD×Avg (k);Avg(k)= 2149.38。

72

第五章 基于几何光学的单幅二维图像深度估计

73

图5-5 相机像平面垂直时的图像,及图像垂直中轴线上的显著点标注,对它们的实验结果见表5-1。拍摄地点在北京交通大学博士生9号宿舍前。

图5-6 图5-5中标注点的实际PD 连线与恢复PD 连线,相应数据见表5-1。

视觉心理学在计算机视觉中的应用研究

5.4.2实验2:像平面是倾斜的

图5-7中显示的图像是像平面倾斜时用Nikon-E3700 CCD照相机拍摄的,同时对实验中使用的图像显著点进行了标注。图像拍摄地点在北京北郊霍营与立水桥间的铁路。图像的大小为2048×1536像素(宽×高,m×n),原点在图像矩阵的左上角。因为像平面不与实际地面垂直,故仅式(5-5)是适用的。在式(5-5)中,仅像点的位置信息被使用,其它的图像视觉信息如颜色、纹理等能用来计算中间线L3的位置及图像地面高度h g。计算中间线L3比较成熟的技术有天空检测技术[Luo 2002]与灭点检测技术[Shufelt 1999]。如果已知相机的内外参数,计算中间线会更容易些。因为我们的目的仅是验证本章提出模型与方法的有效性,故使用图像处理工具如Photoshop、ACDSee等手工计算中间线L3的位置和图像地面高度(h g = 1004像素)。实验结果见表5-2与图5-8中。Avg(k)是1600.65,Stdev(k)是77.97,Relative stdev(k) 是4.87%(小于5%),这些指标说明k值是一常数。从图5-6可以看出,各标签点的恢复PD连线与实际PD连线几乎是重合的,这表明式(5-5)是比较准确的。这些数据说明本章提出的感知深度(PD)模型依然是比较有效的,尽管像平面已经严重倾斜(中间线从768像素倾斜到1004像素)。这表明本章提出的模型是健壮的。

74

第五章 基于几何光学的单幅二维图像深度估计

75

图5-8 图5-7中各标注点的实际PD 连线与恢复PD 连线,相应数据见表5-2。

表5-2 图5-7中各标注点的实验结果。注:n =1536;h g = 1004;h p-pixe l = | p y – n + h g | = | p y – 532|;相对PD=1/ h p-pixel ; k = 实际PD ×h p-pixel ;恢复PD = 相对PD ×Avg (k);Avg(k )= 1600.65。

视觉心理学在计算机视觉中的应用研究

5.4.3垂直像平面假设是没有必要的

为了进一步调查像平面倾斜对计算结果的影响,我们使用Canon DIGITAL IXUS 750数码相机对同一场景拍摄了21幅图像。拍摄时相机相对于地平面的位置不变,并保持水平,变化的只是相机像平面与地平面的夹角、及相机离地平面的高度。在这些图像中,CCD像平面几乎都不与实际地面垂直,所以由自然场景中的地平线在像平面中投影形成的中间线L3的位置就会偏离像平面的水平中轴线,见图5-9(F01-F21)。

因为所有的图像都是在同一地点拍摄的,所以这些图像一定包含一组相同的图像物体,记作O1,O2,O3, …,O n。对某物O j(j =1,2,…,n),它在不同图像中的位置也是不同的,但是它的感知深度(PD)却是不变的,因为它对应的自然场景中的物体与相机之间的脚到脚的距离并没有改变。类似的,O1,O2,O3, …,O n间PD比例关系也不会随像平面的变化而变化。对图5-9(F01-F21),如果用(5-5)能正确地计算出图像物体O j (j =1,2,…,n)的PD及O1,O2,O3, …,O n间PD比例关系,那么我们就可以说,保持像平面与地平面垂直的假定是没有必要的。

图5-9(F01-F21)的图像大小是3072×2304(宽×高,m×n)像素,原点在图像矩阵和左上角。在图5-9(F21)中标注了这21幅图像中共同包含的物体,这些标注的物体将用于PD计算实验。与上面不同,这里中间线的y坐标(记作y ml)是用相机内外参数计算的,所以更加精确。记像平面水平中轴线的y坐标为y hma ,则y hma = n/2 = 1152;根据直立图像假定,中间线的y坐标y ml = n –h g = 2304 –h g 。记中间线偏离水平中轴线的程度为D ml-hma,它用下式定义:

D ml-hma= (y ml – y hma ) / y hma (5-8)

实验结果见表5-3,图5-10。从表5-3,图5-10可以看出,所有图像的恢复PD连线与实际PD连线几乎重合,这表明对所有图像PD计算都是很准确的。而且,所有图像中k值相对标准偏差Relative stdev(k) 都小于5%,这表明所有图像中k值都可看作一常数。这些数据表明,在像平面倾斜时(从-75.1%到42.3%)我们提出的方法依然工作得很好。所以我们认为,垂直像平面假设是没有必要的。这也表明我们提出的方法是比较通常与健壮的。

76

第五章基于几何光学的单幅二维图像深度估计

F01 F02

F03 F04

F05 F06

F07 F08

77

视觉心理学在计算机视觉中的应用研究

F09 F10

F11 F12

F13 F14

F15 F16

78

第五章基于几何光学的单幅二维图像深度估计

F17 F18

F19 F20

F21

图5-9(F01-F2) 在以像平面与地平面成不同的倾角,对同一场景拍摄的21幅图像,相机的高度上随机的,但相对地面的位置是固定的。在图F21中标出了实验中用到的所有图像共同包含的图像物体的位置,这些物体在图像中的位置随着像平面的倾角变化而变化。拍摄地点为北京交通大学学8宿舍前。

79

视觉心理学在计算机视觉中的应用研究

表5-3 图5-9(F01-F07)中各标注点PD计算的实验结果。注:D ml-hma在式(5-8)中定义;D ml-hma 为负,表明中间线L3在水平中轴线的上面,反之亦然。

80

第五章基于几何光学的单幅二维图像深度估计

表5-3(续1) 图5-9(F08-F14)中各标注点PD计算的实验结果。注:D ml-hma在式(5-8)中定义;

D ml-hma为负,表明中间线L3在水平中轴线的上面,反之亦然。

81

视觉心理学在计算机视觉中的应用研究

表5-3(续2) 图5-9(F15-F21)中各标注点PD计算的实验结果。注:D ml-hma在式(5-8)中定义;D ml-hma

82

第五章 基于几何光学的单幅二维图像深度估计

83

图5-10 表5-3中各图像标注点的恢复PD 连线与实际PD 连线,相应数据见表5-3。

5.4.4 优点与限制

用实验的方法对计算机视觉算法进行评价(Empirical performance characterization)是一件很难的事。这是因为权威、免费的图像集、算法评价的参考标准是很难得到的[Heath 1997]。所以,我们用理论评价方法定性比较本章提出的方法与其它图像深度算法的性能,评价方法的详细介绍见本文第七章。参与比较的深度算法主要有:用立体视觉求深度(Depth from stereo)[Stewenius 2005][Rajagopalan 2004][Cheng 2005][Williams 2005],散焦求深度(Depth from defocus)[Gil 2004][Lai 1992][ Schechner 2000][Favaro 2005][Ens 1993],用阴影求深度(Depth from shading)[Forsyth 2003, pp80-85][Castelan 2004][严涛 2000],用模型求深度(depth from model)[Jelinek 2001][Ryoo 2004][Wilczkowiak 2001],用机器学习求深度(Depth from learning)[Torralba 2002][ Battiato 2004][Nagai 2002],及用主动视觉求深度(Depth from active vision)[Forsyth 2003, pp467-491][ [Wong 2005][Nehab 2005]。比较结果见表5-4。从该表可以看出,本章提出的方法几乎集中了其它方法的优点,总体性能比是最好的。

然而,本章提出的方法也有一些限制。首先,很难把图像地面与其它图像物体分离出来。目前,还没有有效的图像地面检测算法,特别当地面上有很多

视觉心理学在计算机视觉中的应用研究

物体时。另一个困难是,在相机成像参数未知的情况下,从信息丰富的图像中检测中间线(灭线或地平线)。令人鼓舞的是,人类视觉系统在这些方面做得很好,这能给我们不少启示与灵感。

5.5深度估计:心理学方法vs. 几何光学方法

在第四章与本章中,我们提出了两种不同图像深度计算模型。第四章的深度模型是对心理学结论的直接应用,而本章的基础是物理几何光学。现对两者进行比较分析,探讨心理学结论的适用性。

在第四章中,详细讨论了心理学家已经发现各种图像深度线索,其中最重要的是物体在图像中的高度(Elevation of object in the image)。这意味着,处于中间线附近的像点在图像中具有最大的感知深度;在图像地面部分,像点离中间线越近,即离图像底端越远,感知深度越大,反之越小。而本章运用几何光学知识,经过严格的数学推导,最终得出了与心理学家相同的结论:图像点的感

84

8.1.2图像的分辨率,图像的颜色深度

池河中学2017-2018学年度第一学期教学设计 年级8年级 科 目信息 技术 任课教师李瑞峰授课时间 1 课题图像的分辨率,图像的颜色深度授课类型新授 课标依据学习应用技能 ,提高信息素养,培养创新能力 《图像的分辨率,图像的颜色深度》属于初中信息技术课程第1章图形图像初步知识中的重要内容,本节课选用的教材是人民教育出版社出版的:《信息技术》八年级上册中的二节。主要是帮助学生掌握一些基本的概念,教会学生理解图像参数的方法。 教学目标知识与 技能 理解和掌握图像的分辨率,图像的颜色深度概念,并能理解二者对图像的影响。 过程与 方法 通过自学和讲解二个参数的特点,理解它们之间的联系与区别。 情感态 度与价 值观 激发并保持利用信息技术不断学习和探索的热情,形成积极主动地学习和使用信息技术、参与信息技术的 活动。 教学重点难点教学 重点 全面掌握图像的分辨率,图像的颜色深度概念。 编号:8.1.2

教学 难点 掌握图像的颜色深度。 教学过程设计 师生活动设计意图回想上节课的内容,我们学习了位图和矢量图, 在学习过程中我们也提到了像素,分辨率等概念, 今天我们要加深这几个概念的了解。 在照像机的参数中。像素是描述的数码相机的 主要参数,引出分辨率的概念。 任务一,阅读自学课本第二课,初步了解像素 和深度概念。 布置探究任务二,按课本要求查看图像素材文 件像素、存储容量、颜色位数。查看过程中理解分 辨率和文件大小及像素等概念。 发放相关知识材料教师对照讲解让学生理解分 辨率和像素的关系。 阶段性小结。图像分辨率则是单位英寸中所包 含的像素点数,辨率是图片清晰程度的标志。 显示分辨率与图像分辨率两个方向来分类 利用电脑的显示属性设置来自主探究“位深度” 的概念。 任务三,动手调整计算机的显示参数 教师提示:右键,分辨率,高级设置 阶段性小结 复习巩固旧 知识,引出 新知识。 以任务为驱 动开展教学 激发学生兴 趣;引导学 生发现问 题,并学会 分析问题。 学生动手进行 操作,在操作 中体会理解概 念

基于深度的图像修复实验分析报告

基于深度的图像修复实验报告

————————————————————————————————作者:————————————————————————————————日期: 2

基于深度的图像修复 一.实验目的 1、学会单幅图像的修补 2、学会结合彩色图像和深度图像的图像修补 二.实验原理 1图像修补简介----单幅图像修补 图像中常有缺失或者损坏的部分,即空白区域或者有误的区域。图像修补就是根据这些区域周围的信息完成对空白区域的填充,以实现图像的恢复。 基本方法 图像修补的基本方法示例

示例方法2 选取空白点周围的一片区域,对区域内的参考点进行加权求和,其结果用于对空白点的修补。若所选窗口太小,即窗口中无参考点,则将窗口扩大。 2图像修补简介----利用深度图的图像修补 1图像的前景与背景

实际场景中存在前景与背景的区别,前景会遮挡背景,而且前景与背景往往差距比较大。 2深度图 用于表示3D空间中的点与成像平面距离的灰度图。0~255表示,灰度值越大,表示场景距离成像平面越近,反之,灰度值越小,表示场景距离成像平面越远。 前景的灰度值大,背景的灰度值小。 如下左彩色图,右深度图 3普通的图像修补区分不了图像的前景和背景,简单的加权求和填补空白点的方法会导致前景和背景的混杂。引入深度图之后,可以利用深度图区分图像的前景和背景,在对背景进行修补的时候,可以利用深度图滤除那些前景参考点的影响,从而使背景的空白点只由背景点加权求和得到,前景亦然。

三.实验步骤 1读入一个像素点,判断其是否为空白点。 2若不是空白点,则跳过该点,判断下一个点。 3若该点是空白点,则用前面所述的方法进行加权修补。 4对图像中的每一个点都进行如此处理,直至全图处理完毕,则图像修补完成。 四.实验要求 1独立编码完成实验单幅图像修补利用深度图的图像修补。 2 比较实验结果的差别,并分析原因,完成实验报告。 五.用MATLAB编写实验代码 对于单幅图像以及结合深度图像的修补,其实区别就是是否考虑了深度图像的灰度权重(其实就是0和1),虽然效果图区别很小,但是通过深度图还是可以反映出其立体三维空间的。为了能较好的对比,我把两种方法的比较融合在一条件语句中,在下面的深度图像代码中用红色字体标注。同时深度图像变量用绿色字体标注。

深度图像的平面分割算法

深度图像的平面分割算法 王恒1,赵亮 摘 要: 三维激光扫描系统使用深度图像来重建城市建筑模型,现有激光点云数据处理系统程序直接 进行海量点云数据建模较为困难。因为实际模型往往含有复杂表面几何特征,如果利用深度图像直接进 行拟合,则会造成建筑模型的数学表示和拟合算法处理的难度加大,甚至无法使用数学表达式描述三维 模型。 深度图像拟合或深度图像分割,是将具有相同几何特征的点云数据划分同一个区域并进行曲面拟合。深度图像分割主要有两种方法:一种是基于边缘分割的方法,另一种基于区域生长的方法。由于深度图像获取方式的特点,其点云数据往往不连续含有较多的噪声。使用基于边缘分割算法,仅当所处理点云数据具有连续性并且噪声点比较少的情况下,方能有效实现边界点分割。因此深度图像的分割方法也较多的集中在基于区域的分割方法。利用高斯曲率和平均曲率及方向将点附近的曲面类型分为8种,对数据点进行初步分类,从初步分类的点集中找一个合适的生长点,用二次多项式函数来进行区域生长,实现了深度图像数据的分块与曲面拟合。本文提出的算法利用了建筑物包含大量平面的特点,将分割问题具体到了平面分割,从而避免了低精度估计高斯曲率和复杂的二次曲面拟合,完成了一种高效简洁的算法用来识别深度图像的平面特征。该算法借鉴了数字图像处理方法首先平面拟合邻近n*n区域的点集,计算出邻域点集的协方差矩阵及其特征值和特征向量;如果绝对值最小特征值小于阈值,则可以认为该点的局部平面拟合成功;最小特征值对应的特征向量为局部法向量。接着从左到右沿扫描线遍历深度图像中的每个坐标点,按照聚类分析的原则对该点和其上方、右上方、右方的三个坐标点的法向量按照具有相同方向和同处一个平面的两个相似度准则进行比对,来获得两个局部平面是否同处一个平面。本文提出的算法将深度图像分割成为若干个集合,每个集合的任意点都同处一个平面。本文根据深度图像的数据特征给出了合理高效的数据结构和算法,并以图例说明深度图像平面分割算法的有效性。 关键词:点云数据;深度图像;平面分割

基于深度图像技术的手势识别方法

基于深度图像技术的手势识别方法 曹雏清,李瑞峰,赵立军 (哈尔滨工业大学机器人技术与系统国家重点实验室,哈尔滨 150001) 摘 要:针对复杂环境下的手势识别问题,提出一种基于深度图像技术的手势识别方法。利用深度图像信息从复杂环境中提取手势区域,综合手势的表观特征,建立决策树实现手势的识别。对常见的9种手势在复杂背景条件下进行测试,实验结果表明,手势的平均识别率可达到98.4%,速度达到每秒25帧。 关键词:手势识别;深度图像;表观特征;复杂背景;决策树 Hand Posture Recognition Method Based on Depth Image Technoloy CAO Chu-qing, LI Rui-feng, ZHAO Li-jun (State Key Laboratory of Robotics and System, Harbin Institute of Technology, Harbin 150001, China) 【Abstract 】Aiming at the problem of hand posture recognition from complex backgrounds, this paper proposes a hand posture recognition method based on depth image technoloy. The hand posture region is extracted from complex background via depth image. Appearance features are integrated to build the decision tree for hand posture recognition. Nine common postures with complex background are tested. Experimental results demonstrate that recognition rate is 98.4% and speed rate achieves 25 frames per second. 【Key words 】hand posture recognition; depth image; appearance feature; complex background; decision tree DOI: 10.3969/j.issn.1000-3428.2012.08.006 计 算 机 工 程 Computer Engineering 第38卷 第 8期 V ol.38 No.8 2012年4月 April 2012 ·博士论文· 文章编号:1000—3428(2012)08—0016—03文献标识码:A 中图分类号:TP391 1 概述 随着机器人技术的发展,智能服务机器人开始逐步融入人类的生活,人机交互技术的发展是智能服务机器人研究的重要组成部分。人机交互的研究方向主要有表情、声音和手势识别技术。其中,手势是一种自然直观的人机交流模式,在信息表达上比表情更明确、信息量更丰富。 在人机交互中,基于视觉的手势识别是实现新一代人机交互的关键技术。基于视觉的手势识别通过图像信息,让机器人获取人的手势姿态信息,对不同的手势信息进行分类。近年来,学者们对基于视觉的手势识别进行研究,文献[1]提出特征空间匹配法,文献[2]采用提取同类手势的SIFT 特征方法进行手势识别,文献[3]提出手势图解析分类法,文献[4]针对复杂背景采用空间分布特征对手势进行识别。 复杂背景下手势识别的研究[4-5]一般使用肤色模型实现手势区域分割,虽然可以区分肤色和非肤色区域,但是实际应用中图像都包含有肢体和面部肤色区域,它们对手势区域提取有着较大的影响,同时光线也直接影响肤色模型。现有的文献中并没有考虑强光和弱光环境下的手势识别情况,在实际应用中往往伴随光线的变化问题,这些问题都直接影响了人机交互的实际效果。本文提出一种基于深度图像技术的手势识别方法,从深度图像信息中提取手势区域,运用几何方法提取手势表观特征并分类,从而实现复杂环境下基于手势的人机交互。 2 2.1 手势识别系统 基于深度图像信息的手势识别系统框架如图1所示。深度图像的采集采用非接触测量方式,获取的场景中深度信息不受物体自身的颜色、纹理特征以及背景环境光线强弱的影响。本文选用微软公司的Kinect 进行深度图像的采集,获取 深度信息值,转换到灰度值图像,经过手势区域分割、特征提取、手势识别,转换为手势信息,提供人机交互使用。 图1 面向人机交互的手势识别框架 2.2 手势区域分割 2.2.1 深度图像成像原理 深度图像技术在近年来逐步得到广泛的关注,Kinect 采集640×480像素的深度图像速度可以达到30 f/s ,深度的分辨率在5 mm 左右。本文把Kinect 采集到的场景深度值转换到灰度值空间,实际场景的RGB 图像如图2所示。在深度图像中像素点灰度值的大小对应于场景中点的不同深度值,如图3所示,图像中的灰度值越大,表明该区域距离深度摄像头的距离越近。 图2 场景RGB 图像 图3 深度图像 基金项目:国家自然科学基金资助项目(61075081);机器人技术与 系统国家重点实验室课题基金资助项目(SKLRS200802A02) 作者简介:曹雏清(1982-),男,博士研究生,主研方向:模式识 别,人机交互;李瑞峰,教授、博士生导师;赵立军,讲师 收稿日期:2011-07-11 E-mail :caochuqing@https://www.wendangku.net/doc/497406861.html,

8 基于几何光学的单幅二维图像深度估计

第五章基于几何光学的单幅二维图像深度估计 第五章基于几何光学的单幅二维图像深度估计 由上一章的内容可知,图像大小恒常性计算的关键在于正确地估计二维图像的深度。二维图像深度估计也是计算视觉中的重点与难点。视觉心理学家通过经验观察和对人的统计实验,总结了人类视觉系统深度感知规律。在上一章的实验表明,应用这些规律建立的单幅二维图像深度模型基本上是有效的,但也存在一些没有很好解决的矛盾,如各种深度线索间的冲突。其次,这些规律是建立在人的主观实验之上的,本质上也需要进一步从物理学的角度进行解释。再次,虽然照相机与人眼在光学成像原理上是基本相同的,但在实现细节上还是存在一些差异。所以本章从几何光学出发,提出了一种基于几何光学的二维图像深度计算方法,并与上一章的基于心理学的深度模型实验结果进行比较,探讨心理学结论应用到计算机视觉问题中的适应性问题。 5.1 引言 尽管学者已从不同的角度对二维图像深度估计问题进行了卓有成效的研究,基于单幅图像(Single-image based)的深度计算仍然是一个挑战性问题。现有的各种方法都存在一定的局限性。用阴影求深度方法(Depth from shading)依赖太多的假定[Forsyth 2003, pp80-85][Castelan 2004][严涛2000]。在这些假定中,多数假定与客观世界的自然场景不完全一致。用模型求深度的方法(Depth from model)需要物体或场景模型的先验知识[Jelinek 2001][Ryoo 2004][Wilczkowiak 2001]。当物体或场景很难建模,或者模型库变得很大时,这种方法就会失效。用机器学习求深度的方法(Depth from learning)要对大量的范例进行训练[Torralba 2002][Battiato 2004][Nagai 2002],而且它们的泛化能力是很弱的。用主动视觉求深度方法(Depth from active vision)如编码结构光(Coded structured light)、激光条纹(Laser stripe scanning)扫描等需要昂贵的辅助光源设备来产生显著的对应点(对应元素)[Forsyth 2003, pp467-491][Wong 2005][Nehab 2005]。它轻易解决了图像体视匹配(Image stereo matching)难题,代价是丢失了物体或场景的其它的重要表面属性,如强度、颜色、纹理等。各种方法的比较见本章表5-4。 然而,人类视觉系统能轻易地、完美地感知单幅图像深度,即使只用一只眼睛看图片时也是如此。而且,人类视觉系统在完成这项任务时,好像毫不费 65

基于深度学习的图像识别

基于深度学习的图像识别 摘要:本文讨论了两种实现图像识别的深度学习(Deep Learning,DL)方法:卷积神经网络(Convolution Neural Network,CNN)与深度信念网络(Deep Belief Network,DBN)。 关键词:深度学习,卷积神经网络,深度信念网络 1前言 在计算机图像处理中,最困难但又最让人兴奋的任务就是让机器可以实现图像分类,从而通过图像识别物体的种类。 这项任务很难实现。在数据库中的图像总是在不同状态下记录的。这意味这光线与角度的多变性。 而可运用的计算能力的限制是一大障碍。我们不可能像让人类识别图像一样让机器识别图像。计算能力的限制导致可供训练与测试的数据有限,而模型的复杂程度也受到限制。 但是,目前这种情况得到极大的改善。综合多CPU/综合多GPU系统(multi-CPU/multi-GPU systems)使得运行高速神经网络成为现实,而费用也可以负担得起。人们对深度学习模型在图像识别与机器学习中的应用兴趣渐浓,而与之对抗的传统模型日渐式微。目前最具意义的研究方向就是运用深度学习模型,处理综合数据库中的图像识别问题。 本文主要关注深度神经网络(DNN)在图像识别在的作用。 深度神经系统主要有多层特征提取单元组成。低层特征提取单元提取了简单特征,之后依照该单元的规模进行学习,并按该单元的权重或参照物将特征反馈给高层特征提取单元。而高层特征提取单元可以提取更复杂的特征。 目前有一些实现深层学习网络的方法。深度信念网络(DBN)一个多层生成模型,而每一层都是一个统计编码器(statistical encoder)。这些统计编码器都是基于附属于它的更低层的结点(unit)。而这种训练主要关注训练数据中的最大化概率。 DBN在众多领域都有成功运用,如手写数据识别与人类手势识别。 另一个深度学习模型是卷积神经网络(CNN),与相似层次尺寸的标准化前向反馈网络不同,这个模型所需的连接与参照物比较少,使其训练也更简单。 层次深,规模大的DNN结构往往可以产生最好的结果。这意味这我们需要数量巨大的基础样本与种类丰富的训练样本,以确保面对状况多变的数据时,我们的训练数据仍代表性。 2 模型介绍 人类的视觉系统可以在多种情况下高效识别物体,而对计算机算法,这个任务并不简单。 深度神经网络便是模拟哺乳动物视觉网络。这已被验证为这项任务的最佳实现方案。目前,有人已运用这种模型,设计出识别准确性可能高于人类的机器图像识别系统。 2.1 卷积神经网络(CNN) 卷积神经网络系统(CNNs)是专注处理图案识别的多层网络系统。它是多层感知器(Multi-Layer Percentrons,MLPs)的变体,灵感来自于生物系统。 CNNs是分层型(hierarchical)神经网络。通过运用卷积计算(convolution)将集成层(pooling layers)交织起来,CNNs可以实现特征信息的自动提取,形成可完成最终分类的一系列全连接的网络层次。 卷积神经网络 结构:输入,卷积,深层取样(sub-sampling)/总集成与分类层(max-pooling and classification layers) 2.1.1 卷积层(Convolution layer) 卷积成通常可由特征图(feature map)的数目,核(kernel)的大小(sizes),与先前层的联系来展现。 每一层都包含了相同维度的特征图M,如 ) , ( y x M M;这些特征图可以通过先前层的一系列卷积运算得到。而在这些运算中,它们之间有相互关

基于深度图像技术的手势识别方法

龙源期刊网 https://www.wendangku.net/doc/497406861.html, 基于深度图像技术的手势识别方法 作者:付学娜 来源:《电子技术与软件工程》2015年第04期 所谓手势是指人手或手臂同人手结合而产生的动作或姿势,作为人机交互的一项重要技术,手势识别通过在人手安置相关的硬件设备,并通过硬件设备中的计算模块对人手的位置和速度等信息进行获取,对于识别过程中的定位和跟踪均都具有良好的指导和保障作用。本文通过对手势识别系统与深度图像的成像原理进行阐述,进而结合手势区域分割的相关理论,对基于深度图像技术的手势识别方法展开了深入研究。 【关键词】深度图像技术手势识别圆形轨迹像素值变化点 随着科技的不断发展,基于视觉的手势识别已成为新一代人机交互中的核心技术。在借助相关图像信息的基础上,计算机可以对人手的各种姿态信息以及不同的手势信息尽心准确识别,有效提高了识别的速度与质量。本文以基于深度图像技术的手势识别作为研究对象,通过对手势识别系统及深度图像成像原理进行分析,从手势区域分割以及手势特征提取两方面出发,对深度图像技术下手势识别的方法做出了详细分析。 1 手势识别系统与深度图像成像原理 基于深度图像技术的手势识别系统主要包括了手势、深度图像、手势区域分割、手势特征提取以及手势识别和人机交互等,深度图像以非接触测量的方式对场景中的深度信息进行采集,而所采集的深度信息具有较强的稳定性和可靠性,即不受物体(人手)自身颜色、背景环境和纹理特征等因素的影响。本文以微软的Kinect作为图像采集和获取深度信息的工具,进而对手势识别展开分析。 基于Kinect下的深度图像技术下所采集的640×480深度图像信息的速度可达30f/s,且信息的分辨率维持在5mm左右,在应用方面具有较强的合理性。通过在相关场景采集的场景深度值进行转换,使其转移到灰度值空间,并使深度图像中所有的像素点灰度值大小与实际场景中不同的深度值相对应,进而显示成像。值得注意的是品拍摄区域与深度摄像头之间的距离与图像中的灰度值呈现出明显的负相关关系,即灰度值越大,距离越近。 2 基于深度图像技术的手势识别 2.1 手势区域分割 虽然具有相同深度的像素点,其在深度图像中所具有的灰度值也具有较高的一致性,但由于在每次对人手手势进行拍摄时,人手同深度摄像头间的距离存在差异。因此,无法利用单一的固定阈值对手势区域进行分割,故本文以灰度值直方图作为主要研究方法,进而确定出相关背景及手势区域分割的阈值。由于人手做出相关姿势的区域距离深度摄像头较近,且相对于整

深度图像的二值化

3.2 深度图像二值化 图像二值化是图像处理中的一项基本技术,也是很多图像处理技术的预处理过程。在颗粒分析、模式识别技术、光学字符识别(OCR)、医学数据可视化中的切片配准等应用中,图像二值化是它们进行数据预处理的重要技术。由于图像二值化过程将会损失原图像的许多有用信息,因此在进行二值化预处理过程中,能否保留原图的主要特征非常关键。在不同的应用中,图像二值化时阈值的选择是不同的。因此,自适应图像阈值的选取方法非常值得研究。研究者对图像二值化方法进行了讨论,在此基础上提出了一个新的图像二值化算法。该算法基于数学形态学理论,较好地保留了图像二值化时原图的边缘特征。本文主要研究二值化及灰度图像二值化方法。 3.2.1.灰度图像与二值图像 数字图像是将连续的模拟图像经过离散化处理后得到的计算机能够辨识的点阵 图像。在严格意义上讲,数字图像是经过等距离矩形网格采样,对幅度进行等间隔量化的二维函数。因此,数字图像实际上就是被量化的二维采样数组。一幅数字图像都是由若干个数据点组成的,每个数据点称为像素(pixel)。比如一幅 256×400,就是指该图像是由水平方向上256列像素和垂直方向上400行像素组成的矩形图。每一个像素具有自己的属性,如颜色(color)、灰度(grayscale)等,颜 色和灰度是决定一幅图像表现里的关键因素。数字图像又可分为彩色图像、灰度图像、二值图像。 3.2.1.1彩色图像 彩色图像是多光谱图像的一种特殊情况,对应于人类视觉的三基色即红(R)、绿(G)、蓝(B)三个波段,是对人眼的光谱量化性质的近似。彩色图像中的 每个像素的颜色有R、G、B三个分量决定,而每个分量有255种值可取,这样一个像素点可以有1600多万的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,一个像素点的变化范围为255种。图1-1为彩色图像。

基于深度学习的图像识别进展百度的若干实践

语音搜索、图像识别等领域,涵盖几十项产品。今天,用户在百度平台上的几乎每个服务请求,都被深度学习系统所处理。 人工智能的特征之一是学习的能力,即系统的性能是否会随 着经验数据的积累而不断提升。所以,大数据时代的到来给人工智能的发展提供前所未有的机遇。在这个时代背景下,深度学习在包括图像识别等方面所取得的突破性进展并非偶然。 在百度的实践中,我们认识到深度学习主要在以下三个方面具有巨大优势: 1.从统计和计算的角度 看,深度学习特别适合处理大 数据。在很多问题上,深度学习 是目前我们能找到的最好方法。它集中体现了当前机器学习算法的三个大趋势:用较为复杂的模型降低模型偏差(model bias),用大数据提升统计估计的准确度,用可扩展(scalable)的梯度下降 算法求解大规模优化问题。 2.深度学习不是一个黑箱 系统。它像概率模型一样,提供 一套丰富的、基于联接主义的建 模语言(建模框架)。利用这套语言系统,我们可以表达数据内在的丰富关系和结构,比如用卷积处理图像中的二维空间结构,用递归神经网络(Recurrent Neu-ral Network, RNN)处理自然语言等数据中的时序结构。 3.深度学习几乎是唯一的 端到端机器学习系统。它直接 作用于原始数据,自动逐层进行特征学习,整个过程直接优化某个目标函数。而传统机器学习往往被分解为几个不连贯的数据预处理步骤,比如人工抽取特征,这些步骤并非一致地优化某个整 体的目标函数。 让计算机识别和理解图像,是人工智能最重要的目标之一。尤其是在移动互联网时代,智能手机上的摄像头将人们日常看到 的世界捕捉下来,图像和视频数据暴增,造就了图像大数据时代。 概述:深度学习和图像识别 近年来在人工智能领域最受关注的,非深度学习莫属。自2006年吉奥夫雷·辛顿(Geoffery Hinton)等在《科学》(Science )杂 志发表那篇著名的论文[1]开始,深度学习的热潮从学术界席卷到了工业界。2012年6月,《纽约时报》披露“谷歌大脑(Google Brain)”项目,由著名的斯坦福大学机器学习教授吴恩达(Andrew Ng)和大规模计算机系统世界顶级专家杰夫·迪恩(Jeff Dean)共同主导,用1.6万个CPU 核的并行计算平台训练深度神经网络(Deep Neural Networks, DNN)的机器学习模型,在语音和图像识别等领域获得巨大成功。 国内方面,2013年1月,百度成立深度学习研究院,公司CEO 李彦宏担任院长。短短两年时间,深度学习技术被应用到百 度的凤巢广告系统、网页搜索、基于深度学习的图像识别进展:百度的若干实践 关键词:深度学习 图像分类 物体检测 都大龙 余轶南 罗 恒 等 百度公司

图像深度与颜色类型

图像深度与颜色类型 2011-09-07 17:06:44| 分类:图像处理| 标签:|举报|字号大中小订阅四.图像深度与颜色类型< XMLNAMESPACE PREFIX ="O" /> 图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。图像的颜色需用三维空间来表示,如RGB颜色空间,而颜色的空间表示法又不是惟一的,所以每个像素点的图像深度的分配还与图像所用的颜色空间有关。以最常用的RGB颜色空间为例,图像深度与颜色的映射关系主要有真彩色、伪彩色和直接色。 (一)真彩色(true-color):真彩色是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的颜色称为真彩色。例如图像深度为24,用R:G:B=8:8:8来表示颜色,则R、G、B各用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16M 种颜色。这样得到的颜色可以反映原图的真实颜色,故称真彩色。 (二)伪彩色(pseudo-color):伪彩色图像的每个像素值实际上是一个索引值或代码,该代码值作为颜色查找表(CLUT,Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。这种用查找映射的方法产生的颜色称为伪彩色。用这种方式产生的颜色本身是真的,不过它不一定反映原图的颜色。在VGA显示系统中,调色板就相当于颜色查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式(表06-03-2)。调色板的代码对应RGB颜色的入口地址,颜色即调色板中RGB混合后对应的颜色。 表06-03-216色标准VGA调色板

基于CNN特征提取和加权深度迁移的单目图像深度估计

2019年4月图 学 学 报 April2019第40卷第2期JOURNAL OF GRAPHICS V ol.40No.2 基于CNN特征提取和加权深度迁移的 单目图像深度估计 温静,安国艳,梁宇栋 (山西大学计算机与信息技术学院,山西太原 030006) 摘要:单目图像的深度估计可以从相似图像及其对应的深度信息中获得。然而,图像匹配歧义和估计深度的不均匀性问题制约了这类算法的性能。为此,提出了一种基于卷积神经网络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。首先提取CNN特征计算输入图像在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数; 再将形变函数迁移至候选深度图像集,同时引入基于SIFT的迁移权重SSW,并通过对加权迁移后的候选深度图进行优化获得最终的深度信息。实验结果表明,该方法显著降低了估计深度图的平均误差,改善了深度估计的质量。 关键词:单目深度估计;卷积神经网络特征;加权深度迁移;深度优化 中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2019020248 文献标识码:A 文章编号:2095-302X(2019)02-0248-08 Monocular Image Depth Estimation Based on CNN Features Extraction and Weighted Transfer Learning WEN Jing, AN Guo-yan, LIANG Yu-dong (School of Computer and Information Technology, Shanxi University, Taiyuan Shanxi 030006, China) Abstract: The depth estimation of monocular image can be obtained from the similar image and its depth information. However, the performance of such an algorithm is limited by image matching ambiguity and uneven depth mapping. This paper proposes a monocular depth estimation algorithm based on convolution neural network (CNN) features extraction and weighted transfer learning. Firstly, CNN features are extracted to collect the neighboring image gallery of the input image. Secondly, pixel-wise dense spatial wrapping functions calculated between the input image and all candidate images are transferred to the candidate depth maps. In addition, the authors have introduced the transferred weight SSW based on SIFT. The final depth image could be obtained by optimizing the integrated weighted transferred candidate depth maps. The experimental results demonstrate that the proposed method can significantly reduce the average error and improve the quality of the depth estimation. Keywords: monocular depth estimation;convolution neural network features; weighted depth transfer; depth optimization 收稿日期:2018-09-07;定稿日期:2018-09-12 基金项目:国家自然科学基金项目(61703252);山西省高等学校科技创新项目(2015108) 第一作者:温静(1982 ),女,山西晋中人,副教授,博士,硕士生导师。主要研究方向为图像处理、计算机视觉等。E-mail:wjing@https://www.wendangku.net/doc/497406861.html,

现代机器学习基于深度学习的图像特征提取

现代机器学习理论大作业(基于深度学习的图像特征提取)

基于深度学习的图像特征提取 摘要:大数据时代的来临,为深度学习理论的发展创造了良好的条件。本文介 绍了深度学习的发展背景,主要讨论了深度学习中的自编码的方法,对自编码方法实现仿真应用,期望在以后能应用到SAR图像上进行自动特征提取,最后阐 述该理论的目前遇到的困难。 关键词:深度学习autoencoder convolution pooling 一引言 机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律, 从而对新的样本做智能识别或对未来做预测。从1980年代末期以来,机器学习的发展大致经历了两次浪潮:浅层学习(Shallow Learning)和深度学习(Deep Learning)。 第一次浪潮:浅层学习 1980年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation 算法或者BP算法)的发明,给机器学习带来了希望,掀起了基于统计模型的机 器学习热潮。这个热潮一直持续到今天。人们发现,利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律,从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显示出优越性。这个时候的人工神经网络,虽然也被称作多层感知机(Multi-layer Perceptron),但实际上是一种只含有一层隐层节点的浅层模型。 90年代,各种各样的浅层机器学习模型相继被提出,比如支撑向量机(SVM,Support Vector Machines)、Boosting、最大熵方法(例如LR,Logistic Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)。这些模型在无论是理论分析还是应用都获得了巨大的 成功。相比较之下,由于理论分析的难度,加上训练方法需要很多经验和技巧, 所以这个时期浅层人工神经网络反而相对较为沉寂。 2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求,浅层学习模型在互联网应用上获得了巨大成功。最成功的应用包括搜索广告

基于深度学习的图像深度估计及其应用研究

基于深度学习的图像深度估计及其应用研究场景深度估计是计算机视觉领域的一项重要课题。利用图像的深度信息,可以重构场景的三维结构信息,对机器人自主导航、物体识别与抓取等任务具有重要意义。 传统的视觉深度估计方法多利用场景的多视信息,通过三角几何对应关系从二维图像中恢复场景深度,计算量大且复杂。近年,随着深度学习的发展,利用卷积神经网络重构场景深度成为研究者关注的热点方向。 卷积神经网络可以利用图像数据及其配套的基准深度数据预先训练学习,在测试阶段可以实现端到端的全分辨率图像深度估计。该方法不仅速度快,实现简单,而且可实现场景的尺度恢复,有益于机器人的空间任务执行。 在此背景下,本文在深入研究近年基于卷积神经网络的深度估计方法基础上,提出创新性的端到端深度学习网络,实验证明所提方法可进一步提升算法性能。本文首先提出了一种端到端的学习方案,用于从稀疏深度图和RGB图像中预测尺度化的稠密深度图。 该方案中,首先利用稀疏采样生成稀疏深度图,然后将彩色图像和稀疏深度图作为网络输入,输出全分辨率深度图像。在训练过程中,稀疏深度图作为深度估计网络的监督信号来恢复场景的真实尺度。 为了更精确的估计场景深度,本文引入“correlation”层,人工模拟标准匹配过程来融合稀疏深度信息和彩色图像信息,即使用颜色信息来帮助提高基于稀疏深度图的预测精度。最后,利用精细化模块以全分辨率输出场景深度图像。 在NYU-Depth-V2和KITTI数据集上的实验结果表明,与前沿算法相比,该模型能够以全分辨率恢复尺度化的场景深度,具有更优的性能。本文提出了并行构

建的深度估计网络和相机位姿估计网络。 相机位姿估计网络以单目视频序列为输入,输出六自由度的相机相对位姿。深度估计网络以单目目标视图为输入,生成稠密的场景深度。 最后基于相机模型,生成合成视图,并把它作为监督信号联合训练两个并行的估计网络。与此同时,稀疏采样生成的稀疏深度图作为深度估计网络的另一个监督信号,帮助恢复其全局尺度。 深度估计网络获得的尺度信息又通过合成视图与目标视图的光度误差耦合传递给位姿估计网络。在测试阶段,深度估计器和位姿估计器可以分别独立的使用。 在KITTI数据集上对本文算法进行了实验评估,所提算法在多个指标上优于前沿算法。

数字图像处理 简答题

1. 图像处理的主要方法分几大类? 答:图字图像处理方法分为大两类:空间域处理(空域法)和变换域处理(频域 法)。 空域法:直接对获取的数字图像进行处理。 频域法:对先对获取的数字图像进行正交变换,得到变换系数阵列,然后再进行 处理,最后再逆变换到空间域,得到图像的处理结果 2. 图像处理的主要内容是什么? 答:图形数字化(图像获取):把连续图像用一组数字表示,便于用计算机分析 处理。图像变换:对图像进行正交变换,以便进行处理。图像增强:对图像的某 些特征进行强调或锐化而不增加图像的相关数据。图像复原:去除图像中的噪声 干扰和模糊,恢复图像的客观面目。图像编码:在满足一定的图形质量要求下对 图像进行编码,可以压缩表示图像的数据。图像分析:对图像中感兴趣的目标进 行检测和测量,从而获得所需的客观信息。图像识别:找到图像的特征,以便进 一步处理。图像理解:在图像分析的基础上得出对图像内容含义的理解及解释, 从而指导和规划行为。 3. 名词解释:灰度、像素、图像分辨率、图像深度、图像数据量。 答:灰度:使用黑色调表示物体,即用黑色为基准色,不同的饱和度的黑色来显示 图像.像素:在卫星图像上,由卫星传感器记录下的最小的分立要素(有空间分量 和谱分量两种)。通常,表示图像的二维数组是连续的,将连续参数 x,y ,和 f 取 离散值后,图像被分割成很多小的网格,每个网格即为像素 图像分辨率:指对 原始图像的采样分辨率,即图像水平或垂直方向单位长度上所包含的采样点数。 单位是“像素点/单位长度”图像深度是指存储每个像素所用的位数,也用于量度 图像的色彩分辨率.图像深度确定彩色图像的每个像素可能有的颜色数,或者确 定灰度图像的每个像素可能有的灰度级数.它决定了彩色图像中可出现的最多颜 色数,或灰度图像中的最大灰度等级(图像深度:位图图像中,各像素点的亮度 或色彩信息用二进制数位来表示,这一数据位的位数即为像素深度,也叫图像深 度。图像深度越深,能够表现的颜色数量越多,图像的色彩也越丰富。) 图像数据量:图像数据量是一幅图像的总像素点数目与每个像素点所需字节数的 乘积。 4. 什么是采样与量化? 答:扫描:按照一定的先后顺序对图像进行遍历的过程。采样:将空间上连续的 图像变成离散点的操作。采样过程即可看作将图像平面划分成网格的过程。量化: 将采样得到的灰度值转换为离散的整数值。灰度级:一幅图像中不同灰度值的个 数。一般取0~255,即256个灰度级 5.说明图像函数 的各个参数的具体含义。 答:其中,x 、y 、z 是空间坐标,λ是波长,t 是时间,I 是像素点的强度。它 表示活动的、彩色的、三维的视频图像。对于静止图像,则与时间t 无关;对于 单色图像,则波长λ为常数;对于平面图像,则与坐标z 无关。 6、请解释马赫带效应,马赫带效应和同时对比度反映了什么共同的问题? 答:马赫带效应:基于视觉系统有趋向于过高或过低估计不同亮度区域边界值的 现象。同时对比度现象:此现象表明人眼对某个区域感觉到的亮度不仅仅依赖它 的强度,而与环境亮度有关 共同点: 它们都反映了人类视觉感知的主观亮度并不是物体表面照度的简单函 数。 ) ,,,,(t z y x f I λ=

单目视觉图像深度测量方法研究

单目视觉图像深度测量方法研究 相机与其它传感器相比,具有能够直观反映客观世界、数据量大、信息丰富等特点,而且通常价格较低、配置方便,是自动化装置和机器人感知环境传感器中的优先选择之一。但由于普通相机在拍摄时获得的是被拍摄场景投影到成像平面上的二维图像,丢失了场景的深度信息,这使得机器无法通过图像直接得到场景中物体的远近、大小和运动速度等信息,因此需要从二维图像中恢复深度信息,即深度测量。深度测量在工业自动化、智能机器人、目标检测和跟踪、智能交通、三维建模和3D视频制作等领域都有广泛的应用。深度测量方法有很多种,其中基于单目视觉的图像深度测量方法具有设备简单、成本低廉、操作方便等特点而成为研究热点,并且单目相机体积小,重量轻,在一些有空间大小或载荷限制的特定场合以及手眼系统等应用中,需要或只能使用基于单目视觉的图像深度测量方法,而目前该测量方法还很不成熟,有必要对其计算原理、技术方法等方面进行研究。 因此本文对基于单目视觉的图像深度测量方法开展研究,主要工作和创新点如下:(1)提出一种基于熵和加权Hu氏不变矩的目标物体绝对深度的测量方法。该方法用普通单目相机拍摄同一场景的两幅图像,拍摄时保持相机的参数不变,将相机沿光轴方向移动,分别在物距间隔为d的前后两处各拍摄一幅图像,然后采用LBF模型的方法分割出图像中的物体,并求出各个目标物体像的面积,再将物体像的熵的相对变化率和加权Hu氏不变矩结合起来实现图像内物体的自动匹配,最后运用本文推导的公式计算出各个目标物体的绝对深度。文中采用真实场景图像对该方法进行了实验验证并与其他方法进行了对比,结果表明了该方法的有效性。(2)提出一种基于SIFT特征的目标物体绝对深度的测量方法,该方法同样需要按照上面的方法获取同一场景的两幅图像,然后分别对这两幅图像进行图像分割和SIFT特征点提取,并进行图像中的目标物体匹配,接着用凸包和几何形状约束从匹配物体中选出一对最佳直线段,最后根据光学成像原理利用直线段长度计算出场景中静态目标物体的绝对深度信息。 由于是通过被测量物体上的两个SIFT特征点所成的直线段长度来计算出物体的绝对深度信息的,所以该方法鲁棒性较好,不受场景中被测量目标物体部分遮挡或缺失的限制,对比实验表明该方法测量精度高于现有其他方法。(3)提出一种基于梯度信息和小波分析的单幅图像相对深度测量方法。该方法首先利用图像

基于单目深度估计的红外图像彩色化方法

邮局订阅号:82-946120元/年技术创新 软件时空 《PLC 技术应用200例》 您的论文得到两院院士关注 戈曼:硕士 基金项目:基金颁发部门:国家自然科学基金委;项目名称:彩色夜视中景物深度及空间透视立体视觉感的研究;编号: (61072090);基金申请人:孙韶媛基于单目深度估计的红外图像彩色化方法 Infrared Image Colorization Based on Monocular Depth Estimation (东华大学) 戈曼孙韶媛席林谯帅 GE Man SUN Shao-yuan XI Lin QIAO Shuai 摘要:针对夜视红外图像深度信息估计问题,根据红外图像的特点,用地平线检测和最大类间方差法分割得到一幅具有深度信息的图像,然后运用透视学中饱和度、色调对比度与深度的关系,用色彩传递算法对红外图像做彩色化处理,得到一幅视觉上具有立体感的彩色红外图像。 关键词:深度估计;彩色夜视;立体感;色彩饱和度;深度图中图分类号:TP391文献标识码:A Abstract:For the problem of estimating the depth from the night vision infrared image,according to the characteristics of infrared images,we use maximum between-cluster variance and the horizon detection methods to get a depth map of an infrared image.Then according the relationship between saturation,hue,and the depth in perspective,we transfer colors to the infrared image and obtain a color infrared image with three-dimensional visual perception. Keywords:depth estimation;color night vision;three-dimensional;color saturation;depth map 文章编号:1008-0570(2012)10-0413-02 1引言 在彩色夜视技术中,只关注色调的自然正确性是不够的,如何使彩色化后的夜视图像能在视觉效果上体现景物的空间立体感也是重要的研究方向。空间感可以帮助我们辨别景物的前后关系,识别路径及目标位置。实现夜视图像彩色化技术中的视觉立体感需要有图像中景物的深度数据提供距离信息。 目前机器视觉领域获得图像深度信息的较成熟的方法主要是利用双目视差以及运动视差的原理,即根据对极几何原理,结合拍摄时相机运动产生的视差信息来估计深度。例如基于双目、三目、多目、环目的三维立体化方法。夜视红外图像从拍摄角度上来讲属于单目图像,不存在视差,无法应用基于视差的深度估计算法。因此,针对夜视图像的特点,需要研究基于单目图像的即从单幅的二维夜视图像中估计景物的深度信息。 针对以上问题,本文根据红外图像的特点,用地平线检测和最大类间方差法分割得到一幅具有深度信息的图像,然后利用透视学中色调对比和饱和度变化来区分表达景物的深度,从而使得最终获得的彩色夜视图像在视觉效果上具有空间立体感。 2深度图获取 针对车载夜视应用领域,对车载红外红外图像中的景物分成行人、天空,道路,路边树木几类处理。夜视成像技术中,红外热成像反映的是景物的温度分布,首先根据先验知识设定阈值将图像中的行人作为第一类从图像中分割出来。然后进行地平线检测,再利用最大类间方差法进行景物分类,进而得到深度图。算法的详细介绍如下。 2.1地平线检测 图像处理中,一阶微分可以通过梯度法实现。在一幅图像中,边缘梯度值较大,平滑区梯度值较小,对于灰度级为常数的区域梯度值为零。一般采用差分来近似微分。梯度可用公式(1)来计算。 (1) 图像中地平线为天空和地面的分界线,区域的梯度值较大,为了排除其他位置由于灰度突然变化引起的大梯度值的干扰,采用直方图投票的方法,确定分界线(即地平线)的纵向坐标。 设图像大小为M ×N,采用统计的直方图为P u ,其中u=1···N,μ∈N 点(i,j)的梯度值为 (2) 可以得到地平线在图像中的纵坐标为: (3) 2.2基于最大类间方差法的景物分类 最大类间方差法是对图像的像素进行划分,通过划分使得各类之间的距离达到最大来确定其合适的门限。 设图像g 中灰度值i 得像素的数目为n i 个,总像素数为 (4) 各个灰度出现的概率为 (5) 设灰度t 为门限,将图像分为A 和B 两个区域,其中A 区域的灰度为0~t 的像素和B 区域的灰度为t+1~L-1的像素,则区域A 和B 的概率分别为 (6)(7) 区域A 和B 的平均灰度为 (8)(9) 413--

相关文档
相关文档 最新文档