文档库 最新最全的文档下载
当前位置:文档库 › 翻译Deep Convolutional Neural Fields for Depth Estimation from a Single Image

翻译Deep Convolutional Neural Fields for Depth Estimation from a Single Image

?arXiv:1411.6387 v 1[cs.CV] 2014 年十一月 24 日

深的 Convolutional 神经的田地为一个图像的深度判断*

Fayao Liu1 、 Chunhua Shen12, Guosheng Lin12 1 阿德雷得市的大学,澳洲 2 澳洲中心为机器人的愿景

摘要

我们考虑这一个工作的一个分子的图像的深度判断的问题。它是一件挑战性的任务举例来说当做没有可靠的深度开端是可得的音响通信,运动等等早先的努力是把重心集中在开发几何学的居先或数据的另外来源,藉由所有的使用手工艺特征。最近,有展开从深的 convolutional 类神经网路 (CNN)扮演重要角色的证据正在为各种不同的视觉申请创造新的记录。另一方面,以连续者看来特性的 ofthe 深度评价,深度判断能自然地进入连续的有条件的随意田地 (CRF)之内被制定获悉问题。因此,我们在这纸中呈现深的 convolutional 估计一个图像的深度的神经的田地模型,对准目标共同地探究深 CNN 和连续的 CRF 的能力。明确地,我们计画深处结构化学问方案学习那一元的和成对地在一个被统一的深的 CNN 结构中的连续 CRF 的潜能。

被提议的方法能作为深度判断 ofgeneral 现场与没有几何学的居先也不任何的额外数据注射。在我们的情况,整体的 ofthe 分割功能可能是分析地计算,如此我们能完全地解决记录-可能性的最佳化。而且,关闭-形式解决存在时,解决预测深度 ofa 新的图像的地图 problemfor 非常有效率。我们实验式地示范被提议的方法赢过最新颖的在户内、户外的现场数据组上的深度判断方法。

3.1.概观......................................3

3.2.潜能动作............................4

3.3.学问......................................5

3.4.落实细说........................6

4.实验6

4.1.NYU v 2:户内的现场重建....7

4.2.制造 3D立体:户外的现场重建。。。9

5.结论9深的 Convolutional 神经的田地10B. 实验12

内容

1.介绍2

2.相关的工作2

3.深的 convolutional 神经的田地3

*这一个工作部份地因弧授与而支援FT120100969 、 LP120200485,LP130100156.通信应该被提出到 C. Shen 。(电子邮件: chhshen@https://www.wendangku.net/doc/ba6330272.html,)

1

1.介绍

估计一个描述一般的现场的分子的图像的深度是在计算机视觉,已经在现场理解、 3D立体做模型、机械手工程,等等中发现宽的申请中的一个基本的问题它是一众所周知地生病的-造成问题,因为一捕获,图像可能符合很多的真正世界现场[1].然而为人类,推论出一个图像的

在下面的 3D立体结构是小困难,没有可靠的开端举例来说能被开发,像是当时的数据、音响通信,等等早先的作品主要地把重心集中在运行几何学的假定盒子模型时,它为计算机视觉运算法则保持一件挑战性的任务,推论出房间[2,3] 的空间地面区划或户外的现场[4].这些模型带先天的限制,是限制做模型唯一的特别现场结构来因此不是可适用为一般的现场深度判断。稍后,非参数的方法[5] 被探究,这有候选人图像取回,现场对准然后深度推论出和柔滑限制一起使用最佳化。这以假定为基础当浓密地排列的时候 , 现场用与语意有关的相似外表应该有相似的深度分配。然而,这一个方法倾向于繁殖经过不同的被使分离的阶段的错误而且很重地关于建筑一个合理的被按规定尺寸制作的图像数据库运行候选人取回信赖。近几年来,努力向合并数据的另外来源已经被做,举例来说,使用者注解[6],与语意有关的分类[7,8].在[8] 的最近工作中, Ladicky 等人已经显示共同地表演深度判断和与语意有关的分类能有益彼此。然而,他们确实需要给-预先注解图像的与语意有关标签同样地面-事实的数据通常不是可得的。然而,这些方法使用手工艺特征。

不同的早先努力,我们计画制定深度判断为一个深的连续 CRF 学问问题,没有信赖在任何的之上几何学的居先也不任何的额外数据。有条件的任意田地 (CRF) [9] 是对结构化预测二手的流行的图解式的模型。当广泛有计划的时候在分类 (不连续的)领域中, CRF 已经是复原 (连续的)问题探究的比较少量。在连续的 CRF 上的先锋工作之一能被归因于[10] ,在那里它在文件取回中为全球的排名被计划。在特定的限制之下,分割功能可能是分析地时,他们能直接地解决最大的可能性最佳化计算。之后,连续的 CRF 举例来说已经被申请解决各种不同的结构化复原问题遥远的测知[11,12], 图像 denoising [12].根据这些成功给与动机,我们在这里计画使用它作为深度判断,被给深度价值的连续性质,而且在一个深的 convolutional 类神经网路 (CNN)中学习潜在的功能。

最近的年已经目击深 convolutional 类神经网路 (CNN)的繁荣。CNN 特征一直为各式各样的视觉申请[13] 设定新的记录。尽管所有的成功分类问题,深的 CNN 已经更少被为结构化学问问题探究,也就是,关节深 CNN 的训练和一个图解式的模型,是一相对地新的而且不是处理良好的问题。对我们的知识,没有如此的模型已经成功地作为深度判断。我们在这里藉由共同地探究 CNN 消弭这一个缝隙和连续的 CRF。

要总结,我们强调这一个工作是追从的主要贡

献:

?我们藉由探究 CNN 为深度判断计画深的 convolutional 神经的田地模型和连续的 CRF。如有深度价值的连续性质,在可能性密度功能的分割功能可能是分析地计算,因此我们能直接地解决没有任何的近似值的记录-可能性的最佳化。倾斜度能完全地在后面的增殖训练被计算。而且,解决预测新图像的深度的地图问题非常有效率自从关闭了形式解决存在。

?我们共同地学习那一元的和成对地在一个被统一的深的 CNN 结构,使用背面增殖被训练中的 CRF 的潜能。

?我们示范,被提议的方法赢过深度判断对户内、户外的现场数据组的最新颖结果。

2.相关的工作

之前的作品[7,14,15] 典型地制定深度判断为 Markov 任意的田地 (MRF)学问问题。当做精确的 MRF 学问而且推论大体上是不听话的,这些方法的大部分举例来说使用近似值方法多有条件的学问 (MCL), 粒子信念增殖 (PBP).预测新图像的深度是无效率的,拿 4 左右-5 年代在[15] 中和更长的 (30 年代)在[7] 中.要让事物变成更坏,这些方法预先受苦于可得的在[14,15] 图像仰赖水平对准,而且[7] 需要训练数据的与语意有关的分类柔性的缺乏。最近更常, Liu 等人[16] 举例来说计画一个不连续-连续的 CRF 模型考虑毗连的 superpixels 之間的关系闭塞。他们也需要使用近似值方法作为学问和地图推论。此外,他们的方法仰赖图像取回获得合理的设定初值。相反地,我们在这里呈现一个深的连续 CRF 模型在哪一个分割功能可能是分析地时,我们能直接地解决没有任何的近似值的记录-可能性的最佳化计算。预测新图像的深度自从非常有效率后

2

关闭形式解决存在。而且,我们的模型不注射任何的几何学的居先也不任何的额外数据。

另一方面,早先的方法[5,7,8,15,16] 全部在他们的工作中使用手工艺特征,举例来说, texton,要点,筛撒, PHOG 、物体银行,差别的等等,我们学习构造的深的 CNN 一元的和成对地潜能 ofCRF。藉由共同地探究 CNN 和连续的 CRF 的能力,我们的方法在户内、户外的现场深度判断上赢过最新颖的方法。也许最相关的工作是[1] 的最近工作,在这里是对我们的工作的并发事件。他们为深度地图一个图像的预测训练二个 CNN 。然而,我们的方法忍受可观的不同从他们的。他们藉由直接地经过回旋退回一个输入图像的深度地图以 CNN 作为一个黑盒子。在差别中,我们使用 CRF 明确地做模型附近 superpixels 的关系,而且在一个被统一的 CNN 结构中学习潜能。在[1] 的方法的一个潜在不利点是适合特定的地面区划的它容易用位置偏爱,倾向于学习深度。这部分解释他们为什么

必须收集很多的被贴上标签的数据包括教育的所有的可能地面区划网络 (他们收集额外的训练使用深度感应器的图像) ,在如[1] 所报告的数百万中。相反地,我们不改为暗码 superpixel 坐标进入一元的潜能,而且能在标准的数据组上训练拿表现给 competetive 时,我们的方法享受翻译不变性不使用另外的训练数据。此外,[1] 的被预测的深度地图用一些边缘区域是 1|4_ 最初输入图像的决议失去的,当我们的方法没有这限制的时候。

在[17] 的最近工作中, Tompson 等人因为共同地为人类姿势判断教育一个深的 CNN 和 MRF 呈现混合的建筑学。他们首先分开地训练一个一元的期限和一个空间的模型,然后当一个微调行走,共同地学习他们。在整个模型的微调期间,他们只是除去可能性的分割功能有一个宽松的近似值。在差别中,我们的模型运行连续的变数预测。分割功能是 integrable 而且可能是分析地时,没有使用近似值,我们能直接地解决记录-可能性的最佳化计算。而且,在预测期间,我们已经关闭-形式为地图推论的解决。

3.深的 convolutional 神经的田地

我们为这一个区段的深度判断我们的深 convolutional 神经的田地模型呈现细节。除非另外决定了的,我们使用厚颜的大写字母的和小写字母指示矩阵和专栏分别地的矢量。

3.1.概观

这里的目标将推论出在描述一般的现场的一个图像中的每个图素的深度。在工作之后

[7,15,16] ,我们使通常的假定成为一个图像由小均一的区域 (superpixels)组成而且考虑在 superpixels 上被定义的节是镇静的图解式的模型。能处理图素或 superpixels ,亲切地注意,我们的结构是有柔性的。每 superpixel 因它的图心的深度而描写。被让的 x 是一个图像和 y = [yi,.。。, yn]T e Rn 是符合至在 x 中的所有 n superpixels 的一个连续深度价值的矢量。类似传统的 CRF ,我们做模型数据的条件概率分配有下列的密度功能:

Pr (y│x)= Z (X)exp(-E (y,x)),(1)

在 E 是能源功能的地方;Z 是被定义的分割功能当做:

Z (x)= f exp{-E(y, x)}dy。(2)

jy

在这里,因为 y 是连续的,在情绪商数的整体。(1) 可能是分析地在某种情况下计算,我们将会在 3.3 段表示哪一个.这不同于不连续的情形,在哪一个要应用的近似值方法需要。要预测新图像的深度,我们解决最大值一个 posteriori(地图)推论问题:

y* = argmaxPr(y│x).(3)

y

我们制定能源功能为一个一元潜能 U 的典型组合和成对地潜能在节 (superpixels) N 上的 V 和图像 x 的边缘 S:

E (y, x)= U + V. (yp 、 yq, x)(4) 钢笔(p,q)es

一元的期限 U

打算退回 superpixel 的深度价值。那成对地期限 V 用相似的外表鼓励附近的 superpixels 采取相似的深度。我们打算共同地在一个被统一的 CNN 结构中学习 U 和 V 。

在图 1 ,我们为深度判断我们的深 convolutional 神经的田地模型表示素描。因为我们能见到,整个的网络由一元部份组成,一成对地部份地和 CRF 损失层。对于一个输入图像,已经进入 n superpixles 之内结束分割的,我们考虑在每 superpxiel 图心的周围被集中的图像片。一元的部份然后拿所有的图像片为输入和一个 CNN 方面的饲养他们每一个和输出 n-dimentional 的矢量包含退回深度 n superpixels 的价值。给一元的部份网络用图 2 的细节由 5 convolutional 和 4 完全连接的层组成。亲切地注意, CNN 叁数横过所有的 superpixels 被分享。那成对地部份地拿类似矢量(每个

3

输入图像 x

│;?S

Supperpixel 图像片

被分享的网络叁数 6(unaiy)

被预测的深度映射 y

附近的 superpixel

5 conv+4 fc

5 conv+4 fc

5 conv+4 fc

o(J <hT ■|■....Kx11 fc1 x 1^

Kx11 x 1



1 fc

Kx11 x 1



1 fc



被分享的网络叁数│3(成对地)

y* = argmaxPr (y│x)

否定的记录-可能性:-logPr (y│x)= -记录

哪里 xi

exp{-_E(y,x)},

CRF 损失层

图 1:为深度判断的我们的深 convolutional 神经的田地模型的例证。输入图像是第一的在-之上进入 superpixels 之内分割。在一元的部份中,为 superpixel p ,我们收割图像片在它的图心的周围集中了,然后对由 5 convolutional 和 4 完全连接的层组成的一个 CNN 再按规定尺寸制作并且喂它. (细节提及图 2)在那成对地部份地,为一双附近的 superpixels(p,q),我们视 K 为类似的类型,而且喂他们进入完全连接的层。一元部份的输出和那成对地然后部份地被喂到 CRF 结构化损失层,将否定的记录-可能性减到最少。预测新图像 x 的深度将取条件概率 Pr(y│x),已经关闭最大值-形式解决. (为细节见到 3.3 段)

224

224

4096128161

11 x 11 conv ReLU 2 x 2 告发

3 x 3 conv 1" ReLU

2 x 2 告发2 x 2 告发

图 2:在图 1 的一元部份的详细网络建筑学.

fc

ReLU

fc ReLU

fc

fc

后勤

1 x 1

224 x 224

224 x 224

1 x 1

1 x 1

224 x 224

藉由 K 成份)所有附近的 superpixel 双,当做输入和完全连接的层 (叁数在不同的双之中被分享)方面的饲养他们每一个,然后输出一个为每附近 superpixel 包含所有的单一 dimentional 的类似的矢量成对。CRF 损失层当做输入输出拿从那一元的和那成对地分开将否定的记录-可能性减到最少。在[1] 中与直接的复原方法相较,我们的模型持有二个潜在的利益:1)我们构

造 superpixel 同等的人物是不顾的一元的潜能时,我们达成翻译不变性; (在 3.2 段显示)2)我们明确地成对地穿越做模型附近 superpixels 的关系潜能。

在下列各项中,我们描述潜在功能的细节涉入情绪商数的能源功能。(4).

3.2.潜能动作

一元的潜能一元的潜能藉由考虑最没有正直的损失由 CNN 的输出构成:

u (Vp, x; 0)= (yp - zp(0))2, Vp = 1,.。。,n。⑶

Zp 在这里被 CNN 叁数 0 用参数表示的 superpixel p 的被退回的深度.

对于一元的部份网络建筑学在图 2 被描述。在图 2 的我们的 CNN 模型主要地用修正以 Krizhevsky 等人[18] 的众所周知网络建筑学为基础。它由 5 convolutional 层组成,而且 4 完全连接了层。输入图像是第一的进入 superpixels 之内的 oversegmented,然后为每 superpixel ,我们考虑图像片在它的图心的周围集中。每图像片被再按规定尺寸制作到 224 x 224个图素然后喂到 convolutional 类神经网路。注意骗局-

4

volutional 和完全连接的层横过不同 superpixels 的所有的图像片被分享。activiation 为这五 convolutional 层动作时,被订正的线的单位 (ReLU)被用和第一个二完全连接层。对于第三完全连接的层, activiation 动作时,我们使用后勤功能 (f(x) + 。那最后完全连接的层担任样板全体的角色有没有 activiation 功能跟随。输出是 superpixel 的单一 dimentional 的真正-尊贵的深度。

成对地潜在的我们构造那成对地类似观察的 K 类型的潜能,每个哪一个藉由开发一致性附近 superpixels 的数据运行柔滑:

V(yp yq,x;卢)=2Rpq (yp - ),Vp,q =工,。。。,n。(6)

Rm 在这里网络的输出在那成对地部份地 (见到图 1) 从附近的 superpixel 成对. (p, q)我们在这里使用完全连接的层:

K

Rpq =少[ spq},.。。,spk)r = ^hspq), (7)

哪里 S (k)元素是 sPq 的 k-th 的类似点阵式是);(S ⑷是对称的)卢=[卢 i,.。。,Pk]T 是网络叁数。从情绪商数。(7), 我们能见到,我们不使用任何的 activiation 功能。然而,当做我们的结构一般又比较复杂网络能无缝地被吸收为那成对地部份地。在 Sec.3.3 ,我们将会表示,我们能源自有关于向计算倾斜度的一种一般的形式。(见到情绪商数 .(16))保证 Z(x)(情绪商数 .(2)) 是 integrable ,我们需要尽 k > 0[10].

我们考虑成对地类似的 3 类型,因彩色不同而测量,彩色柱状图不同和当地二进位的式样 (LBP) [19] 的期限上的质地不同,采取传统的形式:S^q)= 电子 724)-si )ll,k = 1,2,3, 哪里 sPk), sf)是 obser-

superpixel p 的 vation 价值, q 从颜色、彩色柱状图和 LBP 计算;││││指示矢量的£ 2 元的基准和 7 是一

个常数。

3.3.学问

与那一元的和那成对地 pontentials 在情绪商数定义。(5), (6), 我们现在能写能源功能当做:

E (y,x)= J3(yp- zp)十 53枝钢笔(p,q)es

2Rpq(yp -yq) .(8)

因为表达的安逸,我们介绍下列的记号法:

一=我十 D - R,

(9)

在我是 n x n 恒等矩阵的地方;R 是 Rpq 是镇静的点阵式;D 是与 Dpp = q Rpq 的一个对角线的点阵式。扩张情绪商数。(8), 我们有:

E (y, x)= yT 赞成票-2 zTy 十 zTz。

(10)

由于 y 的二次期限在能源中在情绪商数动作。(10) 和积极明确一,我们能分析地在分割功能 (情绪商数 .(2)) 中计算整体当做:

z (x)

exp{-E(y, x)}dy

(n) n │Ap

exp

p{zT 一 -1 z} -zT

z。

(11)

从情绪商数。(1), (10), (11), 我们现在能写可能性分配功能当做: (见到补足的为细节)

Pr (y│x)

JA!

丌”2

exp ^ -y 赞成票十 2 z y -:

(12)

哪里 z = [zi,.。。, zn]T;│一│指示点阵式 A 的决定因素、和一 -1 A. 的相反的然后否定的记录-可能性能被写当做:

-logPr (y│x)= yTAy -2 zTy 十 zT 一 -1 z(13)1 n -2 记录(|一│) 十 2 伐木 (n).

在学问期间,我们将训练数据的否定有条件记录-可能性减到最少。把规则化加入 0,卢,我们然后达成最后的最佳化:

N

最小-^logPr(y (i)│ x

?(i).

(14)

第一十 y 0|2 十令 2 邮,

哪里 x (i), y (i)指示 i-th 的训练图像和对应的深度地图;N 是教育图像的数字;一 1 和一 2 是重量衰退叁数。我们使用随机程序倾斜度降落 (SGD)基础的后面增殖在情绪商数解决最佳化问题。(14) 因为获悉整个网络的所有叁数。我们计画对能实行的组解决办法当被跳跃的限制尽 k > 0 被违犯。在下列各项中,我们计算部分引出之物-记录 Pr(y│x)有关于网络叁数 61(一种 0 元素) 和 Pk (卢)的一种元素按照使用链规则: (提及补足的为细节)

d{-logPr (y│x)}d{-logPr (y│x)}

dPk

2(一 -1 z - y)

=y 1 Jy -z 1 一-

-iTr (一-

-dz d6i,

1 JA-1 z

(15)

(16)

y

1

z

5

哪里 Tr (.)指示点阵式的痕迹;J 是与元素的一个 n x n 点阵式:

Jpq =-意+ s(p =q) ^, (17)

哪里 3(.)isthe 指示器功能,如果 p = q 是真实的,等于 1 和 0 另外。从情绪商数。(17), 我们能见到,我们的结构是一般、更多的复杂网络为那成对地部份地可能是无缝地吸收。在这里,在我们的情况,藉由情绪商数的 Rpq 的定义。(7), 我们有

dRpq =s (k)

= Spq 。

深度预测预测,新图像的深度将解决在情绪商数中的地图推论。(3), 在关闭了解

决在这里存在的形式中: (细节提及补足的)

y* = argmaxPr (y│x)(18)

y

=argmax -yT 赞成票十 2 zT y y

=A 1 z。

如果我们丢弃那成对地期限,也就是 Rpq = 0, 然后情绪商数。(18) 对 y 退化* = z,是一个传统的复原模型. (我们将会报告这一个方法的结果为实验的一个基线)

3.4.落实细说

我们在有效率的 CNN 工具箱上实现网络训练基地:VLFeat MatConvNet1[20].训练用 6 亿位元组记忆在一个标准的桌面上被一个 NVIDIA GTX 780 图形处理器所做。在每 SGD 重复期间,在附近?700 superpixel 图像片需要被处理。6 亿位元组图形处理器可能不能够处理在一次的所有的图像片。我们因此连续地区分一个图像的 superpixel 图像片进入二个部份而且处理他们。处理一个图像拿大约 10 年代 (包括向前的而且向后的)与?700 superpixels 当教育整个的网络的时候。

在落实期间,我们设定在使用一个 CNN 模型的图 2 的一元部份的最初 6 层初值在[21] 的 ImageNet 上训练了.首先,我们不向后地藉由保存他们繁殖过早先者 6 层以下列的设定修理并且训练网络 (我们提到这一个程序为前火车)的其它部分:动力被设定成 0.9, 和重量衰退叁数 Ai,一 2 被设定成 0.0005.在前火车期间,学问率在 0.0001 点被设定初值, 和藉着 40% 每一 20个新纪元减少。我们然后跑 60个新纪元报告前火车的结果。(与学习被减少两次的比率)前火车相当有效率,拿在 1 小时左右训练在那之上使 3D立体成为数据组,而且推论出新图像的深度拿得比少。然后

1VLFeat MatConvNet:http :|| https://www.wendangku.net/doc/ba6330272.html,|matconvnet|

方法错误(比较低的比较好)准确性(比较高的比较好)

阻抗的单位记录 10rmsS < 1.25S< 1.252 S< 1.253

SVR0.3130.1281.0680.4900.7870.921

SVR (使)光滑0.2900.1160.9930.5140.8210.943

我们的(一元的唯一)0.2950.1170.9850.5160.8150.938

我们的(前火车)0.2570.1010.8430.5880.8680.961

我们的(罚款-歌曲)0.2300.0950.8240.6140.8830.971

表 2:在 NYU v 2 数据组上的基线比较。我们的方法用教育的整个的网络运行最好。

错误(Cl)错误(C2)

方法(比较低的比较好)(比较低的比较好)

阻抗的单位记录 10rms阻抗的单位记录 10rms

SVR0.4330.1588.930.4290.17015.29

SVR (使)光滑0.3800.1408.120.3840.15515.10

我们的(一元的唯一)0.3660.1378.630.3630.14814.41

我们的(前火车)0.3310.1278.820.3240.13413.29

我们的(罚款-歌曲)0.3140.1198.600.3070.12512.89

表 3:基线比较在那之上使 3D立体成为数据组。我们的方法用教育的整个的网络运行最好。

我们用相同的动力和重量衰退训练整个的网络。我们用第一二完全连接图 2 的层比 0.5 应用辍学生。

教育整个的网络在 16.5 小时左右拿在那之上使 3D立体成为数据组,和在 33 小时左右在 NYU v 2 数据组上。从头预测新图像的深度采取?1.1 年代。

4.实验

我们在线是可得的二个流行的数据组上评估:NYU v 2 Kinect 数据组[22] 和那使 3D立体排列图像数据组[15].一些措施普遍二手的为数量的评估在之前的作品中在这里被应用:

?平均比较的错误 (阻抗的单位):^|dpd 9|p│;

?根低劣的被一致的错误 (rms):|士 p(dpt - dp) 2;

?平均 logi 0个错误 (记录 10):

+第一 EP 盘 唱片 logi 0 dpt -logi 0 dP│;

?准确性用门槛 thr:

dp s.t 的百分比 (%)。:最大(,备)=S < thr;

在 dpt 和 dp 在被 p 编入索引的图素分别地是地面事实而且预测的深度的地方,而且 T 是在所有的被评估的图像中的图素的总数。

我们使用 SLIC [23] 分割图像进入一组非交叠处理的 superpixels 。对于每 superpixel ,我们考虑,一个矩形的盒子里面的图像集中在 superpixel 的图心,包含它的背景环境的大部分了。更明确,我们为 NYU v 2 和 120 x 120 图素使用 168 的盒子大小 x 168个图素为那使 3D立体成为数据组。在[1,7,15] 之后,我们把深度转变成记录-在训练之前依比例决定。关于基线比较,我们考虑下列的设定:

6

。M 2 mirn^

^HBl

m Ba M

jljd^iJU

在 NYUD2 数据组上的性质上比较的例子. (最好地在荧屏上看)我们的方法视觉上产生 bi

图 3:性质上比较预测的例子用较鲜明的转变,排列对当地的细节

方法错误(比较低的比较好)准确性(比较高的比较好)

阻抗的单位记录 10rms^ <1.256<1.2526<1.253

制造 3D立体[15]0.3491.2140.4470.7450.897

DepthTransfer [5]0.350.1311.2---

不连续-连续的 CRF [16]0.3350.1271.06---

Ladicky 等人[8]--0.5420.8290.941

Eigen 等人[1]0.2150.9070.6110.8870.971

我们的(前火车)0.2570.1010.8430.5880.8680.961

我们的(罚款-歌曲)0.2300.0950.8240.6140.8830.971

表 1:在 NYU v 2 数据组上的结果比较。我们的方法在大部份的情形下运行最好。亲切地注意,当我们的被获得使用的时候, Eigen 等人[1] 的结果藉由使用额外的训练数据 (在数百万中总计)被获得那标准训练组。

?SVR:我们使用图 2 的最初 6 层的 CNN 表现训练支持矢量 regressor;

?SVR: (使)光滑我们藉由在情绪商数解决推论问题在预测期间把一个柔滑期限加入被训练的 SVR 。(18).因为调音多样的成对地叁数不是笔直,我们只以彩色不同作为那成对地潜在的而且选择被设定的在确认上的手-调音的叁数尽;

?一元的唯一:我们代替 CRF 损失层在图 1 与最少-正方形的复原层 (藉由设定那成对

地输出 Rpq = 0, p, q = 1,...,n),对被 SGD 训练的一个深的复原模型退化。

4.1.NYU v 2:户内的现场重建

NYU v 2 数据组有 1449个户内现场的 RGBD 图像,其中 795 作为训练和 654 为测试(我们使用那标准训练│测试分离提供

藉由数据组).在[16] 之后,我们再按规定尺寸制作图像至 427 x 训练前的 561个图素。

对于一项我们的模型的详细分析,我们首先在表 2 与这三个基线方法相较而且报告结果。从桌子,一些结论能被做:1)当以只有一元的期限训练,较深的网络对较好的表现,被事实「我们的一元唯一的模型赢过 SVR 模型」示范有益;2)把柔滑期限加入 SVR 或我们的一元唯一的模型帮助改善预测准确性;3)我们的方法藉由共同地学习达成最好表现那一元的和那成对地在一个被统一的深的 CNN 结构中的叁数。而且,微调整个的网络生产量促进表现增益。这些很好地示范我们的模型的效能。

在表 1 ,我们把我们的模型与一些流行的最新颖的方法作比较。因为能被观察,我们的方法赢过第一流的方法同类制造 3D立体[15],

7

方法错误 (C1)(比较低的比较好)错误 (C2)(比较低的比较好)

阻抗的单位伐木 10 rms阻抗的单位伐木 10 rms

使 3D立体[15] 成为与语意有关的分类[7] DepthTransfer [5] 不连续-连续的 CRF [16]0.3550.1279.200.3350.1379.490.3700.187-0.3790.148-0.3610.14815.100.3380.13412.60

我们的 (前火车)我们的(罚款-歌曲)0.3310.1278.820.3140.1198.600.3240.13413.290.3070.12512.89

表 4:结果比较在那之上使 3D立体成为数据组。我们的方法运行最好。亲切地注意,不连续-连续 CRF [16] 的 C2 错误与一个特别后处理步骤一起报告。(火车一个分类者分类天空图素而且将对应的区域设定为最大的深度)

图 4:深度预测的例子在那之上使 3D立体成为数据组. (最好地在荧屏上看)一元的唯一模型提供相当粗糙的预测,藉由模糊的边界和片段。在差别中,我们的完整模型用成对地柔滑产生更好的预测。

用大的边缘 DepthTransfer [5]。最特别地,我们的结果显着地比[8],共同地开发深度判断和与语意有关的分类好。与 Eigen 等人[1] 的最近工作相较,我们的方法通常在标准上运行。我们的方法根据根获得显着比较好的结果低劣的正直 (rms)错误。亲切地注意,克服 overfit,他们[1] 必须收集数以百万计的另外的被贴上标签的图像训练他们的模型。一个可能的理由是他们的方法捕获绝对者

图素位置数据和他们或许需要非常大的训练组包括所有的可能图素地面区划。在差别中,我们只使用标准训练没有任何的额外数据设定 (795),然而我们达成类似或更好的表现。图 3 举

例说明被比较对抗 Eigen 等人[1] 的我们的方法的一些质的评监。 (我们下载作家的网站的[1] 的预测.)与[1] 的预测相较,我们的方法用较鲜明的转变产生更视觉上愉快预测,排列-

8

对当地的细节 ing。

4.2.制造 3D立体:户外的现场重建

那制造 3D立体数据组包含描述户外的现场的 534个图像。如在[15,16] 中指出,这一个数据组与限制:深度的最大价值是有遥远的物体的 81 m 是被映射到 81 公尺的这一距离的全部。作为治疗法,二标准被用于[16] 报告预测错误:(C1) 错误只在区域中被地面-事实的少于 70 公尺的深度所计算;(C2) 错误在整个的图像之上被计算。我们跟随这一个记录报告评估结果。

而且,我们第一个礼物在表 3 的基线比较, 从能被画当做在 NYU v 2 数据组中。和表 4 的一些最新颖的方法相比较,我们然后表示详细的结果。因为能被观察,我们的模型用教育的整个的网络排列全部的表现的第一,赢过大边缘的被比较的方法。亲切地注意,[16] 的 C2 错误与一个特别后加工步骤,训练一个分类者分类天空图素而且将对应的区域设定为最大的深度一起报告。在差别中,我们不使用那些启发之中的任何一个精炼我们的结果,然而我们根据比较的错误达成较好的结果。质的评监的一些例子在图 4 被显示。它被显示,我们的一元唯一的模型用模糊的边界提供相当粗糙的预测。藉由增加柔滑期限,我们的样板生产量更好的使看得见的,接近地面-事实。

5.结论

我们已经为一个图像的深度判断呈现深的 convolutional 神经的田地模型。被提议的方法在一个被统一的 CNN 结构中结合深 CNN 和连续的 CRF 的力量。我们表示没有任何的近似值使用背面增殖的被解决的在我们的方法的记录-可能性的最佳化可能是直接地必需的。藉由解决地图推论预测新图像的深度能有效率地当做关闭-形式解决被运行存在。如有我们的方法的一般学问结构,它举例来说也能被申请其他的视觉申请图像 denoising。实验的结果示范,被提议的方法在户内、户外的现场数据组上赢过最新颖的方法。

9

一。深的 Convolutional 神经的田地

在这一种附录中,我们表示关于被提议的深 convolutional 田地模型的一些技术上的细节。

被让的 x 是一个图像和 y = [y 1,.。。, yn]T e Rn bea 符合至在 x 中的所有 n superpixels 的连续深度价值的矢量。类似传统的 CRF ,我们做模型数据的条件概率分配有下列的密度功能:

Pr (y│x)= Z(~y exP{-E (y,x)},(a.1)

哪里 E 是能源功能和 Z(x)分割功能,分别地定义当做:

E (y,x)=〉:(yp - zp)十>:2Rpq(yp -yq) ,(A.2)


钢笔(p,q)eS

Z (x)= f exp{-E(y, x)}dy,(A.3)

y

在哪一个,

K

Rpq = E Pk Spq,(A.4)

k=1

在 z 是被用参数表示 0(即, z 是 z(0) 的缩写) 的被退回的深度的地方,向=[P1,.。。, Pk]那成对地叁数, S(k) k-th 的类似点阵式 (是对称的)和 K 成对地期限的数字考虑。保证 Z(x)(情绪商数 .(A.3)) 是 integrable, >0 被需要。我们打算共同地在这里学习 z(0) 和向。

藉由扩张情绪商数。(A.2), 我们然后有:

E (y,x)= E 4-2E ypzp 十 E zp 十 2 E Rpqyp - E 的 Rpqypyq 十 2^3 Rpqyq

ppppqpqpq

=yTy -2 zT y 十 zT z 十 yTDy - yTRy =yT(我十 D - R) y -2 zTy 十 zTz

=yTAy -2 zTy 十 zTz,(A.5)

哪里

一=我十 D - R。

(A.6)

在这里,我是 nxn 恒等矩阵;D 是与 Dpp = q Rpq 的一个对角线的点阵式。自从 Pk 以后> 0 被运行,一被确定确定明确的. (一是对称的,和严格对角的占优势与积极的对角线的进入)然后我们能对高斯整体公式根据计算分割功能当做:

Z (x)= exp -E (y, x)dy

赞成票十 2 zTy -zT z ]?dy 赞成票十 2 zT y ]?dy - zT z

exp -yT

;y

exp -yT

y

r?T 一 -1

│2 一│

exp{zT 一 -1 z} -zT z

(n)!exp{zT 一 -1 z} -zTz,(A.7)

│一│1

10

哪里│一│指示点阵式 A 的决定因素、和一 -1 情绪商数的 A. 的相反的。(A.1), (A.5), (A.7), 我们能写可能性密度功能当做:

exp ] -E (y, x)\

Pr (y│x)=--1^(x)--(A.8)

exp { -yTAy+2 zT y -z 的丁 z │exp{ zT 一 -1 z} -zTz

│一│2

=exp f - yTAy+2 zTy -zT 一 -1^.n 2L)

依照情绪商数。(A.8), 然后我们能重写否定的记录-可能性-记录的 Pr(y│x)当做:

-记录 Pr(y│x) = y 丁赞成票-2 zTy 十 zT 一 -1 z --记录(|一│)十-伐木 (n).

2

2

(A.9)

在学问中,我们将训练数据的否定有条件记录-可能性减到最少。把规则化加入 0,卢,我们然后达成最后的最佳化:

N

o,0>n

2

2

(A.10)

哪里 x (i), y (i)指示 i-th 的训练图像和对应的深度地图;N 是教育图像的数字;一 1 和一 2 是重量衰退叁数。

对于一元的部份,在这里我们计算部分引出之物-记录 Pr(y│x)有关于的(网络叁数 0 的一种元素为一元的部份).取消哪一一=我十 D - R(情绪商数 .(A.6)), 丁=一 ,(一 -1) T =A-1 , |A-1|= 击,我们有:

d{-伐木 Pr (y│x)}d{ -2 zTy 十 zT 一 -1 z}

30 i

30 i

d{-2 zTy }十 d{ zTA-1 z}

dOi

dOi

2 d{p zpyp} ,

dOi

-2 E

yp

十dOi

十 E(对十 zq 翁的 zp

pq

2(一 -1 z - y)

dz

dOi。

下一个,为那成对地部份地,我们计算部分引出之

物-记录 Pr(y│x)有关于尽 k 当做:

d{-logPr(y│x)}-d{yTAy 十 zTA-1 z -2 记录(|一│)}

dpk

dpk

d{yT 赞成票} d { zT 一 -1 z} 1 d 记录(|一│)

dpk 十 dpk2 dpk ,

T 5 A

y y-:

opk -r 的 dA

y TT5" y -;

dPk

1

!丄 d {|一│}

2|一│ Bpk ’ d A

d^k-

2

(A.11)

(A.12)

11

我们在这里介绍点阵式 J 指示 ddA 。J 的每种元素是:

dApq

dpk

d {Dpq - Rpq }

dpk

dD

pq

或,

pq

dpk dpk

f 3Rpq 十 5(p =q) E dRpq

dpk

q

dpk

(A.13)

哪里 5()是指示器功能,如果 p = q 是真实的,等于 1 和 0 另外。从情绪商数。(A.12), 情绪商数。(A.13), 我们能见到,我们的结构是一般又因此比较复杂的网络为那成对地部份地可能是无缝地吸收。在这里,在我们的情况,藉由情绪商数的 Rpq 的定义。(A.4), 我们有=Sp^.

依照情绪商数。(A.12) 和 J 的定义在 (A.13), 我们现在能写是引出的部份-记录 Pr(y│x)有关于 Pk 当做:

d{-logPr(y│x)}-t-1

dpk

y

Jy -zT 一 -1 JA-1 z --Tr (一”

1J

(A.14)

深度预测预测,新图像的深度将解决地图推论。因为情绪商数的二次形式的 y。(A.9), 关闭形式解决存在: (细节提及补足的)

y* = argmax Pr(y│x) y

=argmax 伐木 Pr(y │x) y

=argmax -yT 的赞成票十 2 zT y。(A.15)

藉由定义一在情绪商数。(A.6), 一是对称的。藉由设定是引出的部份然后-yTAy 十对 y 的 2 有尊敬的 zT y 至 0(0 用所有的元素是 annx 1个列向量在 0) ,我们有

d{-yTAy 十办丁 y}=。

d y

今 -(十在)y 十尨=0^-2 赞成票十 2 z = 0 今 y =A-1z。

现在我们能为情绪商数的地图推论写解决。(A.15) 当做:

(A.16)

y

一 -1 z

(A.17)

B。实验

要表示 superpixel 数字如何影响我们的模型的表现,我们增加实验评估根低劣的正方形 (rms)错误和我们的前火车模型的训练时间在那之上每一图像根据不同 superpixel 数字使 3D立体成为数据组。图 5 表示结果。因为我们能见到,每一图像增加 supperpixel 的数字在 rms 错误中产生比较远的减少,但是以较多的训练时间为代价。我们使用?每图像 700 superpixels 在这纸的所有其他的实验方面,藉由增加它因此,我们能期待较好的结果。

pq

y

12

13

020040060080010001200020040060080010001200

superpixels 的数字每一图像superpixels 的数字每一图像

图 5:左边:根低劣的正方形 (C2 rms)错误和不同 superpixel 数字比较在那之上使 3D立体成为数据组。权利:每一图像的训练时间和不同 superpixel 数字比较在那之上使 3D立体成为数据组。清楚地,每一图像增加 supperpixels 的数字,我们能

更进一步除了改善结果以较多的训练时间为代价。

SJOJJa)(gEJ)inbs 使用 iooy

13

叁考

[1]D. Eigen 、 C. Puhrsch 和 R. Fergus,在 Proc 的 "一个图像的深度地图预测使用多刻度深的网络, "。Adv。神经的 Inf。程序。Syst。, 2014.

[2]V. Hedau 、 D. Hoiem 和 D. A. Forsyth,”在盒子内的思考:使用外表模型和以房间几何学为基础的背景,”在 Proc。Eur。Conf。排字工人。Vis。, 2010.

[3]D. C. 李、 A. Gupta 、 M. Hebert 和 T. Kanade,在 Proc"使用关于物体的测定体积的推论和表面估计房间的空间地面区划, "。Adv。神经的 Inf。程序。Syst。, 2010.

[4]A. Gupta 、 A. A. Efros 和 M. Hebert,”再访的区段世界:图像理解使用性质上的几何学和技巧,”在 Proc。Eur。Conf。排字工人。Vis。, 2010.

[5]K. Karsch 、 C. Liu 和 S. B. 炕,”Depthtransfer:影像的深度抽出使用非参数的抽取样品的,” IEEE Trans。式样肛门的。Mach。Intell。, 2014.

[6]B. C. 罗素和 A. Torralba,在 Proc"建筑使用者注解的一个 3D立体现场的数据库, "。IEEE Conf。排字工人。Vis。Patt。Recogn。, 2009.

[7]B. Liu 、 S. Gould 和 D. Koller ,在 Proc"从预测与语意有关的标签选出图像深度判断, " 。IEEE Conf。排字工人。Vis。Patt。Recogn。, 2010.

[8]L. Ladick 、 J. Shi 和 M. Pollefeys,在 Proc"把事物从远景拉出来, "。IEEE Conf。排字工人。Vis。Patt。Recogn。, 2014.

[9]J. D. Lafferty 、 A. McCallum 和 F. C. N. 佩雷拉,”有条件的随意回答:盖然性的模型为分段而且分类序列数据,”在 Proc。Int。Conf。Mach。获悉。, 2001.

[10]T. Qin,T。-Y. Liu,X。-D. Zhang,D。-S. 王、和 H. 李,在 Proc , "使用连续的有条件的随意的全球的排名回答, " 。Adv。神经的 Inf。程序。Syst。, 2008.

[11]V. Radosavljevic 、 S. Vucetic 和 Z. Obradovic,在 Proc , "连续的有条件的随意在遥远的测知中为复原回答, " 。Eur。Conf。人造的 Intell。, 2010.

[12]K. Ristovski 、 V. Radosavljevic 、 S. Vucetic 和 Z. Obradovic, "连续的有条件的随意田地为有效率的复原大致上完全连接曲线图, " 在 Proc。国立 Conf。人造的 Intell。, 2013.

[13]A. 圣族后裔 Razavian 、 H. Azizpour 、 J. Sullivan 和 S. Carlsson,”CNN 以现货产品为特色:一个令人惊骇的基线为承认,”在工作室 IEEE Conf。排字工人。Vis。Patt。Recogn。, 2014 年六月.

[14]A. Saxena 、 S. H. Chung 和 A. Y. Ng , " 单一单眼的图像的学问深度 ",在 Proc。Adv。神经的 Inf。程序。Syst。, 2005.

[15]A. Saxena 、 M. 太阳和 A. Y. Ng,”制造 3D立体:学问 3D立体现场结构从一仍然描绘,” IEEE Trans。式样肛门的。Mach。Intell。, 2009.

[16]M. Liu 、 M. Salzmann 和 X

. 他, " 一个图像的不连续-连续的深度判断 ",在 Proc。IEEE Conf。排字工人。Vis。Patt。Recogn。, 2014.

[17]J. Tompson 、 A. Jain 、 Y. LeCun 和 C. Bregler ,在 Proc"关节 convolutional 网络的训练和人类的一个图解式的模型姿势判断, " 。Adv。神经的 Inf。程序。Syst。, 2014.

[18]A. Krizhevsky 、 I. Sutskever 和 G. E. Hinton,在 Proc 的 "ImageNet 分类用深的 convolutional 类神经网路, "。Adv。神经的 Inf。程序。Syst。, 2012.

[19]T. Ojala 、 M. Pietikainen 和 D. Harwood,在 Proc 的 "表现质地措施的评估用以分配的 kullback 差别为基础的分类, "。Int。Conf。式样承认, 1994.

[20]A. Vedaldi , " MatConvNet",http :|| https://www.wendangku.net/doc/ba6330272.html,|matconvnet|, 2013.

[21]K. Chatfield 、 K. Simonyan 、 A. Vedaldi 和 A. Zisserman,”细节的魔鬼的回返:探究深处进入 convolutional 网,”在 Proc。英国 Mach。视觉 Conf。, 2014.

[22]P. K. 内森 Silberman ,德里克 Hoiem 和 R. Fergus , " 户内的分割和 rgbd 图像的支持推论 ",在 Proc。Eur。Conf。排字工人。Vis。, 2012.

[23]R. Achanta 、 A. Shaji 、 K. 史密斯、 A. Lucchi 、 P. Fua 和 S. Siisstrunk, "SLIC superpixels 与最新颖的 superpixel 方法相较, " IEEE Trans。式样肛门的。Mach。Intell。, 2012.

14

相关文档
相关文档 最新文档