文档库 最新最全的文档下载
当前位置:文档库 › 基于混合深度卷积神经网络的卫星图像车辆检测

基于混合深度卷积神经网络的卫星图像车辆检测

基于混合深度卷积神经网络的卫星图像车辆检测
基于混合深度卷积神经网络的卫星图像车辆检测

基于混合深度卷积神经网络的卫星图像车辆检测

摘要—在卫星图像中检测像车辆一样的小目标是很困难的,在大多数如道路一样简单的环境中,已经采用很多特征(例如:方向梯度直方图、局部二值模式、尺度不变特征变换等)提高目标检测的效果。Kembhavi 等人提出在像旧金山一样的复杂环境中检测目标很难取得令人满意的准确度。深度卷积神经网络(DNNs )可以自动地从训练数据中学习到丰富的特征,并且已经在许多图像分类数据集上取得了目前最优的效果。尽管深度卷积神经网络对失真有很好的鲁棒性,但因为它仅仅从相同的尺度中提取特征,因此它并不适用于目标的大尺度变化。在本文中,我们提出了混合深度卷积神经网络(HDNN ),该算法通过将DNN 的最后卷积层和最大池化层的映射分成多个可变感受野和最大降采样域的模块,使得HDNN 能够提取可变尺度特征。实验结果表明,与传统的DNN 相比,本文所提出的HDNN 能够在车辆检测上取得更好的效果。

索引词汇—深度卷积神经网络(DNNs ),混合深度卷积神经网络(HDNNs ),遥感,车辆检测。

I. 引言

在高分辨率的卫星图像中检测车辆在军事、国土监测、交通规划和只能交通导航系统中有广泛的应用。在参考文献[1]—[7]中,已经完成了车辆检测的很多工作,但是仍然存在着具有高挑战性的难题。

目标检测的效果取决于从目标中提取的特征。Zhao and Nevatia [1]将车身的几何边界、前挡风玻璃和贝叶斯网络中的阴影相结合。Eikvil 等人[2]将几何形状特性、灰度特征和Hu 矩相结合来检测高分辨率卫星图像中的车辆。Dalal and Triggs [15]提出使用方向梯度直方图(HOGs )和用于分类的线性支持向量机(SVM )。他们显示出了基于梯度特征的优越性,并做出较好的目标检测效果。之后,许多利用HOG 的变量进行车辆检测的方法和不同的分类器被提出。

图1.深度卷积神经网络的例子,其中3=l n ,

3M 中的映射的大小是7794?,

28 。

每个像素点的特征尺度为28

Liang等人[3] 用一个多核函数SVM(MKL_SVM)将HOG和Haar小波特征相结合,MKL_SVM是标准SVM的扩展,它是在标准SVM中多个有不同参数的核函数被训练并被线性组合。但是,KKL-SVM因为比SVM的训练需要更多的时间,因此它并不适用于大规模的数据集。Grabner等人[5]利用Adaboost分类器将HOG、Haar小波和局部二元模式进行整合。Sun等人[8]也利用Adaboost算法将多个特征进行结合。Kembhavi等人[5]从原始图像、六色概率图和两对像元图中提取了多尺度HOG特征,他们采用偏最小二乘法对特征进行降维。Ali等人[6]利用Adaboost分类器设计了姿态索引的特征。包括目标种类的关键点和嵌入式分类语义在内的更多特征被用于普通的目标识别种类中来。

上述所有方法都是基于人为设置的特征,而这些特征在不考虑实际数据的细节时是不能达到可分辨性和鲁棒性之间的最佳平衡。一个可行的方法是从训练数据集中自动的学习大量的特征。深度卷积神经网络(DNN)[10]是一种特征学习的算法,其在许多目标识别中运用的效果良好,其运用了卷基层和最大池化层,隐含层和输出层将提取出来的特征结合起来进行分类。

DNN的层可以分成两部分。一部分是特征提取器,它们可以利用卷积层和最大池化层分层地提取特征;另一部是多层感知分类器(MLP),它们又由隐含层和输出层构成,通过提取出来的特征将数据分类。

DNN的每一个卷积层利用滑频滤波器作用在前层(输入层或最大池化层)映射中的局部感受野生成特征映射,映射的大小逐层减低,提取出来的特征越来越复杂且具有全局性。

和传统的卷积神经网络相比(CNNs)(只有不超过6层),DNN更具深度(6-10层)且更宽泛(40-400个映射),DNN包含的模板(滤波器)越多,它能检测到越多的目标形状变形体。

“感受野”(滤波器的定义域)的概念源于Hubel and Wiesel对猫纹皮质的研究。Fukushima[12]最先提出了最大池化层的概念。CNN的常规结构是由LeCun等人[13]提出的,他们最先使用了“卷积层”的概念。最近,Ciresan[10]等人日出了DNNs的结构,其在包括MSIST(手写数字)、NIST SD-19、手写汉字、交通标志、CIFAR10,和NORB在内的六个基准图像分类数据集上达到了目前最优的效果,其在MNIST和交通标志上的效果要优于人类行为。

很长时间以来,我们已经成功地将卷积神经网络运用于目标识别。Garcia and Delakis[14]在CMU和MIT测试集中使用了六层的卷积神经网络,虽然深度卷积神经网络有已然被证明的优越性,它的每一个卷积层只能提取相同尺度的特征,这就限制其不能再多尺度目标上应用。但是即使对相同尺度的目标来说,多尺度的特征对分类也是有益的,因为多尺度的特征可以提高特征空间的独立性,基于此,我们提出了用于车辆检测的混合DNN(HDNN),它能够在最高的卷积层提取多尺度特征,实验结果也表明在车辆检测时,这种多尺度结构效果很好。

Ⅱ.HDNN结构

我们首先讨论DNN的结构,我们对“特征尺度”进行一个严格的定义,推导出DNN只提取相同尺度特征的命题,然后,我们表明,HDNN模块可以提取多尺度特征。最后,我们解释一下,为什么HDNN模块只包含最高卷积层和最大池

化层。

A.DNN 结构

DNN 层可以分成特征为一个提取器和MLP 分类器两部分,设m n 为

卷积层的个数,m n 为一个卷积层中映射的个数 ,为方便起见,我们构造的所有

卷积层中映射的个数相同,用l n C C ,..,1表示DNN 中的卷积层,用l n M M , (1)

示DNN 中最大池化层。所有的卷积层和最大池化层构成了DNN 的特征提取器,

l n M 输出提取的特征,然后传送到MLP 分类器。

MLP 包括隐含层和输出层,其输出值转换成输出图像(如图1中的右图),其中像素的亮度表示检测到车辆的可能性。使用正切函数作为DNN 中所有节点的核函数。

图1表示了DNN 的一个例子。卷积层映射是由滤波器在上一层中逐像素滑动所决定,最大池化层映射是由最大池函数在上一层的卷积层的非重叠的最大池化域滑动所确定的。最大池函数通过“赢者通吃”原则来降低映射大小、增强移不变特性和抗噪能力。

定义1:DNN 的一个节点(像素)的源域包含输入图像中其所有相关像素。 定义2:DNN 的一个节点(像素)的特征尺度是其可能源域的最大尺度。 图1中,

3M 中的所有像素都经过了三个滤波器:1C 中的77?的,2C 中的44?的,3C 中的44?的,利用简单的运算(

2862)324(=+?+?)得出其最大源域的面积为2828?。因为它也经过了三个最大池函数,所以我们并不知道其确切的源域面积(其变化范围为2222?到2828?)。

命题1:DNN 只提取相同尺度的特征。

B.HDNN 结构

不同于DNN ,HDNN 的{l M n n ,C l }被分成b n 个模块:{b n B B ,...,1},

每个模块有一个不同的滤波器大小或最大池域大小。

图2是HDNN 的例子,{33,C M }分成三块:{321,,B B B }。1B 中3M 的所有像素

都经过了三个滤波器:1C 中的77?的,2C 中的44?的,3C 中的44?的,它们

的特征尺度为2828?。3B 有一个不同的滤波器尺寸:3C 中的66?,利用简单

的运算(

3662)326(=+?+?)得出3B 的特征尺度为:3636?。这样,HDNN

可以提取两种尺度的特征:2828?和3636?。

当3n b =时,我们将HDNN(321n n -n -)定义为1B 有1n 个映射,2B 有2n 个映射,3B 有3n 个映射的HDNN ,HDNN 的训练细节见补充材料。

C.为何HDNN 块只包含最高卷积层和最大池化层

设),(C l i y x 是l C 的第i 个映射的像素(x,y )的值,1

-l j M 表示1-l M 的第j

个映射,l ij filter 表示将l i C 连接到1-l j M 的滤波器。l i C 的所有滤波器有相同的大小:H L ?。l i b 是l

i C 的偏差。对于DNN 和HDNN ,都有: ))),(),(((tanh ),(C 110101l

i ∑??

=---+++?=m n j l i L H l j l ij b dudv y u x u M v u filter y x (1)

其中m l n i n l ,...,1,,...,2==。式(1)表明1-l M 中的映射有相同的大小,否

则,所有滤波器卷积结果的和将不和实现。

从1-l j M 的相同尺寸中,我们可以推测出所有的1-l j C 有相同的映射尺寸等,这

就意味着,1-l C 的所有映射有相同的映射大小和滤波器大小,1-l M 的所有映射有

相同的映射大小和最大池域大小,其中l n l ,...,2=。这就是为什么HDNN 的块仅包含l n C 和l n M 。

还有一些其他的方法将多尺度特征引入到DNN 中,一种方法是将从两个或更

多个最大池化层中提取出的结果直接应用到MLP 分类器;另一种方法是忽略l C 层

和1-l M 层间的全部连接。相比之下,以第一种方式构造的DNN 结构非常简单,但是,这样的DNN 在节点之间可能是非对称连接,这种DNN 中的不对称性将增大计算量;当用第二种方法时,当减小滤波器的总量时,DNN 的效果可能会被削弱。

III.实现细节

本章中,我们先介绍用于目标边缘提取中的多梯度,然后介绍用于车辆定位的滑动窗,最后介绍用于实验的HDNN 结构。

多梯度图像

我们依靠边缘信息来给车辆定位。Dalal 和Triggs[15]提出了一种基于三个

RGB 通道的最大梯度基准的梯度计算法,但是,对于黑色的车辆,它们的方法只能产生模糊边界,对于被树遮挡的车辆,其方法并不能将车辆从树的纹理中分离出来,我们通过在多阈值图像上计算多梯度值解决这类问题。图3(b )中,黑色车辆很暗而且一些车辆被树所遮挡;图3(c )中,昏暗的黑色车辆的边界被加强了,图3(d )中,树的纹理被消除了。门限值60和100是由实验所决定的。理论上,更多的阈值图像更够帮助增加定位的精确度,但是会产生更多重复的滑动窗。在本文的试验中,两个门限值已经够了。对于像飞机一样大的其它目标,建议采用三个或更多的阈值图像。

A.滑动窗技术

因为通常的滑动窗技术以固定的步长滑动窗口,所以不能确保窗口能够完全地覆盖车辆,最后,我们将每个滑动到其几何中心(由其包含的图像内容计算)。但是,如果原始的窗口只能覆盖车辆的一小部分,只滑动一次是不足够的,因此,我们增大窗口来包含车辆的主要部分,再将窗口滑动到其新的几何中心。

图3 (a )原始图像。(b )Dalal 和Triggs[15]求梯度图像。(c )阈值低于60的图像梯度。(d )阈值为100的图像梯度。

算法1 车辆定位

输入:三幅梯度图像、滑动窗大小、滑动步长、增大系数、最小距离限制 输出:车辆定位窗口

1. 每幅梯度图像上,产生滑动窗覆盖整个图像。

2. 对于点),(00y x p =处的每个滑动窗p W ,计算其几何中心),(111y x p =,在

1p 处的中心p W 获得新的滑动窗1p W 。

3. 通过增大系数增大1p W 的大小,计算2p 的新几何中心,将1p W 设置为2p 的中心。

4. 收集三幅梯度图像的所有滑动窗,通过最小距离过滤重复窗口,将剩下的窗口发送给HDNN 分类器用于车辆检测。

在算法1中,滑动步长是窗口尺寸5.0?,增大的系数是1.414,最小距离 限制是窗口尺寸15.0?,这些参数值是由实验决定的,对于其他形状的目标,调整这些参数获得最好的结果。

图4(a )-(e )清楚地展示了算法1 的过程,图4(f )显示了在一个大公园定位的结果,其中各种颜色的车辆密集地排列在一起,定位的精确度取决于以下的定义:

定义3:只有当窗口中心和车辆中心的距离少于窗口尺寸45.0?时,定位窗口才是准确的。

定义4:当一辆车至少有一个准确的定位窗口时,其才能为精确定位。 所有的定位窗口标准化为4848?,灰度值范围标准化为[0,255],最后,我们将它们发送到HDNN 分类器用于车辆检测。在所采用的车辆数据集中,99.7%的车辆能够精确地定位。

图4.(a )-(c)在负梯度图像中用算法1 定位车辆的过程(门限值=60)。(f )最终的定位窗口设置,在此环境复杂的大公园中99.2%的车辆能够精确地定位。(a )初始化窗口。(b)移向中心。(c )二次增大。 (d)移向中心。(e)原始图像。(f)滤除重复滑动窗口后定位窗口设置。

图5.HDNN 的结构(54-20-10)。其中3,84,3===b m l n n n ,1B 有54个映射,2B 有20个映射,3B 有10个映射

C.HDNN 的架构

图5显示了我们用于车辆检测的HDNN(54-20-10)的架构,其中

3,84,3===b m l n n n ,只有一个有300个节点的隐含层1H ,输出层有两个节点,1B 有54个映射,2B 有20个映射,3B 有10个映射。

从4848?的灰度图像中,我们获得了六个预处理图像,包括灰度图像、在阈值为60和100的负阈值图像、在阈值为100和160的阈值图像和梯度图像。每一幅图像都和1

C 的14个映射相连。

1C 卷积滤波器的大小为77?,2C 的为44?,1B 的为44?,2B 的为44?,

3B 的为66?;1M 和2M 的最大池域大小为22?,1B 和3B 的为22?,2B 的为33?;1B 和2B 的特征尺度为2828?,3B 的为3636?;1B 的最大池映射大小为33?,2B 的最大池映射大小为22?,3B 的最大池映射大小为22?。

我们在图形处理器上通过后向差分算法训练HDNN ,初始权值[-0.05,0.05]上均匀随机分布,所有初始偏差都设为0。0,001.0L ==Momentum earnRate ,50,0W ==batchsize eightDecay 。当验证偏差接近为0时结束训练,这在我们的图形处理器上大概需要5-6天,在图形处理器上测试一张图像需要7-8s 。

IV.实现细节

数据集包含63张旧金山市的图像,这些图像来自于谷歌地球,其中31张图像用于训练,这31张图像中包括3901辆车,103637个样本,其他的32张图像包括2870辆车,115492个样本用于测试。

误报率(FAR )、正确率(PR )、召回率(RR )定义如下:

??????????=?=?=%100det %100det det %100FAR vehicles of number vehicles ected of number RR objects ected of number vehicles ected of number PR vehicles of number alarms false of number (2)

只有当检测到车辆精确定位窗口的一个时,才能检测到车辆。所有的误报通过小距离限制(20像素)融合成小集群,误报数定义为集群数。

表I 列出了我们所采用的车辆检测集上四种不同方法的结果,其中输入是一张灰度图像,实验时间是以天为单位,HOG 特征是按[15]计算的,方向间隔为9,4848?的灰度图像分成555544332211=?+?+?+?+?块,HOG 特征的维度是495955=?;LBP 特征是按照[16]计算的,其中5.1,8P ==R ,使用58个均匀分布,1个非均匀分布。LBP 的维度为32455559=?,SVM 中我们使用径向基函数核和4000个支持向量。核函数参数优化在[1/维度,40/维度]范围内,Adaboost 算法使用[18]中像Haar 特征等五种类型的特征,进行2000次学习形成最终的分类器,DNN 训练是在GPU 上进行的,而其他三种方法是在CPU 上进行的。

在表II 中,G1是样本的灰度图像,G6是G1的六张预处理后的图像(参考

章节III-C ),RS-G6是G6的旋转和缩放变量,我们采用旋转角度:

00045...,,5.4,0将样本G1旋转11次,用0.8,0.9,1.1,1.2,1.3对G1进行5次缩放。

表III.目前使用不同架构的HDNN

图6.(一)汽车测试中四种方法的召回精度曲线(RPC );输入数据是灰度图像。(b )RPC HDNNs 和DNN ;输入数据是六幅预处理图像的融合。这里,DNN 就是HDNN(84-00-00)。

图7.在旧金山HDNN(44-20-20)的一些检测结果,(红框)车辆,黄框(误报)

在表III 中,321n n n --表明块321B ,B ,B 的映射组成比率(参考章

节III-C ),输入的数据类型是RS-G6(训练)和G6(测试),有目的选择

组成比率来表明三个块的重要性,把HDNN(28-28-28)的结果作为基准,则HDNN(20-44-20)的结果比HDNN(28-28-28)的结果差,而HDNN(44-20-20)的结果要好于HDNN(28-28-28),因此我们推测B1比B2更重要,而HDNN(34-10-40)比HDNN(20-44-20)的结果差,这就说明了B3最不重要,而HDNN(84-00-00)就是DNN,图6(a)表明DNN算法优于其他三种算法,图6(b)表明HDNN检测器性能明显好于DNN。

图7表明,HDNN检测器在检测复杂的城市环境中的各种车辆性能良好,在该环境中,重复的框架融合成一个分类器的输出值最高。

V. 结论

提取多尺度特征对提高目标检测的效果非常重要,但是,目前最优算法不支持多尺度特征提取(把最后最大池池化层的映射当作提取出的特征),我们所提出的HDNNs将DNN的最高卷积层和最大池化层的所有映射分成多感受域大小或最大池化层大小的多个模块。实验证明,HDNN能够提取多尺度特征,在旧金山市的车辆数据集的实验表明HDNN的性能明显优于DNN。

参考文献:略

基于深度卷积神经网络的图像分类

SHANGHAI JIAO TONG UNIVERSITY 论文题目:基于卷积神经网络的自然图像分类技术研究 姓名: 高小宁 专业:控制科学与工程

基于卷积神经网络的自然图像分类技术研究 摘要:卷积神经网络已在图像分类领域取得了很好的效果,但其网络结构及参数的选择对图像分类的效果和效率有较大的影响。为改善卷积网络的图像分类性能,本文对卷积神经网络模型进行了详细的理论分析,并通过大量的对比实验,得出了影响卷积网络性能的因素。结合理论分析及对比实验,本文设计了一个卷积层数为8层的深度卷积网络,并结合Batch Normalization、dropout等方法,在CIFAR-10数据集上取得了%的分类精度,有效地提高了卷积神经网络的分类效果。 关键词:卷积神经网络,图像分类,Batch Normalization,Dropout Research on Natural Image Classification Based on Convolution Neural Network Abstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, % classification accuracy is achieved on CIFAR-10 dataset. Which improves the classification effect of convolution neural network. Key Words: Convolution neural network(CNN), image classification, Batch Normalization, Dropout

(完整版)深度神经网络及目标检测学习笔记(2)

深度神经网络及目标检测学习笔记 https://youtu.be/MPU2HistivI 上面是一段实时目标识别的演示,计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。 今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体,甚至可以初步理解图片或者视频中的内容,在这方面,人工智能已经达到了3岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间,就走完了人类几十万年的进化之路,并且还在加速发展。 道路总是曲折的,也是有迹可循的。在尝试了其它方法之后,计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(Deep Neural Network,NN)实现了对图片的识别,包 括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展,以及处理器(尤其是GPU)强大的算力,给人工智能技术 的发展提供了很大的支持。 本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(Deep Learning)的简单梳理,主要针对计算机视觉应用领域。 一、神经网络 1.1 神经元和神经网络 神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。 由多个神经元作为输入节点,则构成了简单的单层神经网络(感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题,而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。 神经网络的工作原理就是神经元的计算,一层一层的加权求和、激活,最终输出结果。深度神经网络中的参数太多(可达亿级),必须靠大量数据的训练来“这是苹在父母一遍遍的重复中学习训练的过程就好像是刚出生的婴儿,设置。.果”、“那是汽车”。有人说,人工智能很傻嘛,到现在还不如三岁小孩。其实可以换个角度想:刚出生婴儿就好像是一个裸机,这是经过几十万年的进化才形成的,然后经过几年的学习,就会认识图片和文字了;而深度学习这个“裸机”用了几十年就被设计出来,并且经过几个小时的“学习”,就可以达到这个水平了。 1.2 BP算法 神经网络的训练就是它的参数不断变化收敛的过程。像父母教婴儿识图认字一样,给神经网络看一张图并告诉它这是苹果,它就把所有参数做一些调整,使得它的计算结果比之前更接近“苹果”这个结果。经过上百万张图片的训练,它就可以达到和人差不多的识别能力,可以认出一定种类的物体。这个过程是通过反向传播(Back Propagation,BP)算法来实现的。 建议仔细看一下BP算法的计算原理,以及跟踪一个简单的神经网络来体会训练的过程。

卷积神经网络总结

卷积神经网络总结-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

1 卷积神经网络 卷积神经网络是深度学习的一种,已成为当前图像理解领域的研究热点它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。这个优点在网络的输入是多维图像时表现得更为明显, 图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程. 卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放以及其他形式的变形具有一定不变性. 在典型的CNN 中,开始几层通常是卷积层和下采样层的交替, 在靠近输出层的最后几层网络通常是全连接网络。卷积神经网络的训练过程主要是学习卷积层的卷积核参数和层间连接权重等网络参数, 预测过程主要是基于输入图像和网络参数计算类别标签。卷积神经网络的关键是:网络结构(含卷积层、下采样层、全连接层等) 和反向传播算法等。在本节中, 我们先介绍典型CNN 的网络结构和反向传播算法, 然后概述常用的其他CNN 网络结构和方法。神经网络参数的中文名称主要参考文献[18] 卷积神经网络的结构和反向传播算法主要参考文献[17] 。 1.1 网络结构 1.1.1 卷积层 在卷积层, 上一层的特征图(Feature map) 被一个可学习的卷积核进行卷积, 然后通过一个激活函数(Activation function), 就可以得到输出特征图. 每个输出特征图可以组合卷积多个特征图的值[17] : ()l l j j x f u = 1j l l l l j j ij j i M u x k b -∈= *+∑ 其中, l j u 称为卷积层l 的第j 个通道的净激活(Netactivation), 它通过对前一层 输出特征图1l j x -进行卷积求和与偏置后得到的, l j x 是卷积层l 的第j 个通道的输 出。()f 称为激活函数, 通常可使用sigmoid 和tanh 等函数。j M 表示用于计算l j u 的输入特征图子集, l ij k 是卷积核矩阵, l j b 是对卷积后特征图的偏置。对于一个输 出特征图l j x ,每个输入特征图1l j x -对应的卷积核l ij k 可能不同,“*”是卷积符号。 1.1.2 下采样层 下采样层将每个输入特征图通过下面的公式下采样输出特征图[17]: ()l l j j x f u = 1()l l l l j j j j u down x b β-=+ 其中, l j u 称为下采样层l 的第j 通道的净激活, 它由前一层输出特征图1l j x -进行 下采样加权、偏置后得到, β是下采样层的权重系数, l j b 是下采样层的偏置项. 符

(完整版)深度神经网络全面概述

深度神经网络全面概述从基本概念到实际模型和硬件基础 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由IEEE Fellow Joel Emer 领导的一个团队发布了一篇题为《深度神经网络的有效处理:教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)》的综述论文,从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长,机器之心在此文中提炼了原论文的主干和部分重要内容。 目前,包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks,DNN)。DNN 在很多人工智能任务之中表现出了当前最佳的准确度,但同时也存在着计算复杂度高的问题。因此,那些能帮助DNN 高效处理并提升效率和吞吐量,同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN 的关键。 论文地址:https://https://www.wendangku.net/doc/ba4587431.html,/pdf/1703.09039.pdf 本文旨在提供一个关于实现DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查。特别地,本文还给出了一个DNN 综述——讨论了支持DNN 的多种平台和架构,并强调了最新的有效处理的技术的关键趋势,这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低DNN 计算成本。本文也会对帮助研究者和从业者快速上手DNN 设计的开发资源做一个总结,并凸显重要的基准指标和设计考量以评估数量快速增长的DNN 硬件设计,还包括学界和产业界共同推荐的算法联合设计。 读者将从本文中了解到以下概念:理解DNN 的关键设计考量;通过基准和对比指标评估不同的DNN 硬件实现;理解不同架构和平台之间的权衡;评估不同DNN 有效处理技术的设计有效性;理解最新的实现趋势和机遇。 一、导语 深度神经网络(DNN)目前是许多人工智能应用的基础[1]。由于DNN 在语音识别[2] 和图像识别[3] 上的突破性应用,使用DNN 的应用量有了爆炸性的增长。这些DNN 被部署到了从自动驾驶汽车[4]、癌症检测[5] 到复杂游戏[6] 等各种应用中。在这许多领域中,DNN 能够超越人类的准确率。而DNN 的出众表现源于它能使用统计学习方法从原始感官数据中提取高层特征,在大量的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的方法不同。 然而DNN 获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎(尤其是GPU),已经成为许多DNN 处理的砥柱,但提供对DNN 计算更专门化的加速方法也越来越热门。本文的目标是提供对DNN、理解DNN 行为的各种工具、有效加速计算的各项技术的概述。 该论文的结构如下:

基于深度卷积神经网络的人脸识别研究

基于深度卷积神经网络的人脸识别研究 深度卷积神经网络主要应用包括语音识别、图像处理、自然语言处理等。本文就当前大环境下研究了卷积神经网络模型在静态环境下人脸识别领域的应用。卷积神经网络模型需要设计一个可行的网络模型,将大量的人脸训练数据集加载到网络模型中,然后进行自动训练,这样就可以得到很好的识别率。把训练好的模型保存下来,那么这个模型就是一个端到端的人脸特征提取器。该方法虽然操作简单,但是需要根据训练数据集设计合理的网络结构,而且最难的关键点是超参数的调整和优化算法的设计。因此本文结合残差网络和融合网络构建了两个与计算资源和数据资源相匹配的网络模型,并通过反复调整超参数和调试优化器使其在训练集上能够收敛,最终还取得较好的识别率。 本文的主要研宄内容和创新点如下: 1.介绍了卷积神经网络的基础理论知识。先从传统人工神经网络的模型结构、前向和反向传播算法进行了详细的分析;然后过渡到卷积神经网络的相关理论,对其重要组成部分如卷积层、激励层、池化层和全连接层进行了具体的阐述;最后对卷积神经网络训练时的一些注意事项进行了说明。 人工神经元是构成人工神经网络的基本计算单元,单个神经元的模型结构如下图所示。

其中,b X W b x w Z T+ = + =∑1 1 1 ) ( ) ( , z f x h h w = x x x x x e e e e z z f e z z f - - - + - = = + = = ) tanh( ) ( 1 1 ) ( ) (σ 卷积神经网路的基本结构

简单的池化过程: 2.对深度学习框架TensorFlow的系统架构和编程模型作了一些说明,并对人脸数据进行预处理,包括人脸检测、数据增强、图像标准化和人脸中心损失。

卷积神经网络 论文版

卷积神经网络 摘要:卷积神经网络是近年来广泛应用于模式识别、图像处理等领域的一种高效识别算法,它具有结构简单、训练参数少和适应性强等特点。本文从卷积神经网络的发展历史开始,详细阐述了卷积神经网络的网络结构、神经元模型和训练算法。在此基础上以卷积神经网络在人脸检测和形状识别方面的应用为例,简单介绍了卷积神经网络在工程上的应用,并给出了设计思路和网络结构。 关键字:模型;结构;训练算法;人脸检测;形状识别 Convolution Neural Network Abstract:Convolution neural network is an efficient recognition algorithm which is widely used in pattern recognition, image processing and other fields recent years.It has a simple structure, few training parameters and good adaptability and other advantages. In this paper, begin with the history of convolutional neural networks,describes the structure of convolutional neural network,neuron models and training algorithms in detail. On this basis,uses the applications of convolutional neural network in face detection and shape recognition as examples, introduces the applications of convolution neural network in engineering, and gives design ideas and network structure. Keywords:Model; Training Algorithm; Advantage; Face detection; Shape recognition 0 引言 卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 1 卷积神经网络的发展历史 1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野(receptive field)的概念,1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。神经认知机能够利用位移恒定能力从激励模式中学习,并且可识别这些模式的变化形,在其后的应用研究中,Fukushima将神经认知机主要用于手写数字的识别。随后,国内外的研究人员提出多种卷积神经网络形式,在邮政编码识别和人脸识别方面得到了大规模的应用。 通常神经认知机包含两类神经元,即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数,即感受野与阈值参数,前者确定输入连接的数目,后者则控制对特征子模式的反应程度。许多学者一直致力于提高神经认知机的性能的研究:在传统的神经认知机中,每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布。如果感光区的边缘所产生的模糊效果要比中央来得大,S-元将会接受这种非正态模糊所导致的更大的变形容忍性。我们希望得到的是,训练模式与变形刺激模式在感受野的边缘与其中心所产生的效果之间的差异变得越来越大。为了有效地形成这种非正态模糊,Fukushima提出了带双C-元层的改进型神经

(完整word版)深度学习-卷积神经网络算法简介

深度学习 卷积神经网络算法简介 李宗贤 北京信息科技大学智能科学与技术系 卷积神经网络是近年来广泛应用在模式识别、图像处理领域的一种高效识别算法,具有简单结构、训练参数少和适应性强的特点。它的权值共享网络结构使之更类似与生物神经网络,降低了网络的复杂度,减少了权值的数量。以二维图像直接作为网络的输入,避免了传统是被算法中复杂的特征提取和数据重建过程。卷积神经网络是为识别二维形状特殊设计的一个多层感知器,这种网络结构对于平移、比例缩放、倾斜和其他形式的变形有着高度的不变形。 ?卷积神经网络的结构 卷积神经网络是一种多层的感知器,每层由二维平面组成,而每个平面由多个独立的神经元组成,网络中包含一些简单元和复杂元,分别记为C元和S元。C元聚合在一起构成卷积层,S元聚合在一起构成下采样层。输入图像通过和滤波器和可加偏置进行卷积,在C层产生N个特征图(N值可人为设定),然后特征映射图经过求和、加权值和偏置,再通过一个激活函数(通常选用Sigmoid函数)得到S层的特征映射图。根据人为设定C层和S层的数量,以上工作依次循环进行。最终,对最尾部的下采样和输出层进行全连接,得到最后的输出。

卷积的过程:用一个可训练的滤波器fx去卷积一个输入的图像(在C1层是输入图像,之后的卷积层输入则是前一层的卷积特征图),通过一个激活函数(一般使用的是Sigmoid函数),然后加一个偏置bx,得到卷积层Cx。具体运算如下式,式中Mj是输入特征图的值: X j l=f?(∑X i l?1?k ij l+b j l i∈Mj) 子采样的过程包括:每邻域的m个像素(m是人为设定)求和变为一个像素,然后通过标量Wx+1加权,再增加偏置bx+1,然后通过激活函数Sigmoid产生特征映射图。从一个平面到下一个平面的映射可以看作是作卷积运算,S层可看作是模糊滤波器,起到了二次特征提取的作用。隐层与隐层之间的空间分辨率递减,而每层所含的平面数递增,这样可用于检测更多的特征信息。对于子采样层来说,有N 个输入特征图,就有N个输出特征图,只是每个特征图的的尺寸得到了相应的改变,具体运算如下式,式中down()表示下采样函数。 X j l=f?(βj l down (X j l?1) +b j l)X j l) ?卷积神经网络的训练过程 卷积神经网络在本质上是一种输入到输出的映射,它能够学习大量的输入和输出之间的映射关系,而不需要任何输入和输出之间的精确数学表达式。用已知的模式对卷积网络加以训练,网络就具有了输

基于深度卷积神经网络的图像分类

Equation Chapter 1 Section 1 令狐采学 SHANGHAI JIAO TONG UNIVERSITY 论文题目:基于卷积神经网络的自然图像分类技术研究 姓名: 高小宁 专业:控制科学与工程

基于卷积神经网络的自然图像分类技术研究 摘要:卷积神经网络已在图像分类领域取得了很好的效果,但其网络结构及参数的选择对图像分类的效果和效率有较年夜的影响。为改良卷积网络的图像分类性能,本文对卷积神经网络模型进行了详细的理论阐发,并通过年夜量的比较实验,得出了影响卷积网络性能的因素。结合理论阐发及比较实验,本文设计了一个卷积层数为8层的深度卷积网络,并结合Batch Normalization、dropout等办法,在CIFAR10数据集上取得了88.1%的分类精度,有效地提高了卷积神经网络的分类效果。 关键词:卷积神经网络,图像分类,Batch Normalization,Dropout Research on Natural Image Classification Based on Convolution Neural Network Abstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, 88.1% classification accuracy is achieved on CIFAR10 dataset. Which improves the classification effect of convolution neural network. Key Words:Convolution neural network(CNN), image classification, Batch Normalization,Dropout 目录 基于卷积神经网络的自然图像分类技术研究- 1 - 1引言-2- 2卷积神经网络的模型阐发-3- 2.1网络基本拓扑结构- 3 - 2.2卷积和池化- 4 - 2.3激活函数- 5 - 2.4 Softmax分类器与价格函数- 6 - 2.5学习算法- 7 - 2.6 Dropout- 9 - 2.7 Batch Normalization- 10 - 3模型设计与实验阐发-10- 3.1 CIFAR10数据集- 10 - 3.2 模型设计- 11 -

基于深度卷积神经网络的目标检测

第35卷 第8期 福 建 电 脑 Vol. 35 No.8 2019年8月 Journal of Fujian Computer Aug. 2019 ——————————————— 程胜月,男,1995生,硕士研究生,研究方向为深度学习。E-mail:2968365693@https://www.wendangku.net/doc/ba4587431.html, 。张德贤,男,1961生,博士,研究方向为模式识别、人工智能信息处理。 基于深度卷积神经网络的目标检测 程胜月 张德贤 (河南工业大学信息科学与工程学院 郑州 450001) 摘 要 目标检测是计算机视觉领域中最基本、最具挑战性的课题之一,由于传统检测方法已经不能满足其在精度和速度上需求,深度学习利用其对图像特征强大地分析处理能力,逐渐成为目标检测的主流方向。本文首先对主流卷积神经网络框架进行简述,其次对目标检测中的几种重要的方法具体分析,最后对未来可能的发展方向进行讨论。 关键词 目标检测;卷积神经网络;RCNN ;YOLO ;SSD 中图法分类号 TP183 DOI:10.16707/https://www.wendangku.net/doc/ba4587431.html,ki.fjpc.2019.08.009 Target Detection Based on Deep Convolutional Neural Networks CHENG Shengyue, ZHANG Dexian (School of Information Science and Engineering, Henan University of Technology, Zhengzhou,China, 450001) 1引言 目标检测作为计算机视觉的基本问题之一,是 许多其他计算机视觉任务的基础,如实例分割、图像处理、对象跟踪等[1]。目前,目标检测已广泛应用于无人驾驶、安防监管、视频分析等领域。 传统目标检测方法包含预处理、窗口滑动、特征提取、特征选择、特征分类、后处理等步骤。而卷积神经网络本身具有特征提取、特征选择和特征分类的功能,所以在现在计算能力充足的情况下得到充分发展。 2主流深度卷积网络的发展 1998年Yann LeCun 提出的LeNet-5网络是首次成功应用于数字识别问题的卷积神经网络。但是由于当时计算能力不足,未能受到重视。直到2012年AlexNet 在ImageNet 图像分类任务竞赛中获得冠军,目标检测才迎来深度卷积神经网络的时代。 2.1 AlexNet AlexNet 由5个卷积层和3个全连接层组成,使用数据增广和Dropout 防止过拟合,并且提出了 局部响应归一化来提高模型的泛化能力。 2.2 VGGNet VGGNet 获得了2014年ILSVRC 比赛的亚军和目标定位的冠军。到目前为止,VGGNet 依然被广泛使用来提取图像的特征。VGGNet 主要是证明了增加网络的深度可以提高最终的性能。 2.3 GoogleNet GoogleNet 分析得出增加网络的深度和宽度可以提升性能,但同时不可避免的增加参数,造成过拟合和计算量过大。因此提出Inception 结构将稀疏矩阵聚类成相对稠密的子空间矩阵提高计算性能。 2.2 ResNet ResNet 指出随着卷积神经网络深度的增加,却出现梯度消失现象造成准确率的下降。ResNet 通过恒等映射解决深层网络梯度消失问题,大幅度提升深度卷积网络的性能。 3目标检测算法 手工设计特征的目标检测方法在2010年左右

卷积神经网络总结

1 卷积神经网络 卷积神经网络是深度学习的一种,已成为当前图像理解领域的研究热点它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。这个优点在网络的输入是多维图像时表现得更为明显, 图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程. 卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放以及其他形式的变形具有一定不变性. 在典型的CNN 中,开始几层通常是卷积层和下采样层的交替, 在靠近输出层的最后几层网络通常是全连接网络。卷积神经网络的训练过程主要是学习卷积层的卷积核参数和层间连接权重等网络参数, 预测过程主要是基于输入图像和网络参数计算类别标签。卷积神经网络的关键是:网络结构(含卷积层、下采样层、全连接层等) 和反向传播算法等。在本节中, 我们先介绍典型CNN 的网络结构和反向传播算法, 然后概述常用的其他CNN 网络结构和方法。神经网络参数的中文名称主要参考文献 [18] 卷积神经网络的结构和反向传播算法主要参考文献 [17] 。 网络结构 卷积层 在卷积层, 上一层的特征图(Feature map) 被一个可学习的卷积核进行卷积, 然后通过一个激活函数(Activation function), 就可以得到输出特征图. 每个输出特征图可以组 合卷积多个特征图的值[17] : ()l l j j x f u = 1j l l l l j j ij j i M u x k b -∈= *+∑ 其中, l j u 称为卷积层l 的第j 个通道的净激活(Netactivation), 它通过对前一层输出特征图1 l j x -进行卷积求和与偏置后得到的, l j x 是卷积层l 的第j 个通道的输出。()f g 称为激活函数, 通常可使用sigmoid 和tanh 等函数。j M 表示用于计算l j u 的输入特征图子集, l ij k 是卷积核矩阵, l j b 是对卷积后特征图的偏置。对于一个输出特征图l j x ,每个输入特征图1 l j x -对应的卷积核l ij k 可能不同,“*”是卷积符号。 下采样层 下采样层将每个输入特征图通过下面的公式下采样输出特征图[17] : ()l l j j x f u = 1()l l l l j j j j u down x b β-=+ 其中, l j u 称为下采样层l 的第j 通道的净激活, 它由前一层输出特征图1 l j x -进行下采样

基于深度卷积神经网络的人脸识别研究定稿版

基于深度卷积神经网络的人脸识别研究 HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】

基于深度卷积神经网络的人脸识别研究 深度卷积神经网络主要应用包括语音识别、图像处理、自然语言处理等。本文就当前大环境下研究了卷积神经网络模型在静态环境下人脸识别领域的应用。卷积神经网络模型需要设计一个可行的网络模型,将大量的人脸训练数据集加载到网络模型中,然后进行自动训练,这样就可以得到很好的识别率。把训练好的模型保存下来,那么这个模型就是一个端到端的人脸特征提取器。该方法虽然操作简单,但是需要根据训练数据集设计合理的网络结构,而且最难的关键点是超参数的调整和优化算法的设计。因此本文结合残差网络和融合网络构建了两个与计算资源和数据资源相匹配的网络模型,并通过反复调整超参数和调试优化器使其在训练集上能够收敛,最终还取得较好的识别率。 本文的主要研宄内容和创新点如下: 1.介绍了卷积神经网络的基础理论知识。先从传统人工神经网络的模型结构、前向和反向传播算法进行了详细的分析;然后过渡到卷积神经网络的相关理论,对其重要组成部分如卷积层、激励层、池化层和全连接层进行了具体的阐述;最后对卷积神经网络训练时的一些注意事项进行了说明。 人工神经元是构成人工神经网络的基本计算单元,单个神经元的模型结构如下图所示。 其中, b X W b x w Z T+ = + =∑1 1 1 ) ( ) ( , z f x h h w = 卷积神经网路的基本结构简单的池化过程:

2.对深度学习框架TensorFlow的系统架构和编程模型作了一些说明,并对人脸数据进行预处理,包括人脸检测、数据增强、图像标准化和人脸中心损失。 TensorFlow的系统架构如下图所示 TensorFlow的编程模式 系统本地模式和分布式模式示意图 3.提出了基于改进的MyVGGNet和MySqueezeNet网络的人脸识别。首先分析了模型VGGNet-16和SqueezeNe的网络结构及相关参数,然后本文提出将原VGGNet-16和SqueezeNe的网络结构和参数进行优化,并在每个卷积层和激励层之间添加批归一化层,在VGGNet-16网络末尾用1个1 * 1的卷积层代替三个全连接层,还增加全局平均池化层,得到新的MyVGGNet和MySqueezeNet模型,最后在LFW数据集上分别获得9 4.3%和9 5.1%的准确率。 VGGNet-16 网络结构框图 MyVGGNet 网络框图 MyVGGNet网络训练时LFW测试集的准确率走势图 MyVGGNet网络在LFW上的ROC曲线图 4.提出了基于二叉树型融合网络BTreeFuseNet_v1和BTreeFuseNet_v2的人脸识别。首先对深度神经网络的优化问题和融合原理作了分析;然后结合残差学习,融入分支并行、融合和级联三种结构,采用ReLU函数、BN层、Dropout层、哈维尔方法和截断高斯函数初始化方法、Adam优化器等技巧,构建了两个层次深度为22和19的网络模型

BP神经网络及深度学习研究 - 综述

BP神经网络及深度学习研究 摘要:人工神经网络是一门交叉性学科,已广泛于医学、生物学、生理学、哲学、信息学、计算机科学、认知学等多学科交叉技术领域,并取得了重要成果。BP(Back Propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。本文将主要介绍神经网络结构,重点研究BP神经网络原理、BP神经网络算法分析及改进和深度学习的研究。 关键词:BP神经网络、算法分析、应用 1引言 人工神经网络(Artificial Neural Network,即ANN ),作为对人脑最简单的一种抽象和模拟,是人们模仿人的大脑神经系统信息处理功能的一个智能化系统,是20世纪80 年代以来人工智能领域兴起的研究热点。人工神经网络以数学和物理方法以及信息处理的角度对人脑神经网络进行抽象,并建立某种简化模型,旨在模仿人脑结构及其功能的信息处理系统。 人工神经网络最有吸引力的特点就是它的学习能力。因此从20世纪40年代人工神经网络萌芽开始,历经两个高潮期及一个反思期至1991年后进入再认识与应用研究期,涌现出无数的相关研究理论及成果,包括理论研究及应用研究。最富有成果的研究工作是多层网络BP算法,Hopfield网络模型,自适应共振理论,自组织特征映射理论等。因为其应用价值,该研究呈愈演愈烈的趋势,学者们在多领域中应用[1]人工神经网络模型对问题进行研究优化解决。 人工神经网络是由多个神经元连接构成,因此欲建立人工神经网络模型必先建立人工神经元模型,再根据神经元的连接方式及控制方式不同建立不同类型的人工神经网络模型。现在分别介绍人工神经元模型及人工神经网络模型。 1.1人工神经元模型 仿生学在科技发展中起着重要作用,人工神经元模型的建立来源于生物神经元结构的仿生模拟,用来模拟人工神经网络[2]。人们提出的神经元模型有很多,其中最早提出并且影响较大的是1943年心理学家McCulloch和数学家W.Pitts在分析总结神经元基本特性的基础上首先提出的MP模型。该模型经过不断改进后,形成现在广泛应用的BP神经元模型。人工神经元模型是由人量处理单元厂泛互连而成的网络,是人脑的抽象、简化、模拟,反映人脑的基本特性。一般来说,作为人工神经元模型应具备三个要素: (1)具有一组突触或连接,常用 w表示神经元i和神经元j之间的连接强度。 ij (2)具有反映生物神经元时空整合功能的输入信号累加器 。

基于深度卷积神经网络模型的文本情感分类

第45卷第$期V o l.45 N o.3计算机工程 C o m p u te r E n g in e e rin g 2019年3月 M a rc h2019 ?开发研究与工程应用?文章编号:1000#428(2019)0$-0$00-09文献标志码:A中图分类号:TP183 基于深度卷积神经网络模型的文本情感分类 周锦峰,叶施仁,王晖 (常州大学信息科学与工程学院,江苏常州213164) 摘要:为高效提取不同卷积层窗口的文本局部语义特征,提出一种深度卷积神经网络(C N N)模型。通过堆叠多 个卷积层,提取不同窗口的局部语义特征。基于全局最大池化层构建分类模块,对每个窗口的局部语义特征计算 情感类别得分,综合类别得分完成情感分类标注。实验结果表明,与现有C N N模型相比,该模型具有较快的文本 情感分类速度。 关键词:情感分析;情感分类标注;深度学习;卷积神经网络;词向量 中文引用格式:周锦峰,叶施仁,王晖.基于深度卷积神经网络模型的文本情感分类[J].计算机工程,2019,45(3):300-308. 英文引用格式:Z H O U J in fe n g,Y E S h ire n,W A N G H u i. T ext sentim ent classification based on deep con volution al neural netw ork m o d e l*J].Com puter E n g in e e rin g,2019,45 (3) :300-308. Text Sentiment Classification Based on Deep Convolutional Neural Network Model Z H O U J in fe n g,Y E S h ire n,W A N G H u i (School of Inform ation Science and E ngineering,Changzhou Universit;^,C hangzhou,Jiangsu 213164,C hina) [A b s tr a c t]This paper proposes a d e e p C o nvo lutio na l N eural N e tw ork(C N N)m odel to e ffic ie n tly extract semantic features o f d iffe re n t con volution al layer w indow s fo r te x t.The m odel avoids m anually specifying m u ltip le w indo w sizes and retains local semantic features o f diffe re n t w indow s by stacking a n u m b e r o f con volution al l C lassification m odules are b u ilt based on t he G lobal M a x P ooling(G M P)layer to calculate the category score f local semantic features o f each w in d o w.The m odel synthesizes these category scores to com plete the sentiment classification annotation.E xperim ental results show that the m odel has faster text sentim ent classificat o f other C N N m odels. [K e y w o r d s]sentim ent analysis;sentim ent classification a n n o ta tion;deep le a rn in g;C o nvo lutio na l N eural N e tw ork (C N N) ;w ord vector D O I:10.19678/j.issn.1000-3428.0050043 〇概述 情感分析主要通过人类书写的文本分析和研究 人的意见、情感、评价、态度和情绪,是自然语言处理 (N a tu ra l La ng ua ge P ro c e ss in g,N L P)中最热门的研究 领域之一,并在数据挖掘、W e b挖掘和文本挖掘等应 用范畴得到广泛研究[16]。例如,分析电商平台上对 已购商品的点评,群众对政府新颁布的政策法规的 讨论以及消费者对新产品或服务的反馈等。每天数 以亿计的用户文本信息包含了丰富的用户观点和情 感极性,从中可以挖掘和分析出大量的知识和模式。 深度学习为经典数据挖掘任务提供了新的手 段。卷积神经网络(C o n v o lu tio n a l N e u ra l N e tw o rk,C N N)是一种用于处理具有网状拓扑结构数据的深度神经网络(D eep N e u ra l N e tw o r k,D N N)。C N N 通过卷积操作,组合低层特征形成更加抽象的高层特 征,使模型能够针对目标问题,自动学习特征。在文 本情感分类应用中,C N N能够有效避免传统机器学 习方法所面临的样本特征表达稀疏、计算复杂等问题[4]。 目前,以C N N为基础的文本情感分类方法多数 是通过学习文本的一种窗口或多种窗口局部语义信 息,然后提取文本最大语义特征进行情感划分。此 类方法在文本情感分类标注领域已取得较好的效 果。但是目前在文本情感分类标注领域[56],甚至在 N L P的其他分类问题中[860],使用的C N N模型多数 采用一个或多个卷积层并行的结构。C N N模型解 决情感分类标注问题时,为了充分捕捉语义的距离 基金项目:国家自然科学基金(61272367);江苏省科技厅项目(BY2015027-12)。 作者简介:周锦峰(1978—),男,硕士,主研方向为机器学习、自然语言处理;叶施仁,副教授、博士;王晖(通信作者),讲师、博士。收稿日期:2018-01-10修回日期:2018-02-27E-m a i l:zhouzhou9076@ https://www.wendangku.net/doc/ba4587431.html,

VGG介绍卷积神经网络的模型结构

VGG介绍卷积神经网络的模型结构 一:VGG介绍与模型结构VGG全称是Visual Geometry Group属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型,可以应用在人脸识别、图像分类等方面,分别从VGG16~VGG19。VGG研究卷积网络深度的初衷是想搞清楚卷积网络深度是如何影响大规模图像分类与识别的精度和准确率的,最初是VGG-16号称非常深的卷积网络全称为(GG-Very-Deep-16 CNN),VGG在加深网络层数同时为了避免参数过多,在所有层都采用3x3的小卷积核,卷积层步长被设置为1。VGG的输入被设置为224x244大小的RGB图像,在训练集图像上对所有图像计算RGB均值,然后把图像作为输入传入VGG卷积网络,使用3x3或者1x1的filter,卷积步长被固定1。VGG全连接层有3层,根据卷积层+全连接层总数目的不同可以从VGG11 ~VGG19,最少的VGG11有8个卷积层与3个全连接层,最多的VGG19有16个卷积层+3个全连接层,此外VGG 网络并不是在每个卷积层后面跟上一个池化层,还是总数5个池化层,分布在不同的卷积层之下,下图是VGG11 ~GVV19的结构图: 考虑到整个网络的精简结构显示,ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明: conv表示卷积层 FC表示全连接层 conv3表示卷积层使用3x3 filters conv3-64表示深度64 maxpool表示最大池化 上述VGG11 ~VGG19参数总数列表如下: 在实际处理中还可以对第一个全连接层改为7x7的卷积网络,后面两个全连接层改为1x1的卷积网络,这个整个VGG就变成一个全卷积网络FCN。在VGG网络之前,卷积神经

相关文档