当前位置：文档库 › 计算机视觉测量与导航_张正友法相机标定 _结课实验报告

计算机视觉测量与导航_张正友法相机标定 _结课实验报告

数字图像处理课程心得

数字图像处理课程心得本学期，我有幸学习了数字图像处理这门课程，这也是我大学学习中的最后一门课程，因此这门课有着特殊的意义。人类传递信息的主要媒介是语音和图像。据统计，在人类接受的信息中，听觉信息占20%,视觉信息占60%，其它如味觉、触觉、嗅觉信息总的加起来不过占20%。可见图像信息是十分重要的。通过十二周的努力学习，我深刻认识到数字图像处理对于我的专业能力提升有着比较重要的作用，我们可以运用Matlab对图像信息进行加工，从而满足了我们的心理、视觉或者应用的需求，达到所需图像效果。数字图像处理起源于20世纪20年代，当时通过海底电缆从英国伦敦到美国纽约采用数字压缩技术传输了第一幅数字照片。此后，由于遥感等领域的应用，使得图像处理技术逐步受到关注并得到了相应的发展。第三代计算机问世后，数字图像处理便开始迅速发展并得到普遍应用。由于CT的发明、应用及获得了备受科技界瞩目的诺贝尔奖，使得数字图像处理技术大放异彩。目前数字图像处理科学已成为工程学、计算机科学、信息科学、统计学、物理、化学、生物学、医学甚至社会科学等领域中各学科之间学习和研究的对象。随着信息高速公路、数字地球概念的提出以及Internet的广泛应用，数字图像处理技术的需求与日俱增。其中，图像信息以其信息量大、传输速度快、作用距离远等一系列优点成为人类获取信息的重要来源及利用信息的重要手段，因此图像处理科学与技术逐步向其他学科领域渗透并为其它学科所利用是必然的。数字图像处理是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。数字图像处理的产生和迅速发展主要受三个因素的影响：一是计算机的发展；二是数学的发展（特别是离散数学理论的创立和完善）;三是广泛的农牧业、林业、环境、军事、工业和医学等方面的应用需求的增长。图像处理科学是一门与国计民生紧密相联的应用科学，它给人类带来了巨大的经济和社会效益，不久的将来它不仅在理论上会有更深入的发展，在应用上亦是科学研究、社会生产乃至人类生活中不可缺少的强有力的工具。它的发展及应用与我国的现代化建设联系之密切、影响之深远是不可估量的。在信息社会中，数字图象处理科学无论是在理论上还是在实践中都存在着巨大的潜力。近几十年，数字图像处理技术在数字信号处理技术和计算机技术发展的推动下得到了飞速的发展，正逐渐成为其他科学技术领域中不可缺少的一项重要工具。数字图像处理的应用领域越来越广泛，从空间探索到微观研究，从军事领域到工农业生产，从科学教育到娱乐游戏，越来越多的领域用到了数字图像处理技术。虽然通过一学期的课程学习我们还没有完全掌握数字图像处理技术，但也收获了不少，对于数字图像处理方面的知识有了比较深入的了解，当然也更加理解了数字图像的本质，即是一些数字矩阵，但灰度图像和彩色图像的矩阵形式是不同的。对于一些耳熟能详的数字图像相关术语有了明确的认识，比如常见的：像素（衡量图像的大小）、分辨率（衡量图像的清晰程度）、位图（放大后会失真）、矢量图（经过放大不会失真）等大家都能叫上口却知识模糊的名词。也了解图像处理技术中一些常用处理技术的实质，比如锐化处理是使模糊的图像变清晰，增强图像的边缘等细节。而平滑处理是的目的是消除噪声，模糊图像，在提取大目标之前去除小的细节或弥合目标间的缝隙。对常提的RGB图像和灰度图像有了明确的理解，这对大家以后应用Photoshop等图像处理软件对图像进行处理打下了

计算机视觉第二次作业实验报告

大学计算机视觉实验报告摄像机标定：振强学号：451 时间：2016.11.23

一、实验目的学习使用OpenCV并利用OpenCV进行摄像机标定，编程实现，给出实验结果和分析。二、实验原理 2.1摄像机标定的作用在计算机视觉应用问题中，有时需要利用二位图像还原三维空间中的物体，从二维图像信息出发计算三维空间物体的几何信息的过程中，三维空间中某点的位置与二维图像中对应点之间的相互关系是由摄像机的几何模型决定的，这些几何模型的参数就是摄像机参数，而这些参数通常是未知的，摄像机标定实验的作用就是通过计算确定摄像机的几何、光学参数，摄像机相对于世界坐标系的方位。 2.2摄像机标定的基本原理 2.2.1摄像机成像模型摄像机成像模型是摄像机标定的基础，确定了成像模型才能确定摄像机外参数的个数和求解的方法。计算机视觉研究中，三维空间中的物体到像平面的投影关系即为成像模型，理想的投影成像模型是光学中的中心投影，也称为针孔模型。实际摄像系统由透镜和透镜组组成，可以由针孔模型近似模拟摄像机成像模型。图2.1 针孔成像 2.2.2坐标变换在实际摄像机的使用过程中，为方便计算人们常常设置多个坐标系，因此空间点的成像过程必然涉及到许多坐标系之间的相互转化，下面主要阐述几个重要坐标系之间的转换关系。

2.2.2.1世界坐标系--摄像机坐标系图2.2 世界坐标系与摄像机坐标系空间关系世界坐标系与摄像机坐标系之间的转换关系为： ????? ? ????????????=???? ????????111w w w T c c c Z Y X O T R Z Y X R 和T 分别是从世界坐标系到摄像机坐标系的旋转变换和平移变换系数，反映的是世界坐标系和摄像机坐标系之间的关系，因此称为外参数。 2.2.2.2物理坐标系--像素坐标系图2.3 像素坐标系

机器视觉课后心得体会

经过机器视觉技术及应用这门课程的学习，我觉得受益匪浅。可以说这门课程更偏重于实践，也很好的锻炼了我们，老师讲课很认真，ppT准备的很详细，对于一些关键问题的讲解更是深入浅出。机器视觉技术，即采用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品即图像摄取装置，分CMOS 和CCD两种把图像抓取到，然后将该图像传送至处理单元，通过数字化处理，根据像素分布和亮度、颜色等信息，来进行尺寸、形状、颜色等的判别，进而根据判别的结果来控制现场的设备动作。机器视觉主要用计算机来模拟人的视觉功能，但并不仅仅是人眼的简单延伸，更重要的是具有人脑的一部分功能一一从客观事物的图像中提取信息，进行处理并加以理解，最终用于实际检测、测量和控制。机器视觉不同于计算机视觉，它涉及图像处理、人工智能和模式识别，机器视觉是将计算机视觉应用于工业自动化。目前在机器视觉系统中；CCD 摄像机以其体积小巧、性能可靠、清晰度高等优点得到了广泛使用。机器视觉伴随计算机技术、现场总线技术的发展，技术日臻成熟，已是现代加工制造业不可或缺的产品，广泛应用于食品和饮料、化妆品、制药、建材和化工、金属加工、电子制造、包装、汽车制造等行业。在未来的几年内，随着中国加工制造业的发展，对于机器视觉的需求也逐渐增多；随着机器视觉产品的增多，技术的提高，国内机器视觉的应用状况将由初期的低端转向高端。加之机器视觉的介入，自动化将朝着更智能、更快速的方向发展。通过本课程的学习，我们掌握了一些机器视觉方面的基本知识。这门课对于我们生活方面有很大的实用性，可以让我们了解到机器视觉的基本构造，对成为技术应用型人才，适应社会和培养实践能力与技能都起到了很大的作用。这样的学习让我们将知识更灵活的运用，更好的将知识和实践结合在一起并转化为技能。通过这门课程的学习，我们懂得更多，收获更多，提升了自身操作能力的同时又学到了很多东西，我相信在以后的课堂学习和实践学习中可以掌握更多更深入的知识，不断的提高自身的学习与应用能力。

计算机视觉测量与导航_张正友法相机标定 _结课实验报告

H a r b i n I n s t i t u t e o f T e c h n o l o g y 计算机视觉测量与导航实验报告院系：航天学院学科：控制科学与工程姓名：TSX 学号：任课教师：张永安卢鸿谦日期：2014.05.13

摘要人类视觉过程可看成是一个复杂的从感觉到知觉的过程,也就是指三维世界投影得到二维图像,再由二维图像认知三维世界的内容和含义的过程。信号处理理论与计算机出现以后,人们用摄像机等获取环境图像并转换成数字信号,完成对视觉信息的获取和传输过程,用计算机实现对视觉信息的处理、存储和理解等过程,形成了计算机视觉这门新兴学科。其中从二维图像恢复三维物体可见表面的几何结构的工作就叫做三维重建。随着计算机硬件、软件、图像采集、处理技术的迅速发展,三维重建的理论和技术已被广泛应用于航空航天、机器人技术、文字识别、工业检测、军事侦察、地理勘察、现场测量和虚拟植物可视化等领域。相机标定是三维重建必不可少的步骤,它包括对诸如主点坐标、焦距等与相机内部结构有关的内部参数的确定和对相机的旋转、平移这些外部参数的确定。价格低廉的实验器材、简单的实验环境、快捷的标定速度和较高的标定精度是现在相机标定研究追求的几大方向。数码相机的标定就是研究的热点之一。本次报告介绍了基于棋盘格模板标定的基本原理和算法，利用MATLAB的相机标定工具箱，使用张征友算法对相机进行了标定，记录了标定的过程，并给出结果，最后对影响标定精度的因素进行了分析。关键词：相机标定张正友角点提取内外参

1基于棋盘格标定的基本原理和算法 1.1基础知识 1.1.1射影几何当描述一张相机拍摄的图像时，由于其长度、角度、平行关系都可能发生变化，因此无法完全用欧氏几何来处理图像，而射影几何却可以，因为在射影几何中，允许存在包括透视投影的更大一类变换，而不仅仅是欧氏几何的平移和旋转。实际上，欧氏几何是射影几何的一个子集。 1.1.2齐次坐标设欧氏直线上点p的笛卡尔坐标为(x,y)T，如果x1,x2,x3满足x=x1/x2，y =x2/x3，x3≠0，则称三维向量(x1,x2,x3)T为点P的齐次坐标。当x3= 0时，(x1,x2,0)T规定直线上的无穷远点的齐次坐标。实际上，齐次坐标是用一个n+ 1维向量来表示原本n维的向量。应用齐次坐标的目的是用矩阵运算把二维、三维甚至高维空间中的一个点集从一个坐标系变换到另一个坐标系。形的几何变换主要包括平移、旋转、缩放等。以矩阵表达式来计算这些变换时，平移是矩阵相加，旋转和缩放则是矩阵相乘，综合起来可以表示为P’=R*P+T（R为旋转缩放矩阵，T为平移矩阵，P为原向量，P′为变换后的向量）。当n+1维的齐次坐标中第n+1维为0，则表示n维空间的一个无穷远点。

计算机视觉应用专题报告

二、技术应用场景及典型厂商分析 1.计算机视觉技术已应用于传统行业和前沿创新，安全/娱乐/营销成最抢先落地的商业化领域计算机视觉技术已经步入应用早期阶段，不仅渗透到传统领域的升级过程中，还作为最重要的基础人工智能技术参与到前沿创新的研究中。本报告将重点关注技术对传统行业的影响。其中，计算机对静态内容的识别应用主要体现在搜索变革和照片管理等基础服务层面，意在提升产品体验；伴随内容形式的变迁（文字→图片→视频），动态内容识别的需求愈加旺盛，安全、娱乐、营销成为最先落地的商业化领域。 Analysys易观认为，这三类领域均有一定的产业痛点，且均是视频内容产出的重地，数据体量巨大，适合利用深度学习的方式予以改进。与此同时，行业潜在的商业变现空间也是吸引创业者参与的重要原因。另一方面，当前计算机视觉主要应用于二维信息的识别，研究者们还在积极探索计算机对三维空间的感知能力，以提高识别深度。

2.计算机视觉的应用从软硬件两个层面优化安防人员的作业效率和深度安防是环境最为复杂的应用领域，通常的应用场景以识别犯罪嫌疑人、目标车辆（含套牌车/假牌车）以及真实环境中的异常为主。传统安防产品主要功能在于录像收录，只能为安防人员在事后取证的环节提供可能的线索，且需要人工进行反复地逐帧排查，耗时耗力；智能安防则是将视频内容结构化处理，通过大数据分析平台进行智能识别搜索，大大简化了工作难度，提高工作效率。除此之外，在硬件层面上，传统安防产品超过4-5米的监控内容通常无法达到图像识别的像素要求，并容易受复杂环境中光影变化和移动

遮挡的影响而产生信息丢失，因此计算机会出现大量的误报漏报，这些局限为治安工作造成了一定的阻碍。安防技术厂商在此基础上进行了创新，以格灵深瞳为例，目前已将摄像头的有效识别距离稳定至70-80米，同时开创了三维计算机视觉的应用，通过整合各类传感器达到类人眼的效果，减弱了环境对信息采集的负面影响，提高复杂环境下的识别准确度。 Analysys易观认为，计算机视觉的应用从行业痛点出发，以软硬件的方式大大优化了安防人员的作业效率与参考深度，是顺应行业升级的利好。不过，在实际应用过程中，对公安、交警、金融等常见安防需求方而言，更强的视觉识别效果往往意味着更多基础成本（存储、带宽等）的投入，安防厂商的未来将不只以技术高低作为唯一衡量标准，产品的实用性能与性价比的平衡才是进行突围、实现量产的根本，因此市场除了有巨大的应用空间外，还会引发一定的底层创新。

计算机视觉实验报告Experiment3

Experiment 3：Edge Detection Class: 电子1203班Student ID: 1210910322 Name: 王影 Ⅰ. Aim The aim of this laboratory session is to learn to deal with image data by Matlab. By the end of this session, you should be able to perform image preprocessing of edge detection in spatial domain and frequency domain. Ⅱ. Knowledge required in the Experiment ⅰ.You are supposed to have learned the basic skills of using Matlab; ⅱ.You need to review Matlab programming language and M-file format. ⅲ. You should have studied edge detection methods. Ⅲ.Experiment Contents Demand: Please show the figure on the left and list the codes on the right respectively bellow each question.(请将运行结果(图片)和程序代码贴在每题下方) ⅰ.Read “car.jpg” file (to do this by imread function), convert the color image into grayscale image, and then perform edge detection using Roterts, Prewitt, Sobel operator separately in spatial domain and display the results in a Matlab window. 程序： clear; im=imread('car.jpg'); I=rgb2gray(im); subplot(3,2,1);imshow(I); title('Gray image'); [Y,X]=size(I); im_edge=zeros(Y,X); T=30; for k=2:Y-1 for kk=2:X-1 im_edge(k,kk)=abs(I(k+1,kk+1)-I(k,kk))+abs(I(k,kk+1)-I(k+1,kk)); if (im_edge(k,kk)>T)

计算机视觉理论学习总结

第一部分：深度学习 1、神经网络基础问题（1）Backpropagation 后向传播是在求解损失函数L对参数w求导时候用到的方法，目的是通过链式法则对参数进行一层一层的求导。这里重点强调：要将参数进行随机初始化而不是全部置0，否则所有隐层的数值都会与输入相关，这称为对称失效。大致过程是: ●首先前向传导计算出所有节点的激活值和输出值， ●计算整体损失函数： ●然后针对第L层的每个节点计算出残差（本质就是整体损失函数对每一层激活值Z的导数），所以要对W求导只要再乘上激活函数对W的导数即可（2）梯度消失、梯度爆炸梯度消失：这本质上是由于激活函数的选择导致的，最简单的sigmoid函数为例，在函数的两端梯度求导结果非常小（饱和区），导致后向传播过程中由于多次用到激活函数的导数值使得整体的乘积梯度结果变得越来越小，也就出现了梯度消失的现象。梯度爆炸：同理，出现在激活函数处在激活区，而且权重W过大的情况下。但是梯度爆炸不如梯度消失出现的机会多。 dropout， regularization， batch normalizatin，但是要注意dropout只在训练的

时候用，让一部分神经元随机失活。 Batch normalization是为了让输出都是单位高斯激活，方法是在连接和激活函数之间加入BatchNorm层，计算每个特征的均值和方差进行规则化。 2、CNN问题（1）思想改变全连接为局部连接，这是由于图片的特殊性造成的（图像的一部分的统计特性与其他部分是一样的），通过局部连接和参数共享大范围的减少参数值。可以通过使用多个filter来提取图片的不同特征（多卷积核）。（2）filter尺寸的选择通常尺寸多为奇数（1，3，5，7）（3）输出尺寸计算公式输出尺寸=(N - F +padding*2)/stride + 1 步长可以自由选择通过补零的方式来实现连接。（4）pooling池化的作用虽然通过卷积的方式可以大范围的减少输出尺寸（特征数），但是依然很难计算而且很容易过拟合，所以依然利用图片的静态特性通过池化的方式进一步减少尺寸。（5）常用的几个模型，这个最好能记住模型大致的尺寸参数。 1、RNN原理：在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward+Neural+Networks)。而在RNN中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出。所以叫循环神经网络 2、RNN、LSTM、GRU区别 ●RNN引入了循环的概念，但是在实际过程中却出现了初始信息随时间消失的问题，即长期依赖（Long-Term Dependencies）问题，所以引入了LSTM。 ●LSTM：因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸。推导forget gate，input gate，cell state， hidden information等因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸的变化是关键，下图非常明确适合记忆：

机器视觉实验报告

目录一实验名称 (2) 二试验设备 (2) 三实验目的 (2) 四实验内容及工作原理 (2) （一）kinect for windows (2) （二）手持式自定位三维激光扫描仪 (3) （三）柔性三坐标测量仪 (9) （四）双面结构光 (10) 总结与展望 (14) 参考文献 (16)

《机器视觉》实验报告一、实验名称对kinect for windows、三维激光扫描仪、柔性三坐标测量仪和双面结构光等设备结构功能的认识。二、实验设备 kinect for windows、三维激光扫描仪、柔性三坐标测量仪、双面结构光。三、实验目的让同学们对机器视觉平时所使用的仪器设备以及机器视觉在实际运用中的具体实现过程有一定的了解。熟悉各种设备的结构功能和操作方法，以便于进行二次开发。其次，深化同学们对机器视觉系统的认识，拓宽同学们的知识面，以便于同学们后续的学习。四、实验内容及工作原理 (一)kinect for windows 1.Kinect简介 Kinectfor Xbox 360，简称Kinect，是由微软开发，应用于Xbox 360 主机的周边设备。它让玩家不需要手持或踩踏控制器，而是使用语音指令或手势来操作Xbox360 的系统界面。它也能捕捉玩家全身上下的动作，用身体来进行游戏，带给玩家“免控制器的游戏与娱乐体验”。2012年2月1日，微软正式发布面向Windows系统的Kinect版本“Kinect for Windows”。 2.硬件组成 Kinect有三个镜头[1]，如图1-1所示。中间的镜头是RGB 彩色摄影机，用来采集彩色图像。左右两边镜头则分别为红外线发射器和红外线CMOS 摄影机所构成的3D结构光深度感应器，用来采集深度数据（场景中物体到摄像头的距离）。彩色摄像头最大支持1280*960分辨率成像，红外摄像头最大支持640*480成像。Kinect还搭配了追焦技术，底座马达会随着对焦物体移动跟着转动。Kinect也内建阵列式麦克风，由四个麦克风同时收音，比对后消除杂音，并通过其采集声音进行语音识别和声源定位[2][3]。

车牌识别综合实验报告大作业

数字图像处理综合实验报告车牌识别技术（LPR）组长：__ ******_____ 组员：___ _****** _ ___ _******_____ ____ _*******___ 指导老师：___ *******_____ *****学院****学院 2010年6月10日

实验五车牌识别技术（LPR）一、实验目的 1、了解车牌识别系统的实现，及车牌识别系统的应用； 2、了解并掌握车牌识别系统如何实现。二、实验容 1、车牌识别系统的图像预处理、 2、车牌定位、 3、字符分割 4、字符识别三、实验原理车辆牌照识别（LPR）系统是一个专用的计算机视觉系统，它能够自动地摄取车辆图像和识别车牌，可应用在公路自动收费、停车场管理、失窃车辆侦察、门卫系统、智能交通系统等不同场合。LPR系统的广泛应用将有助于加快我国交通管理自动化的进程。 1、预处理摄像时的光照条件，牌照的整洁程度，摄像机的状态（焦距，角度和镜头的光学畸变），以及车速的不稳定等因素都会不同程度的影响图像效果，出现图像模糊，歪斜或缺损，车牌字符边界模糊不清，细节不清，笔画断开，粗细不均等现象，从而影响车牌区域的分割与字符识别的工作，所以识别之前要进行预处理。预处理的包括： 1）消除模糊—— 用逆滤波处理消除匀速运动造成的图像运动模糊 2）图像去噪。通常得到的汽车图像会有一些污点，椒盐噪声，应用中值滤波 3）图像增强自然光照度的昼夜变化会引起图像对比度的不足，所以必须图像增强，可以采用灰度拉伸，直方图均衡等通过以上处理，提高了图像的质量，强化了图像区域。

2、车牌定位自然环境下，汽车图像背景复杂、光照不均匀，如何在自然背景中准确地确定牌照区域是整个识别过程的关键。首先对采集到的视频图像进行大围相关搜索，找到符合汽车牌照特征的若干区域作为候选区，然后对这些侯选区域做进一步分析、评判，最后选定一个最佳的区域作为牌照区域，并将其从图象中分割出来。 ? 图像的灰度化 ? 图像灰度拉伸 ? 对图像进行边缘检测采用Sobel 算子经行边缘检测该算子包含两组3*3的矩阵，分别为横向及纵向，将之与图像作平面卷积，即可分别得出横向及纵向的亮度差分近似值。如果以A 代表原始图像，Gx 及Gy 分别代表经横向及纵向边缘检测的图像，其公式如下: A Gx *]101202101?????+-+-+-?????= and A *121000121Gy ???? ?---+++?????= 图像的每一个像素的横向及纵向梯度近似值可用以下的公式结合，来计算梯度的大小。 2 y 2x G G G += 然后可用以下公式计算梯度方向。 ??? ? ??=x y G G arctan θ 在以上例子中，如果以上的角度θ等于零，即代表图像该处拥有纵向边缘，左方较右方暗。 ? 对其进行二值化 ? 纹理分析法行扫描行法是利用了车牌的连续特性。车牌区域有连续7个字符，而且字符与字符之间的距离在一定围。定义从目标到背景或者从背景到目标为一个跳变。牌照区域相对于其它非车牌区域跳变多，而且间距在定围和跳变次数大于一定次数，并且连续满足上述要求的行要达到一定的数目。从下到上的顺序扫描，对图像的每一行进行从左向右的扫描，碰到跳变点记录下当前位置，如果某行连续20个跳变点以上，并且前一个跳变点和后一个跳变点的距离在30个像素，就记录下起始点和终止点位置，如果连续有10行以上这样的跳变点，我们就认为该区域就是车牌预选区域。 3、字符分割：完成牌照区域的定位后，再将牌照区域分割成单个字符，然后进行识别。字符分割一般采用垂直投影法。由于字符在垂直方向上的投影必然在字符间或字符的间隙处取得局部最小值的附近，并且这个位置应满足牌照的字符书写格式、字符、尺寸限制和一些其他条件。利用垂直投影法对复杂环境下的汽车图像中的字符分割有较好的效果。 ? 车牌区域灰度二值化

人工智能YOLO V2 图像识别实验报告

第一章前言部分 1.1课程项目背景与意义 1.1.1课程项目背景视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科，计算机视觉开始于60年代初，但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。计算机视觉与人类视觉密切相关，对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。科学技术的发展是推动人类社会进步的主要原因之一,未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信息将有助于社会的现代化建设,这其中图像信息是目前人们生活中最常见的信息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习中的一个新的研究领域，通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向，引起更多计算机视觉领域研究者对深度学习进行探索和讨论，并推动了目标和行为识别的研究，推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势，我们小组选择了基于回归方法的深度学习目标识别算法YOLO的研究。 1.1.2课程项目研究的意义众所周知，当前是信息时代，信息的获得、加工、处理以及应用都有了飞跃

创新课程总结报告

******************* 创新课程 ******************* 兰州理工大学计算机与通信学院 2014年秋季学期学习总结报告专业班级：信息与计算科学2班姓名：杨晨学号：11500212 指导教师：李睿成绩：

目录摘要 (1) 1.人脸检测概述 (2) 1.1、人脸识别技术概念及现状 (2) 1.2、人脸识别技术的应用 (2) 1.3、人脸识别技术应用所面临的问题 (4) 2.PCA、LDA算法理论 (4) 2.1、PCA（主要成分分析）算法原理 (4) 2.2、LDA算法原理 (5) 3.算法实现 (8) 3.1、PCA算法的实现 (8) 3.1、LDA算法的实现 (10) 4.仿真实验结果及分析 (13) 4.1、PCA算法实验结果分析 (13) 4.2、LDA算法实验结果分析 (14) 5.学习心得 (15) 参考文献 (16)

摘要人脸检测是指对于任意一幅给定的静态图像或视频序列图像,采用一定的策略和方法对其进行搜索以确定其中是否含有人脸,如果有,则返回人脸的位置、大小和姿态人脸检测技术及应用，是计算机视觉的一个重要分支，是一个多学科的交叉领域。本课程拟通过教师指导与学生自学相结合的模式，让学生掌握人脸检测技术的相关理论和方法，并自主设计、开发出一个适用于复杂背景和多人脸的人脸检测系统。使学生通过该课程的学习，可以初步掌握人脸检测的基本原理和应用系统的开发方法，提高综合运用所学知识去解决实际问题的能力，极大限度地发挥出学生的学习主动性和创造性。关键词：人脸检测、图像处理、原理、应用。

1.人脸检测概述人脸检测是指对于任意一幅给定的静态图像或视频序列图像,采用一定的策略和方法对其进行搜索以确定其中是否含有人脸,如果有,则返回人脸的位置、大小和姿态。人脸检测可细分为两类:一类是在静止图像中采用一定的策略进行搜索,以判断其中是否存在人脸,若存在,则返冋人脸的位置、大小和姿态信息;另一类是在视频图像序列中判断是否存在人脸,若存在,则动态地跟踪人脸。 1.1、人脸识别技术概念及现状人脸识别，即通过计算机、相关算法对人脸进行分析判断的一种认证技术。通常也叫做人像识别、面部识别。严格的来说，我们统称人脸识别。人脸识别技术从应用层面上主要可分为：人脸检测、人脸识别查询、人脸识别身份认证和人脸识别比对四方面的应用，其可全部归纳为人脸识别查询技术。目前，我国从事人脸识别技术研究的单位有很多，使得生物特征识别技术形成了一定市场规模，同时也缩小了与国外的差距。2008年，以清华大学和中科院自动化研究所为代表的北京奥运会实名制票证系统的实施将生物特征识别技术又推到了一个新的水平，为我国生物识别技术在安防领域的应用打下了坚实的基础。 1.2、人脸识别技术的应用（1）人脸检测人脸检测，顾名思义，就是对视频图像进行检测看是否有“清晰”人脸的图像高速处理过程。目前，被应用在银行的大联网高速图像搜索系统正是基于人脸检测技术与人脸识别查询技术为一体的视频图像快速索引系统。目前，很多地区的城市视频监控、银行监控都逐渐实施联网工程，浩大的联网工程产生了海量的视频数据。如何对海量的视频数据进行快速准确的查询成为我们目前必须要解决的问题。为此，针对银行大联网高速图像搜索系统的现状而开发出了一套综合应用系统。

计算机视觉第二次作业实验报告

厦门大学计算机视觉实验报告摄像机标定姓名：孙振强学号：31520161153451 时间：2016.11.23

一、实验目的学习使用OpenCV并利用OpenCV进行摄像机标定，编程实现，给出实验结果和分析。二、实验原理 2.1摄像机标定的作用在计算机视觉应用问题中，有时需要利用二位图像还原三维空间中的物体，从二维图像信息出发计算三维空间物体的几何信息的过程中，三维空间中某点的位置与二维图像中对应点之间的相互关系是由摄像机的几何模型决定的，这些几何模型的参数就是摄像机参数，而这些参数通常是未知的，摄像机标定实验的作用就是通过计算确定摄像机的几何、光学参数，摄像机相对于世界坐标系的方位。 2.2摄像机标定的基本原理 2.2.1摄像机成像模型摄像机成像模型是摄像机标定的基础，确定了成像模型才能确定摄像机内外参数的个数和求解的方法。计算机视觉研究中，三维空间中的物体到像平面的投影关系即为成像模型，理想的投影成像模型是光学中的中心投影，也称为针孔模型。实际摄像系统由透镜和透镜组组成，可以由针孔模型近似模拟摄像机成像模型。图2.1 针孔成像 2.2.2坐标变换在实际摄像机的使用过程中，为方便计算人们常常设置多个坐标系，因此空间点的成像过程必然涉及到许多坐标系之间的相互转化，下面主要阐述几个重要坐标系之间的转换关系。

2.2.2.1世界坐标系--摄像机坐标系图2.2 世界坐标系与摄像机坐标系空间关系世界坐标系与摄像机坐标系之间的转换关系为： ????? ?????????????=????????????111w w w T c c c Z Y X O T R Z Y X R 和T 分别是从世界坐标系到摄像机坐标系的旋转变换和平移变换系数，反映的是世界坐标系和摄像机坐标系之间的关系，因此称为外参数。 2.2.2.2物理坐标系--像素坐标系图2.3 像素坐标系

对张正友标定的理解

张正友标定算法解读一直以来想写篇相机标定方面的东西，最近组会上也要讲标定方面东西，所以顺便写了。无论是OpenCV还是matlab标定箱，都是以张正友棋盘标定算法为核心实现的,这篇PAMI的文章<>影响力极大，张正友是zju的机械系出身，貌似现在是微软的终身教授了，有点牛的。我就简单的介绍下算法的核心原理，公式的推理可能有点多。。。一基本问题描述：空间平面的三维点与相机平面二维点的映射假设空间平面中三维点：（齐次坐标，世界坐标系）相机平面二维点：（齐次坐标，相机坐标系）那么空间中的点是如何映射到相机平面上去呢？我们用一个等式来表示两者之间关系：（1）注：A为相机内参矩阵，R，t分别为旋转和平移矩阵，s为一个放缩因子标量。我们把等式（1）再简化下：（2）因为张正友算法选取的是平面标定，所以令z=0,所以平移向量只有r1,r2即可。H就是我们常说的单应性矩阵，在这里描述的是空间中平面三维点和相机平面二维点之间的关系。因为相机平面中点的坐标可以通过图像处理的方式（哈里斯角点，再基于梯度搜索的方式精确控制点位置）获取，而空间平面中三维点可以通过事先做好的棋盘获取。所以也就是说每张图片都可以计算出一个H矩阵。二内参限制我们把H矩阵(3*3)写成3个列向量形式，那么我们把H矩阵又可写成：

（3) 注:lamda是个放缩因子标量，也是s的倒数。那么现在我们要用一个关键性的条件：r1和r2标准正交。正交：（4）单位向量（模相等）：（5）这个两个等式是非常优美的，因为它完美的与绝对二次曲线理论联系起来了，这里就不展开了。三相机内参的求解我们令：（6）我们可知B矩阵是个对称矩阵，所以可以写成一个6维向量形式：（7）我们把H矩阵的列向量形式为：（8）那么根据等式（8）我们把等式（4）改写成：（9）

计算机视觉实验5形态学滤波实验报告

Experiment 4：Thresholding & mathematical morphology 王影电子1203班学号：1210910322 Ⅰ. Aim The aim of this laboratory session is to learn to deal with image data by Matlab. By the end of this session, you should be able to perform image preprocessing of thresholding and mathematical morphology. Ⅱ. Knowledge required in the Experiment ⅰ.You are supposed to have learned the basic skills of using Matlab; ⅱ.You need to review Matlab programming language and M-file format. ⅲ. You should have studied image segmentation and mathematical morphology methods. Ⅲ.Experiment Contents ⅰ.Read “bac.bmp” file (to do this by imread function), convert the color image into grayscale image, and then perform thresholding by auto threshoding method using “while loop” and display the results in a Matlab window. 程序： %Iterative thresholdi clear all; im=imread('bac.bmp'); subplot(1,2,1); imshow(im); title('Gray image'); [Y X]=size(im); S=sum(sum(im)); S=S/(X*Y); D=0.1; T=0; im_bi=im>S; while(abs(S-T)>D) im1=double(im_bi).*double(im); im2=double(abs(1-im_bi)).*double(im); S1=sum(sum(im1))/sum(sum(im_bi)); S2=sum(sum(im2))/sum(sum(abs(1-im_bi))); T=S; S=(S1+S2)/2;

计算机视觉课程设计报告

计算机视觉课程设计实验报告 1．题目: 图像变形 2．组员：曹英(E03640201) 叶超(E03640124) 李淑珍(E03640104) 3．实验目的：掌握图像几何运算中变形算法 4．实验原理：对两幅图分别进行卷绕、插值，每幅图得到一序列图片，然后对这些序列图片进行加权求和，得到一序列帧，再将其显示出来，就得到了由一幅图到另一幅图的变形。 5．实验步骤：对一幅图分别选4行4列的16个控制点，在每条边上进行五等分，每条边形成六个点，加上原来的16个就是36个控制点，这样就把它分成了不规则的25小块，对每小块进行卷绕、插值，本实验我们用的是最近邻插值，目标控制点就是将图片分成标准并且相同大小的25小块的36个点。这样会得到一幅不规则图片，让它作为新的原图进行如前所述一样的处理，控制点都是这样自动产生的：一开始所选每个控制点到相应标准控制点等距离(本实验我们是分成9等分)产生一序列的36个控制点。这样每产生一幅图都对它进行相类似的处理，控制点的产生方法就是上面所说的那样。得到的一序列图片越来越接近原图，最后一幅与原图一样。这样我们就可以得到这样的一序列图片：原图，手工选控制点进行处理后得到的不规则图，循环产生控制点得到的越来越接近原图的9幅图（最后一幅与原图一样）。为了描述的方便，这里我把它编号为1_1到1_11。对目标图进行与原图一样的处理。编号也类似，即2_1到2_11。最后进行加权求和，第一帧是原图，第二帧是1_10与2_2加权求和，其中1_10的权值是0.9，2_2的权值是0.1，第三帧是1_9与2_3加权求和，其中1_9的权值是0.8，2_3的权值是0.2，……，第十帧是1_2与2_10加权求和，其中1_10的权值是0.1，2_2的权值是0.9，第十一帧是目标图。这样就得到了所要的结果。这里需要说明的是两幅手工选择的控制点最好是那些有代表性的特征点，这样的话结果会更好。

《计算机视觉》知识要点总结终极

1、、。；视觉是人类观察世界、认知世界的重要功能手段。人类从外界获得信息约有80%来自视觉系统。 2、计算机视觉是指用计算机实现人类的视觉功能，即对客观世界中三维场景的感知、加工和理解。计算机视觉的研究方法只有有两种：一种是仿生学的方法，参照人类视觉系统的结构原理，建立相应的处理模块完成类似的功能和工作；另一种是工程的方法，即从分析人类视觉过程的功能着手，并不刻意模拟人，视觉系统内部结构，而仅考虑系统的输入和输出，并采用任何现有的手段来实现系统的功能。计算机视觉主要研究目标有两个：一是建立计算机视觉系统来完成各种视觉任务；二是把该研究作为探索人脑视觉工作机理的手段，即生物学机理。 3、计算机视觉系统的功能模块主要有以下几个模块：图像采集、预处理、基元检测、目标分割、表达描述、形状分析等，参考下图1.4.1 4、整个视觉过程是由光学过程，化学过程和神经处理过程这3个顺序的子过程所构成。光学过程：我们需要掌握的是人眼水平截面的示意图，见图2.1.1。光学过程基本确定了成像的尺寸。类似照相机。

化学过程：视网膜表面的光接收细胞可分为：锥细胞（亮视觉）和柱细胞（暗视觉）。化学过程，基本确定了成像的亮度或颜色。神经处理过程：将对光的感觉转换为对景物的知觉。视觉处理过程流图2.1,2如下： 5、形状知觉是对景物各部分相对关系的知觉，也与视野中各种空间关系的知觉有关。 6、轮廓（封闭的边界）是形状知觉中最基本的概念，人在知觉一个形状以前一定先看到轮廓。轮廓的构成如果用数学语言来说就是轮廓对应亮度的二阶导数。轮廓与形状又有区别，轮廓不等于形状。轮廓在帮助构成形状时还有“方向性”。轮廓通常倾向于对它所包围的空间发生影响，即轮廓一般是向内部而不是向外部发挥构成形状的作用。 7、主观轮廓：在没有直接刺激作用下产生的轮廓知觉。主观轮廓的形成是在一定感觉信息的基础上进行知觉假设的结果 8、空间知觉的问题本质是一个深度感知的问题。人对空间场景的深度感知主要依靠双目视觉实现。 9、图像采集是获取图像的技术和过程。对应于视觉过程中的光学和化学过程。需要利用几何学原理解决场景中目标的投影位置在图像中国的什么地方的问题和利用光度学原理（或辐射度学）建立场景中的亮度与图像中对应位置灰度的联系。 10、图像采集中主要的模型：几何成像模型和亮度成像模型 11、世界坐标系：也称为真实或现实世界坐标系XYZ，是客观事件的绝对坐标（也称为客观坐标系统）。一般的3-D场景都是用这个坐标系统来表示的。摄像机坐标系：是以摄像机为中心指定的坐标系统xyz，一般取摄像机的光学轴为z轴。图像平面坐标系：在摄像机内形成的图像平面的坐标系统x’y’。一般取图像平面与摄像机坐标系统xy平面平行，且x轴与x’轴，y与y’轴分别重合，这样图像平面的原点就在摄像机的光学轴上。 12、固态阵列中最常用的主要元件是用电荷耦合器件（change-coupled device，CCD），特点是具有非常快的快门速度。 CMOS（complementary metal oxide semiconductor）摄像机基于互补型金属氧化物半导体工艺，其传感器主要包括传感器核心、模/数转换器、输出寄存器、控制寄存器、增益放大器等。特点是低功耗、尺寸小，总体成本低。但是噪声水平比CCD高一个量级。电荷注射器件（charge-injection device，CID），有一个和图像矩阵对应的电极矩阵，在每一个像素位置有两个隔离绝缘的能产生电位阱的电极。优点是，随机访问，不会产生图像浮散。但是相对CCD，CID对光电敏感度要低很多。 13、采集装置基本性能指标：线性响应，灵敏度，信噪比，阴影（不均匀度），快门速度，读取速率。 14、图像采集的方式主要由光源、采集器和景物三者决定。 15、空间分辨率（即数字化的空间采样点数）。幅度分辨率（即采样点值的量化级数）。辐射到图像采集矩阵中光电感受单元的信号在空间上被采样，而在强度上被量化。