文档库 最新最全的文档下载
当前位置:文档库 › OCR光学字符识别技术原理讲解

OCR光学字符识别技术原理讲解

OCR光学字符识别技术原理讲解

OCR 光学字符识别技术原理讲解

OCR (光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR 最重要的课题,ICR 的名词也因此而产生。衡量一个OCR 系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

ocr 识别的过程如下:

1、图像输入:要进行ocr 识别,第一步便要采集所要识别的图像,可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等都可以,然后将图像输入到识别核心。

2、图像预处理:此过程包含二值化(将图像上的像素点灰度值设置为0 或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果)、去噪、倾斜度矫正等。

一种字符识别算法在自动识别系统中的应用_刘春雨

25卷 第3期2008年3月 微电子学与计算机 MICROELECTRONICS &COMPUTER Vol.25 No.3March 2008 收稿日期:2007-05-08 一种字符识别算法在自动识别系统中的应用 刘春雨,李 俊 (中国科学院计算机网络信息中心,北京100080) 摘 要:基于车牌识别系统的开发,提出一种基于二值图像的字符识别算法.在该算法中,提取字符的点阵特征、特征线和网格特征,分类器采用神经网络.为充分利用各组特征向量的互补作用,采取层次结构来获得系统的最佳性能.实验表明此算法非常有效. 关键词:字符识别;网格特征;神经网络 中图分类号:TP393 文献标识码:A 文章编号:1000-7180(2008)03-0071-03 A Character Recognition Algorithm in the Application of Vehicle License Plate Recognition System LIU Chun 2yu,LI Jun (Computer Network Information Center,Chinese Academy of Sciences,Beijing 100080,China) Abstr act:We extract the features including the Lattice Structure,Key Line and Gr id F eatures.T he network is used as t he classificat ion.To make full of use of all kinds of featur e vectors,the hierarchical algorithm is adapted for optimal per 2formance.We test our algorithms in car number plate database.As the experimental results show,our algor ithm is very efficient. Key words:OCR;grid featur es;nerve network 1 引言 车牌识别系统就是利用光学字符识别技术解决汽车牌照识别的典型系统,它的开发与应用有利于交通的控制与管理,是智能交通系统(IT S)中一个重要组成部分.车牌识别系统的软件部分主要由四部分组成,包括预处理、车牌定位、字符定位与字符识别.这四部分是顺序执行,而每个处理模块都为下一步处理作铺垫,其中字符识别模块是最后一步,也是衡量系统整体性能的一步. 字符识别涉及两个方面,即特征提取和识别方法,二者是继承互补的关系.关于字符的特征提取,目前已有许多经典的算法被提出来.根据字符的图像类型不同,特征提取可以分为彩色特征提取、灰度特征提取和二值特征提取;根据字符特征提取的基础可以分为点阵式统计特征提取,骨架或者细化特 征提取;根据字符特征提取的内容可以分为统计特征的提取,逻辑特征或者笔画特征提取等. 利用二值图像进行字符识别已提出多种算法[126],但识别效率和计算复杂度尚不能令人满意.为此提出新的字符识别算法. 2 算法 经过以上的字符预处理,将二值字符图像送入识别模块,完成字符识别任务.对于二值图像作如下几个步骤:归一化、细化和识别. 2.1 归一化和细化 把分割的二值图像进行线性缩放归一化,这样有利于特征提取和字符识别.归一化就是对实际提取的字符进行缩放操作,最后得到预定大小的字符图像.根据车牌号图片库中提取的4万多个字符样本,统计出样本的平均宽高为:20@16像素,因此利

扫描仪的基本原理及基础知识

扫描仪的基本原理及基础知识 扫描仪是一种光机电一体化的高科技产品。它是将各种形式的图像信息输入计算机的重要工具。是继键盘和鼠标之后的第三代计算机输入设备。也是功能极强的一种输入设备。人们通常将扫描仪用于计算机图像的输入,从最直接的图片、照片、胶片到各类图纸图形以及各类文稿资料都可以用扫描仪输入到计算机中进而实现对这些图像形式的信息的处理、管理、使用、存贮、输出等。目前扫描仪已广泛应用于各类图形图像处理、出版、印刷、广告制作、办公自动化、多媒体、图文数据库、图文通讯、工程图纸输入等许多领域。 2.扫描仪由哪些部分组成?是如何工作的? 扫描仪主要由光学成像部分、机械传动部分和转换电路部分组成。这几部分相互配合将反映图像特征的光信号转换为计算机可接受的电信号。扫描仪的核心是完成光电转换的光电转换部件。目前大多数扫描仪采用的光电转换部件是所谓的电荷耦合器件(CCD)。它可以将照射在其上的光信号转换为对应的电信号。其它主要部分的组成有:光学成像部分的光源、光路和镜头;转换电路部分的A/D转换处理电路及控制机械部分运动的控制电路和机械传动机构的步进电机、扫描头及导轨等。扫描仪工作时首先由光源将光线照在欲输入的图稿上产生表示图像特征的反射光(反射稿)或透射光(透射稿)。光学系统采集这些光线将其聚焦在CCD上,由CCD将光信号转换为电信号,然后由电路部分对这些信号进行A/D转换及处理产生对应的数字信号输送给计算机。当机械传动机构在控制电路的控制下带动装有光学系统和CCD的扫描头与图稿进行相对运动将图稿全部扫描一遍,一幅完整的图像就输入到计算机中去了。 3.扫描仪是如何分类的? 目前市场上扫描仪种类很多,按不同的标准可分成不同的类型。按扫描原理可将扫描仪分为以CCD 为核心的平板式扫描仪、手持式扫描仪和以光电倍增管为核心的滚筒式扫描仪。按扫描图像幅面的大小可分为小幅面的手持式扫描仪、中等幅面的台式扫描仪和大幅面的工程图扫描仪,按扫描图稿的介质可分为反射式(纸材料)扫描仪和透射式(胶片)扫描仪以及既可扫反射稿又可扫透射稿的多用途扫描仪。按用途可将扫描仪分为可用于各种图稿输入的通用型扫描仪和专门用于特殊图像输入的专用型扫描仪如条码读入器、卡片阅读机等。 4.扫描仪的主要性能指标有哪些? 扫描仪的性能指标主要有表示扫描仪精度的分辨率;表示扫描图像灰度层次范围的灰度级;表示扫描图像彩色范围的色彩数,以及扫描速度和扫描幅面等。分辨率表示了扫描仪对图像细节的表面能力,通常用每英寸长度上扫描图像所含有的象素点的个数表示,记做DPI(Dot Per Inch)。目前,多数扫描仪的分辨率在300DPI-2400DPI之间。灰度级表示灰度图像的亮度层次范围。级数越多扫描图像的亮度范围越大、层次越丰富。目前多数扫描仪的灰度为256级。色彩数表示彩色扫描仪所能产生的颜色范围。通常用表示每个象素点上颜色的数据位数(bit)表示。比如常说的真彩色图像指的是每个象素点的颜色用24位二进制数表示,共可表示224=16.8M种颜色,通常称这种扫描仪为24bit真彩色扫描仪。色彩数越多扫描图像越鲜艳真实。扫描速度有多种表示方法,通常用在指定的分辨率和图像尺寸下的扫描时间表示。扫描幅面表示可扫描图稿的最大尺寸,常见的有A4、A3、A0幅面等。 5.手持扫描仪的主要特点及用途是什么? 手持扫描仪的主要优点是体积小、携带方便、价格低廉。其扫描图像的最大宽度是105mm,长度方向不限。使用时由人手推动扫描仪从图稿上移过,扫描图像质量与人的操作有关。扫大图时可用软件实现拼接,手持扫描仪的性能指标一般较低,分辨率通常为400DPI左右,以黑白和灰度的类型居多,彩色类型近来发展较快,此类扫描仪主要用于名片制作、桌面排版、图文数据库、电脑刻字、字符识别(OCR)等方面。由于手持扫描仪的幅面小、精度低、应用范围有限,通常适合于初学者、家庭和资金有限且对幅面和精度要求不高的用户。目前世界市场上70%以上的手持扫描仪是台湾生产的,代表性产品有Mustek系列、Primax 系列、Qtronix系列等。

矩阵键盘的工作原理和扫描确认方式

9.3.1 矩阵键盘的工作原理和扫描确认方式 来源:《AVR单片机嵌入式系统原理与应用实践》M16华东师范大学电子系马潮 当键盘中按键数量较多时,为了减少对I/O 口的占用,通常将按键排列成矩阵形式,也称为行列键盘,这是一种常见的连接方式。矩阵式键盘接口见图9-7 所示,它由行线和列线组成,按键位于行、列的交叉点上。当键被按下时,其交点的行线和列线接通,相应的行线或列线上的电平发生变化,MCU 通过检测行或列线上的电平变化可以确定哪个按键被按下。 图9-7 为一个 4 x 3 的行列结构,可以构成12 个键的键盘。如果使用 4 x 4 的行列结构,就能组成一个16 键的键盘。很明显,在按键数量多的场合,矩阵键盘与独立式按键键盘相比可以节省很多的I/O 口线。 矩阵键盘不仅在连接上比单独式按键复杂,它的按键识别方法也比单独式按键复杂。在矩阵键盘的软件接口程序中,常使用的按键识别方法有行扫描法和线反转法。这两种方法的基本思路是采用循环查循的方法,反复查询按键的状态,因此会大量占用MCU 的时间,所以较好的方式也是采用状态机的方法来设计,尽量减少键盘查询过程对MCU 的占用时间。 下面以图9-7 为例,介绍采用行扫描法对矩阵键盘进行判别的思路。图9-7 中,PD0、PD1、PD2 为3 根列线,作为键盘的输入口(工作于输入方式)。PD3、PD4、PD5、PD6 为4根行线,工作于输出方式,由MCU(扫描)控制其输出的电平值。行扫描法也称为逐行扫描查询法,其按键识别的过程如下。 √将全部行线PD3-PD6 置低电平输出,然后读PD0-PD2 三根输入列线中有无低电平出现。只要有低电平出现,则说明有键按下(实际编程时,还要考虑按键的消抖)。如读到的都是高电平,则表示无键按下。 √在确认有键按下后,需要进入确定具体哪一个键闭合的过程。其思路是:依

基于神经网络方法的字符识别方法

论文写作与规范 题目:基于神经网络方法的字符识别方法 学号: 210802102 专业:计算机系统结构 姓名:靳飞飞 2009 年 1 月 9日

基于神经网络方法的字符识别方法 靳飞飞 (中国海洋大学信息科学与工程学院, 山东青岛266071) 摘要:字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,而是模式识别领域中大多数课题都会遇到的基本问题,并且在不同的课题中,由于具体的条件不同,解决的方法也不尽相同,因而字符识别的研究仍具有理论和实践意义。这里讨论的是用神经网络方法实现基于照相的数字图像的字符识别的问题。并且通过模板匹配的方法作为参照,以体现神经网络在处理模式识别问题上的优势。由于人工神经网络的非线性以及并行性和鲁棒性等特点,在上述领域,其取得了以往传统算法无法获得的成功。 关键词:神经网络;字符识别;图像处理 Character recognition based on neural network Jin Feifei (College of Information Science and Engineering,Ocean University of China,Qingdao 266071,China) Abstract:Character recognition is a traditional problem in the field of pattern recognition, for it is rather an isolated task than a fundamental problem in most work of pattern recognition area, with which we have various methods to deal in terms of specific conditions. That means the pursuit of character recognition is of great significance both in theory and in practice .The goal of this paper is using neural network to recognize characters on digital image based on camera. It also can be seen, in the paper, the advantage of neural network compared with the template matching method. Because its nonlinearity, parallel and strong, in these fields mentioned above, artificial neural network has achieved the success which other traditional algorithms can not reach. Key word: neural network, character recognition, image processing 1引言 字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,

十种自动识别技术

自动识别技术 1. 条码 5. 电子信息交换 2. 生物测量 6. 机器视觉 3. 卡片技术7. 光学字符识别 3.1磁条卡8. 射频信息通讯 3.2光学卡片9. 射频识别 3.3智能卡10.语音识别 4. 接触记忆 自动识别技术概述 条形码是主要的自动收集技术,用来收集有关任何人物、地点或物品的资料.它的应用范围是无限的。条码被用来进行物品追踪、控制库存、记录时间和出勤、监视生产过程、质量控制、检进检出、分类、订单输入、文件追踪、进出控制、个人识别、送货与收货、仓库管理、路线管理、售货点作业以及包括追踪药物使用和病人收款等在内的医疗保健方面的应用。 条码本身不是一套系统,而是一种十分有效的识别工具它提供准确及时的信息来支持成熟的管理系统。条码使用能够逐渐地提高准确性和效率,节省开支并改进业务操作。 条码是由不同宽度的浅色和深色的部分(通常是条形)组成的图形,这些部分代表数字、字母或标点符号。将由条与空代表的信息编码的方法被称作符号法。符号法有许多种。下面列举的是一些最常使用的符号法。 通用产品码(UPC码)和它在世界范围的相似物国际物品码(EAN码)在零售业被非常广泛地使用,它们正在工业和贸易领域中被广泛地接受。UPC/EAN码是一种全数字的符号法(它只能表示数字)。 在工业、药物和政府应用中最多的是39码,它是一种字母与数字混合符号法,它具有自我检验功能,能够提供不同的长度和较高的信息安全性。它被一些工业贸易组织所接受,包括汽车工业活动组织(AIAG)、保健工业贸易通讯委员会(HIBCC)和美国国防部(DOD)。工业应用包括追踪生产过程、仓库库存,还有识别影印领域这样的特别应用。作为一种字母与数字混合符号法,39码除有数字外,还能够支持大写字母并有一些标点符号。 与39码相比,128码是一种更便捷的符号法,它能够代表整个ASCII字母系列。它提供一种特殊的“双重密度”的全数字模式并有高信息安全性能。128码正在逐渐代替39码。HIBCC 和统一编码委员会(UCC)已接受一种特殊版本的128码(UCC/EAN-128)用来进行送货箱的标记。在ANSI的送货箱标记标准中也承认UCC/EAN-128码。在需要将序号、批量号和其它有关信息输入到产品标签上的应用中使用UCC/EAN-128码的趋势有进一步的发展。两维码符号法正在跟进 两维码符号法是条码发展的下一步骤。它们比传统的条形码的密度高得多,所以能提供较高的信息完整程度。因为它们能够将更多的信息放入更小的面积内,所以它们为许多不同的应用所接受。 有两种不同的两维码符号法:重叠式条码(条码的细条重叠在一起)和矩阵式符号法(它是统一规格的黑白方块的组合,而不是不同宽度的条与空的组合)。 重叠式条码(如PDF417码、Codablock、Supercode)包括附加的版式排列信息,这样信息会总处于正确的位置中。信息量可达到1K的字母(如果计算进“连接”的符号会更高)。例如,PDF417码被用来为送货/收货标签信息编码,甚至ANSI使用它来为送货箱的标签编码,作为“纸张电子信息交换”的一部分。这种符号法被多个工业组织和许多工业公司所采

一种基于多模板匹配的字符识别方法

一种基于多模板匹配的字符识别方法 李 婧,龚晓峰,王瑞辉 (四川大学 电气信息学院 成都 610065) 摘要:本文在对字符进行各种预处理,包括倾斜校正,归一化,分割的基础上,依据字符的高度,宽度范围,提出了一种基于多模板匹配的字符识别方法,并将该算法运用于仿宋_GB2312字体,识别率达到98%以上,有效的提高了识别正确率,简单易实现。 关键词:倾斜校正;字符分割;多模板匹配 中图分类号:TP391.41 文献标识码:A A recognition method of characters based on Multi-Template Matching LI Jing, GONG Xiao-feng, Wang Rui-hui (College of Electrical Information, Sichuan University, Chengdu 610065, China) Abstract: This paper first do pretreatment such as skew correction, normalization, segmentation of characters, etc. Then it presented a new muti-template matching method according to the range of the character’s width and height. At last, the experiment used in the FangSong_GB2312 font show that this method can improve recognition accuracy and is easy to put into practice. Keywords: skew correction; character segmentation; multi-template matching 0 引言 字符识别是图像处理和模式识别领域中的研究课题之一,它涉及模式识别、图像处理、人工智能、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、人工智能、车牌识别、交通管理等高技术领域都有着重要的实用价值和理论意义[1]。目前字符识别主要有以下几种方法:1)利用字符的统计特征进行特征提取,2)基于字符结构分析的识别方法,3)利用字符的结构特征和变换进行特征提取,4)基于模板匹配的方法进行字符识别,5)近年来又出现了基于神经网络的算法和基于矩和小波变换的识别算法。但由于同一字体的字符有各种字号的差异,单一的运用上述某一种方法的效果都不理想[2]。为了提高识别率,本文从识别率较高的模板匹配法入手,对单模板匹配和特征模板进行改进,提出了一种根据字符高度,宽度值为每个字聚类多个模板,最后采用海明距离实现多模板的匹配。通过将该算法运用于仿宋_GB2312字体,发现这一方法能有效解决相似度高的字符的正确识别问题,有一定的实用价值。 1 识别系统总体方案 字符识别系统一般包括字符预处理,字符分割,字符识别三个环节,系统框图如图1所示。

基于MATLAB的字符识别研究

基于MATLAB的字符识别研究 汽车牌照识别程序的设计 摘要:本次课程设计的目的是通过对基于MATLAB的字符识别的研究,以汽车牌照识别的设计为实例,详细介绍字符识别的相关原理。整个汽车牌照识别的过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用MATLAB软件编程来实现每一个部分,最后识别出汽车牌照。在研究的同时对其中出现的问题进行了具体分析,处理。寻找出对于具体的汽车牌照识别过程的最好的方法。 关键词:MATLAB 字符识别车牌识别神经网络图像处理 引言 在MATLAB的字符识别研究中,汽车牌照的识别是最经典的样例,因为车辆牌照识别系统(License Plate Recognition System,简称LPRS)是建设智能交通系统不可或缺的部分。基于 MATLAB 图像处理的汽车牌照识别系统是通过引入数字摄像技术和计算机信息管理技术,采用先进的图像处理模式识别和人工智能技术,通过对图像的采集和处理,获得更多的信息,从而达到更高的智能化管理程度。车牌识别系统整个处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用 MATLAB软件编程来实现每一个部分处理工程,最后识别出汽车牌照。 一、 MATLAB及其图像处理工具概述 MATLAB 是 MATrix LABoratory (矩阵实验室)的缩写,是 Math Works 公司开发的一种功能强效率高简单易学的数学软件。MATLAB 的图像处理工具箱,功能十分强大,支持的图像文件格式丰富,如*.BMP、*.JPG、 *.JPEG、 *.GIF、 *.TIF 、*.TIFF、 *.PNG 、*.PCX、 *.XWD、 *.HDF、*.ICO 、*.CUR 等。MATLAB 7.X 提供了20 多类的图像处理函数,几乎涵盖了图像处理的所有技术方法,是学习和研究图像处理的人员难得的宝贵资料和加工工具箱。这些函数按其功能可分为:图像显示、图像文件 I/O、图像算术运算、几何变换、图像登记、像素值与统计图像分析、图像增强、线性滤波、线性二元滤波设计、图像去模糊、图像变换、邻域与块处理、灰度与二值图像的形态学运算、基于边缘的处理、色彩映射表操作色彩空间变换图像类型与类型转换。MATLAB 还着重在图形用户界面(GUI)的制作上作了很大的改善,对这方面有特殊要求的用户也可以得到满足。本文将给出 MATLAB 的图像处理工具箱中的图像处理函数实现图像处理与分析的应用技术实例。 二、基于 MATLAB图像处理的汽车牌照识别系统 1.系统组成 基于MATLAB图像处理的汽车牌照识别系统主要包括车牌定位字符车牌分割和车牌字符识别三个关键环节其识别流程图如图 1所示。 图1 识别流程图 其中, (1)原始图像:由数码相机或其它扫描装置拍摄到的图像; (2)图像预处理:对动态采集到的图像进行滤波、边界增强等处理以克服图像干扰; (3)车牌定位:计算边缘图像的投影面积,寻找峰谷点,大致确定车牌位置,再计算此连通域内的宽 高比,剔除不在域值范围内的连通域,最后得到的便为车牌区域; (4)字符分割:利用投影检测的字符定位分割方法得到单个的字符; (5)字符数据库:为第6步的字符识别建立字符模板数据库; (6)字符识别:通过基于模板匹配的OCR算法或基于人工神经网络的OCR算法,通过特征对比或训练 识别出相关的字符,得到最后的汽车牌照,包括英文字母和数字。

光学字符识别

光学字符识别 OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。 由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。 在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。 OCR的发展 要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。其处理流程如下图:

关于ocr

如何使用OCR 下面教你如何使用OCR: OCR是英文Optical Character Recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思, 是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在OCR主要是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开销售的,专业的OCR 软件谠缧┦焙蚵舻帽壬 枰腔挂 蟆K孀派 枰欠直媛实奶嵘 琌CR软件也在不断升级,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。OCR技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和OCR技术的日臻完善,OCR 己成为绝大多数扫描仪用户的得力助手 二、OCR的基本原理 简单地说,OCR的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件CCD将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是OCR的重要技术。 1.OCR识别的两种方式 与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或样本点。OCR识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。 单元模式匹配识别法(Pattern Matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。 特征提取识别法(Feature Extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。 多数OCR应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,OCR应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。 2.文字识别的几个步骤 文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。 (1)图文输入 是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以

字符识别方法归纳

字符识别 一、理论 1.结构模式识别:根据字符结构特征进行识别,可用来识别汉字,但抗干扰能力差。可用来识别少量和简单的字符,如数字。 2.统计模式识别:其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。 常见的统计模式识别方法有: (1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。 (2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高。 (3)投影直方图法。利用字符图象在水平及垂直方向的投影作为特征。该方法对倾斜旋转非常敏感,细分能力差。 (4)几何矩(Geometric Moment)特征。M. K. Hu提出利用矩不变量

作为特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件。 (5)Spline曲线近似与傅立叶描绘子(Fourier Descriptor)。两种方法都是针对字符图象轮廓的。Spline曲线近似是在轮廓上找到曲率大的折点,利用Spline曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的字符图象不适用,因此很难用于笔划断裂的字符的识别。 (6)笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:字符图象某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图象质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时误差较大。 (7)外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特征。 (8)基于微结构特征的方法。这种方法的出发点在于,汉字是由笔划组成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组

Microsoft Office直接执行光学字符识别(OCR)

提取图片中的文字Office也能行 微软在Microsoft Office 2003中的工具组件中有一个“Microsoft Office Document Imaging”的组件包,它可以直接执行光学字符识别(OCR),下面笔者就为大家介绍利用Office 2003新增的OCR功能从图片中提取文字的方法。 第一步我们需要安装“Microsoft Office Document Imaging”的组件,点“开始→程序”,在“Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行(如图1所示)。 图1 安装组件 第二步打开带有文字的图片或电子书籍等,找到你希望提取的页面,按下键盘上的打印屏幕键(PrintScreen)进行屏幕取图。 第三步打开Microsoft Office Word 2003 ,将刚才的屏幕截图粘贴进去;点击“文件”菜单中的“打印”,在安装Microsoft Office Document Imaging组件后,系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。如图2所示,在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机,其他选项无须额外设置,点击“确定”按钮后,设定好文件输出的路径及文件名(缺省使用源文件名),然后很快就可以自动生成一个MDI格式的文档了。 图2 选择打印机

打开刚才保存的MDI类型文件(如图3所示),根据你的需要用鼠标选择文字内容(被选中的内容在红色的框内),然后单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word”,即可将图片内容自动转换为一个新的Word文档,然后你就可以在Word文档中随心所欲地进行编辑了。 图3 将文本发送到Word 提示:如果你不想将转换的内容输入到一个新的Word 文档中,而是希望粘贴到一个已经打开的Word 文档,只需在上面的操作中点击右键菜单的“复制”,然后再到指定文档中执行粘贴即可。()

ocr工作原理

ocr工作原理 汉王ocr工作原理 所谓OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。 一、OCR的发展 要谈OCR的发展,早在 60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文

印刷行业中的机器视觉技术.

印刷行业中的机器视觉技术 北京兰德梅克科技开发公司 王庆国 机器视觉就是用利用机器代替人眼来做判断、测量和识别。根据印刷生产线的要求,其特点是高速、非接触式、客观和精确。在现代工业向着高度自动化、智能化发展的今天,机器视觉技术在各行各业的应用越来越广泛。同样在印刷行业的各种全自动设备中也能见到它的影子。 机器视觉开始于上世纪80年代初,首先兴起于电子行业,90年代初进入印刷行业。 自动定位 基于机器视觉的平面自动定位系统是通过两个摄像头获取目标位置信息,然后获取待对位对象的当前位置,通过计算获得两个位置间的相对距离,将计算结果反馈给控制系统,控制系统驱动电机自动地将待对位对象移到目标位置。目前,同过机器视觉技术达到的自动定位可以达到微米级精度。 其工作流程如下: 1、获取目标位置:首先要求目标位置(如图1)和待对位对象附带两个靶标(如图1蓝色所示)。摄像头获取目标位置靶标(如图2)。 2、获取待对位对象位置:通过摄像头获取待对位的对象的两个靶标。 3、计算相对距离:通过计算两组靶标的相对距离,从而控制驱动电机将待对位对象移到目标位置上。 在国外一些全自动印刷设备上,自动定位系统正逐渐被应用。如全自动打孔机,对于彩附带靶标的目标位置 图3待对位对象位置 图5待对位对象和目标位置相对位置 图6 对位后图像

色印刷而言,PS版在印刷及滚筒上是否正确对位是决定印刷品质重要因素,而保证正确对位的一个关键是PS版上的孔打的位置精确与否。采用机器视觉定位系统的全自动打孔机只要将PS版放在工作台上,摄像头将自动搜索位置,并将其移到目标位置并完成打孔,其打孔精度可保证在10微米以内。在印刷电路板行业,曝光机、平面丝印机是不可或缺的设备,对于全自动曝光机,为了实现基板和底片的高精度的对位,有些生产厂家采用4个摄像头,从而可以避免由于操作者不同引起的质量差异。在全自动平面丝印机上,每块印制版的基准孔(印制版上的靶标)首先通过摄像头被检出、定位,然后实现高精度印刷。 印刷品缺陷检测 基于机器视觉的印刷品缺陷检测技术是采用高速、高清晰度摄像头和自动可调专业光源来获取标准图像,根据印品的特征和客户的需求来设置检测区域和检测等级。然后在相同的采集条件下获取待检测图像,在图像处理装置中与标准样张进行比较,对于与标准样张存在差异的地方,根据其差异程度,按预先设定的等级进行分类,并作出相应的反馈。从而实现对刀丝、飞墨、针孔、异物等缺陷和颜色偏差的在线全幅检测。图7是基于PRS-LB130视觉检查系统的印刷品缺陷检测示意图。 图7 PRS-LB130视觉检查系统的印刷品缺陷检测示意 基于机器视觉的印刷品缺陷检测技术从原理分析不难,但它对硬件、软件要求比较高。首先是摄像头,必须颜色再现性要好,能够真实获取样张的色彩,再则,曝光速度要足够快,这两项指标使得摄像头的成本就比较高。其次,对于光源的要求,由于印刷速度不恒定,那么随着印刷速度的变化,光源的亮度应该实时可变,从而可以保证采集的图像质量。第三,图像处理算法应该具有较强的鲁棒性来克服在印刷过程中产生的一些随机因素导致图像采集不稳定,同时一些生产厂商开发特殊的图像处理引擎来满足高速印刷发展的要求。 目前基于机器视觉的印刷品缺陷检测技术已逐渐在一些高精度、高附加值的印刷行业的设备中得到应用。首先是票证印刷行业,由于它的印刷对象大都是有价证券,对印刷质量有特殊要求。其次是烟包印刷,烟草包装不同于其他产品的包装,有着其自身的特点,烟包印刷所需的技术工艺是仅次于钞票和有价证券的印刷,是目前要求精度最高的包装产品之一。同时烟草包装也是附加值最高的包装产品之一,因而其也是全自动印刷品质量检测设备应用最广的领域。由于标签印刷其印刷幅面相对来说较小,因而其所需的全自动印刷品质量检测的硬件成本相对来说较少,因此欧洲和日本的设备制造商争相将印刷质量检测系统引入到标签印刷上。为获得稳定的印刷质量提供了有力保障。 自动套色控制 基于机器视觉的自动套色控制系统采用高清晰彩色摄像头获取样张上的辅助色标,通过图像处理算法识别出各色标颜色,并计算他们的位置。如果各色的位置及其相对位置与预先设定的不一致,则说明套印出现偏差。例如假设色标线水平长10 mm , 宽1 mm , 每个相邻颜色的标志线在套印精确时应相互平行, 垂直(纵向) 相距20 mm (如图8), 通过采集分析得出各色标间距,如果相邻两色色标间隔大于或小于20 mm ,则说明套印出现了偏差。然后将偏差信号反馈给系统作出相应修正。 图8 色标示意图

扫描仪的工作原理、性能及应用

扫描仪的工作原理、性能及应用 扫描仪是除键盘和鼠标之外被广泛应用于计算机的输入设备。你可以利用扫描仪输入照片建立自己的电子影集;输入各种图片建立自己的网站;扫描手写信函再用E-mail发送出去以代替传真机;还可以利用扫描仪配合OCR 软件输入报纸或书籍的内容,免除键盘输入汉字的辛苦。所有这些为我们展示了扫描仪不凡功能,它使我们在办公、学习和娱乐等各个方面提高效率并增进乐趣。 在选购扫描仪时,我们常常遇到许多难懂的专业技术名词,如光学分辨率(光学解析度)、最大分辨率(最大解析度)、色彩分辨率(色彩深度)、扫描模式、接口方式(连接界面)等等。 在使用扫描仪当中,又会遇到到扫描速度慢,占用硬盘空间多,以及一些不知所云的设置等诸多困扰。然而说明书提供给我们的操作指导并不能让所有的人成为应用专家,即使照着说明书去进行某些设置,也不知道为什么要这样做,这无疑给我们用好用巧机器带来了障碍。 本文针对这些问题,从扫描仪的基本结构入手,阐述它的工作原理,使我们对每一项设置或操作都道原因,在应用水平上有一个提高。 一、扫描仪的工作原理 扫描仪是图像信号输入设备。它对原稿进行光学扫描,然后将光学图像传送到光电转换器中变为模拟电信号,又将模拟电信号变换成为数字电信号,最后通过计算机接口送至计算机中。 扫描仪扫描图像的步骤是:首先将欲扫描的原稿正面朝下铺在扫描仪的

玻璃板上,原稿可以是文字稿件或者图纸照片;然后启动扫描仪驱动程序后,安装在扫描仪内部的可移动光源开始扫描原稿。为了均匀照亮稿件,扫描仪光源为长条形,并沿y方向扫过整个原稿;照射到原稿上的光线经反射后穿过一个很窄的缝隙,形成沿x方向的光带,又经过一组反光镜,由光学透镜聚焦并进入分光镜,经过棱镜和红绿蓝三色滤色镜得到的RGB三条彩色光带分别照到各自的CCD上,CCD将RGB光带转变为模拟电子信号,此信号又被A/D变换器转变为数字电子信号。 至此,反映原稿图像的光信号转变为计算机能够接受的二进制数字电子信号,最后通过串行或者并行等接口送至计算机。扫描仪每扫一行就得到原稿x方向一行的图像信息,随着沿y方向的移动,在计算机内部逐步形成原稿的全图。 在扫描仪获取图像的过程中,有两个元件起到关键作用。一个是CCD,它将光信号转换成为电信号;另一个是A/D变换器,它将模拟电信号变为数字电信号。这两个元件的性能直接影响扫描仪的整体性能指标,同时也关系到我们选购和使用扫描仪时如何正确理解和处理某些参数及设置。 1.什么是CCD? CCD是Charge Couple Device的缩写,称为电荷耦合器件,它是利用微电子技术制成的表面光电器件,可以实现光电转换功能。 CCD在摄像机、数码相机和扫描仪中应用广泛,只不过摄像机中使用的是点阵CCD,即包括x、y两个方向用于摄取平面图像,而扫描仪中使用的是线性CCD,它只有x一个方向,y方向扫描由扫描仪的机械装置来完成。 CCD芯片上有许多光敏单元,它们可以将不同的光线转换成不同的电荷,

相关文档