文档库 最新最全的文档下载
当前位置:文档库 › 基于特征统计的字符识别

基于特征统计的字符识别

基于特征统计的字符识别
基于特征统计的字符识别

基于特征统计的字符识别

摘要

采用数字字符轮廓结构特征和统计特征相结合的方法,并从中选出稳定的局部特征,利用结构语句是别的方法进行数字的识别,能够实现不同字体数字的准确识别,同时还提高了是别的速度。

关键字:字符识别,MATLAB,统计特征。

前言

字符识别是模式识别的一个分支,它能大大提高信息的采集录入速度,减轻人们的工作强度。随着计算机技,字符识别技术多年来不断改进和完善,现在已经广泛应用于各个领域,使大量的文档资料能快速、方便、省时省力和及时地自动输入计算机,实现信息处理的电子化。到目前为止,尽管人们研究中已取得很多可喜成就,但还不能满足我们日常的需求.研究字符识别技术,提高字符识别率具有非常重要的意义。

一.ORC技术简介

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果,能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿

的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML 等格式文档;并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。

早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。

OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率。

二.识别算法简介

目前用于字符识别中的算法主要有基于模板匹配的算法以及基于人工神经网络的算法。

1. 基于模板匹配的算法

基于模板匹配的的基本过程是:模板匹配方法是一种经典的模式识别方法,是最直接的识别字符方法,其实现方式是计算输入模式与样本之间的相似性,取相似性最大的样本为输入模式所属类别。首先要建立模版库,将待识别字符进行二值化并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选择最佳匹配作为结果。这种方法具有较快的识别速度,尤其对二值图像速度更快,可以满足实时性要求,但是,它对噪声很敏感,而且对字符的字体风格不具有适应性,任何有关光照、字符清晰度和大小的变化都会

影响识别的正确率,因此在实际应用中为了提高正确率往往需要使用大的模板或多个模板进行匹配,而处理时间则随着模板的增大以及模板个数的增加而增加。该算法的一种改进是基于关键点的模板匹配算法,但针对不同的应用环境,关键点的选取方法是不同的。

该算法可用于类似车牌字符等印刷体字符识别。在字符较规整时,算法对字符图像的缺损、污迹有较强的抗干扰能。

2.基于人工神经网络的算法

神经网络理论自20 世纪中期提出以来,取得了一系列的研究成果。近年来,随着计算机术和非线性科学的发展,神经网络理论的研究又进入一个新的高潮,其应用己经渗透到各个域,并在智能控制、模式识别、计算机视觉、生物医学工程等方面取得了巨大贡献。

用神经网络进行字符识别,主要有两种方法:一种方法是先对待识别字符进行特征提取,然后用所获得的特征来训练神经网络分类器。这种方法实际上是传统方法与神经网络技术的结合,可以利用人的经验来获取模式特征,然后充分利用神经网络的分类能力来识别字符,其识别效果与字符特征的提取有关,而字符的特征提取往往比较耗时。因此,字符特征的提取就成为研究的关键,特征参数过多会增加训练时间,过少会引起判断上的歧义。另一种方法是充分利用神经网络的特点,直接把待处理图像输入网络,由网络自动实现特征提取直至识别。这种网络互连较多,待处理信息量大。这种方法无需特征提取,由网络自动识别字符,抗干扰性能好,识别率高。但该方法产生的网络结构比较复杂,输入模式维数的增加可能导致网络规模庞大。

虽然,神经网络在识别效果上提高的余地较大,具有较强的容错能力,还可进一步训练学习,识别率较高,但其识别速度较慢,不能满足实时性的要求。

正文

一.特征统计匹配法介绍

特征统计匹配法的要点是先提取待识别模式的一组统计特征,再按照一定准则所确定的决策函数进行分类判决。汉字的识别是将字符点阵看作一个整体,根据每个字符的笔画特征不同,将字符分解为横、竖、撇、捺、折、圆中的一种或几种结构特征的集合,经过大量的统计得到所用特征,再与字符库中的特征集合进行匹配,从而得到输入字符的识别结果。

1.字符轮廓的定义

由于受噪声和随机污点的干扰,以及二值化和粘连字符处理会引起的字符变形。为了尽量减少这种变形对信息特征的干扰,或者从变形的字符中提取可靠的特征信息,将字符的整体轮廓分解为顶部,底部,左侧和右侧4个方向的轮廓特征来描述,使得当其中的的某部分的笔画发生变形时,不会改变或者减少对其他部位特征的影响。

左轮廓(LP(K),k=1,2,3….M)定义为字符最左边边界像素点的水平方向坐标值。

LP(i)=min{x|P(x,y)∈C,y=i} i=1,2….M

式中P(x,y)表示图像中的坐标为(x,y)的像素点,C表示字符像素点的集合。同理,右侧轮廓(RP(k), k=1,2,3….M)定义为字符最右边边界像素点的水平方向坐标值。

LP(i)=max{x|P(x,y)∈C,y=i} i=1,2….M

相应的顶部轮廓(TP(K),k=1,2,3….M)定义为字符最高边界像素点的垂直方向坐标值。底部轮廓(BP(K),k=1,2,3….M)定义为字符最低边界像素点的垂直方向坐标值。

TP(j)=min{x|P(x,y)∈C,y=j} j=1,2….N

BP(j)=min{x|P(x,y)∈C,y=j} j=1,2….N

为了描述轮廓变化的特征,定义了4个方向的轮廓的一阶微分:

LPD=LP(i+1)-LP(i);

RPD=RP(i+1)-RP(i);

TPD=TP(j+1)-TP(j);

BPD=BP(j+1)-BP(j);

式中i=1,2….M-1;j=1,2…N-1;

2.结构基元

利用定义的一阶微分变化趋势,定义构成字符轮廓的基本基元。基本基元共有5个,分别是左斜(L),右斜(R),竖直(V),圆弧(C),突变(P)。以左侧轮廓为例,定义上述基本基元:(1)竖直

定义:假设SL,SV和SR分别表示某一侧轮廓的一阶微分值大于零,等于零和小于零的个数,若SR=0,SL=0,则结构为V。

(2)左斜

定义:假设SL,SV和SR分别表示某一侧轮廓的一阶微分值大于零,等于零和小于零的个数,若SR=0,SL大于阈值LT,则结构为L。

(3)右斜

定义:假设SL,SV和SR分别表示某一侧轮廓的一阶微分值大于零,等于零和小于零的个数,若SL=0,SR大于阈值RT,则结构为R。

(4)圆弧

定义:假设SL,SV和SR分别表示某一侧轮廓的一阶微分值大于零,等于零和小于零的个数,若SR大于阈值RT,SL大于阈值LT,则结构为C。

(5)突变

连续的字符轮廓,其一阶微分值的变化量比较小,而当字符轮廓不连续时,其一阶微分值相对较大,因此,定义:当轮廓的一阶微分值超过阈值PT时,则字符轮廓有突变,即为结构P。

3.基元的检测

根据上述定义,考虑实际应用中存在的干扰,基元的检测如下:

假设PD(K)表示某侧轮廓的一阶微分,k=1,2,….K,SL,SV,和SL分别检测到的PD(K)大于零,等于零和小于零的个数,PT,RT和LT为正整数,则:

(1)若PD(K)≥PT,则在K处检测到的结构为突变P;

若SL

若SL>LT,SR>RT,则在K处检测到的结构为左斜L;

若SLRT,则在K处检测到的结构为右斜R;

若SL>LT,SR>RT,则在K处检测到的结构为圆弧C;

(2)由于字符轮廓突变处,表示字符轮廓不连续,则突变前后的字符轮廓特征必须分别检测。即若K1处检测到P,则在[1,k1-1]的字符轮廓范围内统计SL,SV和SR独立进行结构基元检测。若在k2处又检测到P,则在[k1+1,k2-1]的范围内进行结构基元检测,以此类推。(3)由于字符轮廓基元的形成需要一定的数(T)轮廓像素点,即只有当SL+SV+SR≥T 时,才能进行基元检测,否则不进行基元检测,例如,当SL+SV+SR=2时,其形成的基元结构是不稳定的。

(4)检测到突变结构P有效的范围在X∈[ST,N-ST+1],y∈[ST,M-ST+1],其中的ST表示字符笔画的宽度。这主要是为了避免干扰严重的情况下,轮廓边缘光滑处理不够理想时,可能检测到的假突变基元。

4.轮廓的统计特征

采用上述的结构基元还不足以准确识别残缺和完整的数字,引入轮廓的统计特征。(1)水平方向的最大字符宽度Wmax:

Wmax=max{RP(k)-LP(K)}

该特征主要用于识别数字1.当Wmax≤H

,即为数字1.

2

(2)垂直方向的比划数

该特征主要用于识别数字0和8.因为0和8的轮廓结构特征极其相似,所以借助于垂直方向的比划数加以区分,受数字底部残缺的影响8在垂直方向的最大笔画数也可能为2.采用检测到的笔画数为2时垂直方向的最小值来代替。

5.数字识别算法

将数字字符的顶部,左右两侧的局部轮廓结构特征和轮廓统计特征组合成特征向量,用以描述10个数字。根据特征向量,采用结构语句识别算法识别底部残缺的和完整的数字字符。由于底部特征丢失,会改变左右两侧的部分特征结构,但不会影响顶部特征,因此特征描述和机构匹配识别都从顶部轮廓特征开始。

实验结果

一.结果显示

数字0的识别结果:

数字1的识别结果:

相关文档