文档库 最新最全的文档下载
当前位置:文档库 › 基于Gabor变换的高鲁棒汉字识别新方法

基于Gabor变换的高鲁棒汉字识别新方法

基于Gabor变换的高鲁棒汉字识别新方法
基于Gabor变换的高鲁棒汉字识别新方法

印刷体汉字识别及其MATLAB实现

印刷体汉字的识别及其MATLAB实现 0.汉字识别研究的意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。 1.印刷体汉字识别的研究 1.1印刷体汉字识别技术的发展历程 计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的识别可以说很早就成为人们的梦想。印刷体汉字的识别最早可以追溯到60年代,但都是西方国家进行的研究。我国对印刷体汉字识别的研究始于70年代末80年代初。同国外相比,我国的印刷体汉字识别研究起步较晚。从80年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步。 1.2印刷体汉字识别的原理分析及算法研究 汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印刷体汉字识别。 印刷体汉字识别的流程如图1-1所示:

脱机手写体汉字识别综述

脱机手写体汉字识别综述 赵继印1,郑蕊蕊2,吴宝春1,李 敏1 (1.大连民族学院机电信息工程学院,辽宁大连116600;2.吉林大学通信工程学院,吉林长春130025) 摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别 的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展. 关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;汉字识别数据库中图分类号: TP39114 文献标识码: A 文章编号: 037222112(2010)022******* A Review of Off 2Line Handwritten Chine se Character Recognition ZH AO Ji 2yin 1,ZHE NG Rui 2rui 2,W U Bao 2chun 1,LI Min 1 (1.College o f Electormechanical and Information Engineering ,Dalian Nationalities Univer sity ,Dalian ,Liaoning 116600,China ; 2.College o f Communication Engineering ,Jilin Univer sity ,Changchun ,Jilin 130025,China ) Abstract : Off 2line handwritten Chinese character recognition is one of the most challenging problems in pattern recognition field.This paper analyzed the latest developments of off 2line handwritten Chinese character recognition in recent years.Main meth 2ods of the key technologies such as Chinese characters segmentation ,feature extraction and classifier design were discussed.This pa 2per also introduced 3typical off 2line handwritten Chinese character recognition databases.Finally ,remain difficult issues and future trends of off 2line handwritten Chinese character recognition were proposed.This paper will guide researchers in this field and pro 2mote development of off 2line handwritten Chinese character recognition technology. K ey words : off 2line handwritten Chinese character Recognition ;characters segmentation ;feature extraction ;classifier design ;Chinese recognition database 1 引言 汉字识别是模式识别的一个重要分支,也是文字识 别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on 2line )和脱机(off 2line )手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示. 清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求. 目前脱机手写体汉字识别仍处于实验室研究阶 段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴. 2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点.2.1 汉字类别多 汉字的个数很多,国家标准G B1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题. 收稿日期:2009202216;修回日期:2009206213 基金项目:大连民族学院科研基金(N o.20086201);吉林省科技厅科技引导计划(N o.20090511)   第2期2010年2月 电 子 学 报 ACT A E LECTRONICA SINICA V ol.38 N o.2 Feb. 2010

2020年整理汉字相近字.doc

一些词汇识别模型认为,当一个单词呈现时,它的字形相近词也会被激活,从而对目标词识别产生影响。已有研究表明,字形相近词对目标词识别的影响存在语言上的差异。我们对汉字识别中字形相近字的作用进行了研究。REM(retrieving effect ively from memory)模型和提取模型(retrieval model)认为,词汇识别与再认记忆一样都是从记忆中提取信息。鉴于再认记忆和词汇识别关系密切,我们也研究了字形相近字在再认记忆的作用。本研究中,字形相近字的操作定义是形旁家族和声旁家族。形旁家族指在相同位置拥有同一形旁的所有汉字。声旁家族指在相同位置拥有同一声旁的所有汉字。一个家族中汉字的多少用家族大小来表示。围绕字形相近字在汉字认知和记忆中的作用,我们进行了三项研究。在研究一中,我们考察了形旁家族大小、声旁家族大小和高频同声旁字在不同难度词汇判断任务中对形声字识别的影响。结果发现,形旁家族大小、声旁家族大小和高频同声旁字对形声字识别有重要影响。形旁家族大和声旁家族大对词汇判断起促进作用,高频同声旁字对词汇判断起抑制作用。这些作用受词汇判断任务难度的影响。根据结果,我们对多重标准识别模型(The multiple read-outmod el)进行了修正。研究二使用命名实验范式,考察了声旁家族大小和高频同声旁字对形声字命名的影响。结果发现,在一致字和不一致字上存在声旁家族大小的抑制作用,声旁家族越大,命名就越慢,还发现有高频同音邻近字的目标字和有高频异音

邻近字的目标字在加工上存在差异。这说明,在字形表征水平和语音表征水平上均存在字形相近字的竞争。研究一和研究二结果表明,在词汇识别中,字形相近字之间既存在着相互激活,也存在着相互竞争。这证明了交互激活模型提出的词汇识别中的两个机制:词汇到亚词汇的相互激活机制和同一词汇水平上的相互竞争机制。研究三使用记得/知道再认范式以及迫选再认范式,考察了同声旁家族大小对再认记忆的影响。结果发现,声旁家族小的汉字具有记忆优势,声旁家族小的汉字比声旁家族大的汉字有更高击中率。声旁家族大的汉字击中率低是因为在编码或提取阶段受到了同声旁字形相近字的干扰。基于实验结果,我们对汉字教学和学习提出建议:要培养学生关于汉字字形的形旁家族意识和声旁家族意识,利用家族效应促进学生对汉字的学习和记忆,同时也要注意加强对形旁家族字和声旁家族字内部分化的教学,防止高频同形旁字或高频同声旁字的消极影响。 关键字:家族,高频,形相近,汉字识别,再认记忆,词汇识别,字形,词汇判断任务,抑制作用,影响,存在,识别模型,形声字,激活,表征水平,目标词,命名,竞争,机制,提取信息 字形相近字,形旁家族,声旁家族,汉字识别 :

Fourier变换,Gabor变换,Wigner分布,小波变换实例分析

1、分别用短时Fourier ,Gabor 变换分析下列信号,要求提供程序,图形结果并对它们的结果进行对比分析。采样频率FS=1920HZ ,采样长度N=512. ()(10.2sin(215))cos(2300.5sin(215))sin(2120)x t t t t t ππππ=+++ Matlab 程序如下: fs=1920;%采样频率 N=512; %采样长度 t=0:1/fs:(N-1)/fs; %时间序列 x1=(1+0.2*sin(2*pi*15*t)).*(cos(2*pi*30*t)+0.5*sin(2*pi*15*t))+sin(2*pi*120*t);%信号 figure(1) plot(t,x1);%画想(t )的图像 y1=fft(x1,N); %对信号进行快速Fourier 变换 mag1=abs(y1);%求变换后的幅值 k=0:N-1; f1=k*fs/N; figure(2) grid on stem(f1,mag1);%绘制N 点DFI 的幅频特性图 xlabel('f1'); ylabel('幅值’); axis([0,256,0,2*max(abs(y1))]);%x,y 的范围 grid on figure(3) h=window(321,'hamming'); sig=x1; tfrstft(sig',1:512,512,h);%短时Fourier 变换 xlabel('时间(秒)'); ylabel('频率(Hz)'); figure(4) q=16; h=window(211,'gauss'); h=h/norm(h); tfrgabor(x1',128,q,h);%Gabor 变换 xlabel('时间(秒)'); ylabel('频率(Hz)');

三种认知模型

模板匹配模型、原型模型和区别性特征模型各自如何解释汉字的知觉过程?什么样的实验证据能够支持或反对这些模型? 罗文翰 00911060 生命科学学院 模型概述: 在对汉字的识别中,有三种模型可以解释汉字的知觉过程:模板匹配模型、原型模型和区别性特征模型。 模板匹配模型认为,在长期记忆中,储存着许多外部模式的“袖珍副本”,称作模板。它们与外部模式有着一一对应的关系。当一个刺激作用于人的感官时,刺激信息便被拿来与记忆中的各种模板一一比对,认为刺激与匹配程度最高的模板相同。汉字识别时,刺激的汉字与脑中储存的汉字的模板相对应,如果一致则识别出该汉字,否则不能识别出该汉字。由此我们可以知道,无论是什么汉字,其识别过程是一样的,使用的时间应该一致。 原型匹配理论认为,人的记忆中存储的不是与外部模式有一一对应关系的模板,而是原型。原型是对事物形象的一种概括的心理表征,反映一类事物的基本特征。在进行原型匹配的时候,需要把复杂对象的结构进行拆分,拆分成简单的形状,通过对部件的原型进行匹配,以达到识别对象的目的。这种比对不需要严格的准确匹配,只需近似匹配即可。即使某一范畴的客体之间存在外形、大小等方面的差异,所有这些客体可以通过原型匹配得到识别。在汉字识别过程中,把汉字分解为各种各种的组成部分,然后与脑中储存的原型进行匹配。 区别性特征模型认为,该理论认为模式是由若干元素或成分按一定关系构成的,这些元素或成分称为“特征”,特征间的关系也称为特征。特征分析理论认为所有复杂的刺激都是由一些可以区分的、相互分离的特征组成。各种模式是以分解后的一些特征形式来表征和储存的。进行识别的时候,需要抽取刺激的特征,并将其与记忆中的各种模式的特征进行比较和匹配。特征匹配模型强调的是特征、区别的分析。成功与否决定于刺激的可分解性。应用到汉字上来说就是,识别汉字时是通过识别汉字中的组成部分并且组成部分的位置关系等,由此来识别汉字。 实验证据: 在一项对汉字觉知模型的研究中(关于汉字加工单位的研究张武田冯玲),研究者发现汉字中高频字和低频子、笔画多和笔画少对于笔画多对被试对识别时间和识别正确率有影

联机手写数字识别实验报告

联机手写数字识别设计 一、设计论述 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人(及某些动物)对事物的学习、识别和判断能力,因而受到了很多科技领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从50年代开始,许多的研究者就在这一研究领域开展了广泛的探索,并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:1.联机字符识别;2.光学字符识别(Optical Chara- cter Recognition,OCR)或称离线字符识别。在联机字符识别中,计算机能够通过与计算机相连的输入设备获得输入字符笔划的顺序、笔划的方向以及字符的形状,所以相对离线字符识别来说它更容易识别一些。 参照联机字符识别的原理,我们对手写数字的特征进行了深入的研究,同时作为一个初学者,我们本次考虑设计联机手写数字0——9识别,以达到加深对《模式识别》课程理论的了解和掌握的目的。 二、设计内容 本次设计,我们使用Visual C++ 6.0软件,在《模式识别》课程理论基础上,运用VC++语言设计联机手写数字识别系统。 三、设计原理 1、基于笔划及笔划特征分类的联机识别 联机手写汉字识别的方法可以分为两类:基于整字识别方法和基于笔划识别的方法。大多数联机识别都是采取笔划识别的方法,这是因为在联机识别过程中,汉字笔划是以点坐标形式一笔一划地输入到计算机的,同样,数字在联机输入过程中也是按照一笔一划输入的。 笔划的分类有很多,基于便于识别的原理,我们在这里仅介绍一种笔划的分类。我们把汉字看成是由把构成所有汉字的笔划分为两大类:即单向笔划和变向笔划。单向笔划表示笔划的走向保持在某一方向上,即人们通常所说的基本笔划,包括有横(笔划代码1)、竖(笔划代码2)、撇(笔划代码3)、捺(笔划代码4)。变向笔划的一种分类,规定变向笔划由三种笔划组成:(1)顺笔划(笔划代码5):笔划的变向是按照顺时针规律变化的;(2)逆笔划(笔划代码6):笔划的变向是按照逆时针规律变化的;(3)混合笔划(笔划代码7):笔划的变向既有顺时

自由手写体数字识别系统的设计与实现

自由手写体数字识别系统的设计和实现 摘要:本文论述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字的预处理进行了介绍,包括二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了如何提取数字字符的结构特征和笔划特征,并详细地描述了知识库的构造方法;最后采用了以知识库为基础的模板匹配识别方法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性能。 关键词:手写体数字;预处理;模式识别;特征提取 Abstrct: This paper describes and designs a free handwritten number recognition system. Firstly, the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system is high, and the proposed method is robust to noise. Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言 OCR(Optical Character Recognition)即光学字符识别技术,是通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。OCR是模式识别的一个分支,按字体分类主要分为印刷体识别和手写体识别两大类。对于印刷体识别又可以分成单一字体单一字号和多种字体多种字号几类。而手写体识别又可分为受限手写体和不受限手写体两类;按识别方式可分为在线识别和脱机识别两类。 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多使用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入使用,将产生巨大的社会和经济效益。 在整个OCR领域中,最为困难的就是脱机自由手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距离实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际使用推广,为手写数据的高速自动输入提供了一种解决方案。 本文首先介绍了自由手写体数字识别的基本原理,包括数字图像预处

基于Gabor变换的信号降噪方法

第22卷 第3期石家庄铁道学院学报(自然科学版)Vol .22 No .32009年9月JOURNAL OF SH I J I A ZHUANG RA I L WAY I N STITUTE (NATURAL SCIENCE ) Sep.2009基于Gabor 变换的信号降噪方法 张光明, 申永军, 吴彦彦 (石家庄铁道学院机械工程分院,河北石家庄 050043) 摘要:介绍了Gabor 变换的基本理论,提出了一种基于Gabor 变换的降噪方法。该方法首先对信号进行Gabor 变换,并选择合适的阈值对Gabor 展开系数进行处理,然后对处理后的Gabor 展开系数进行Gabor 逆变换,从而实现降噪。仿真结果表明,该方法具有很好的降噪效果,为机械故障诊断提供了一种新的思路。 关键词:Gabor 变换;故障诊断;降噪 中图分类号:T N911 文献标识码:A 文章编号:167420300(2009)0320086205 收稿日期:2009205208作者简介:张光明 男 1983年出生 硕士研究生 基金项目:国家自然科学基金(10602038);教育部科学技术研究重点项目(209013) 1 引言 利用振动信号对设备进行监测诊断,是设备故障诊断中最有效、最常用的方法之一。噪声是影响机械设备早期故障诊断的主要因素,必须通过降噪,去除被分析信号中的噪声和冗余信息,凸现故障的特征信息。由于设备所处的环境复杂,噪声干扰比较多,经常使有用信号淹没在较强的噪声中,难以进行准确 的故障诊断。目前,机械故障诊断中常用的降噪方法主要有小波变换[1,2]、奇异值分解[3,4]等,这些方法均 属于通用的信号分析方法,在具体用于某种机械振动信号时一般都需要作一些特殊处理。文献[2]中关于降噪过程中信号重采样的新思想设定了齿轮箱的降噪阈值和分解层数;文献[4]中提出的基于重构吸引子轨迹矩阵的奇异值分解技术,并引入自相关函数对现有奇异值分解技术改进来实现降噪。 根据上述情况,提出了基于Gabor 变换理论[5,6]的降噪方法。该方法首先对信号进行Gabor 变换,并 选择合适的阈值对Gabor 展开系数进行处理,然后对处理后的Gabor 展开系数进行Gabor 逆变换,从而实现降噪。仿真结果表明,该方法具有较好的降噪效果,能够有效地识别机械设备的运行状态和故障特征。2 Gabor 变换 时频分析的基本思想是设计时间和频率的联合函数,利用它可以同时描述信号在不同时间和频率的能量密度和强度。比较著名的时频分析工具有短时Fourier 变换、Gabor 变换等。由于短时Fourier 变换的 窗口必须是窄窗,而Gabor 变换的窗函数不受此限制的优点,就以Gabor 变换为例进行分析[5,6]。 Gabor 变换是Gabor 在1946年提出,它是通过信号的时间平移和频率调制形式建立非平稳信号的联合时间2频率函数,然后对时间2频率平面进行采样划分,将时频平面(t,f )转换成另外两个离散采样网格参数m 和n 的平面,在二维平面(m ,n )上表征非平稳信号。 信号s (t )的连续Gabor 变换定义为 s (t )= ∑∞m =-∞∑∞ n =-∞a m n g m n (t )(1) 式中,a m n 称为Gabor 展开系数,而 g m n (t )=g (t -m T )e jn Ωt m ,n =0,±1,±2(2) 称为Gabor 基函数,需要满足 ∫|g m n (t )|2d t =1,Ω=2 π/T,T 为时宽。Gabor 展开系数可以表示为

汉字视觉加工的模型和争论

汉字视觉加工的模型和争论 [摘要]汉字是由笔画、部件按照一定的正字法规则互相拼合而成的。在汉字识别中,笔画和部件是否具有心理现实性?针对这个问题,不同的研究者意见不统一。因此提出了不同的汉字加工模型。本文主要介绍汉字识别的各种模型以及各模型之间的争论。 [关键词]汉语;汉字;视觉加工模型 汉语与世界上其他语言相比较,其特点主要表现在汉字上。汉字是一种拼形文字,字形在形、音、义三者中具有唯一性,因此有关汉字字形的研究是最多的。 一、汉字视觉加工的模型 1、汉字加工的经成分识别模型 经成分识别模型最早是Biederman为了解释物体识别的特点而提出的。后来,Huang和Wang在此模型的基础上进行修改,建立了可以解释汉字识别特点的汉字加工经成分模型。该模型认为,汉字是一种二维图形,与物体的二维图形没有太大不同。汉字识别和物体识别具有相同的心理过程。汉字识别由特征抽取开始,而后进行非偶然性特征的搜索和字符范畴的分析,接着进行成分及其关系的激活,再下来是字符模式的激活,最后汉字得到确认。 2、汉字加工的多层激活模型 多层激活模型最早是Taft提出来并且用来解释英文识别特点的。后来Taft 和Zhu结合汉字特点假设了一个关于汉字识别的多层次交互激活模型。该模型认为,汉字加工包括字音、字形和字义三个层面。有两条通道,一条负责处理正字法信息,包括笔画、部件、字等层次,每层都包含不同的单元,单元间存在大量联结;一条负责处理语音信息。以视觉方式呈现汉字,首先激活笔画单元,然后激活部件单元,最后激活整字单元。当整字的激活达到阈限时,字形得到加工,然后字形激活字音和字义,通达汉字。 3、联结主义模型 联结主义模型认为,汉字识别存在字形单元、隐单元和语音单元三个单元,各层信息分布表征。该模型采用前传型结构,即信息从字形单元层传到隐单元层,再传到字音单元层,其间不包括任何反馈、隔层联结及层内单元间的相互作用。汉字识别的具体加工过程是:在每次加工开始时,给网络呈现一个汉字字形,模拟程序将它编码为分布于字形单元上的激活模型。随后,根据字形单元的激活模型计算各个隐单元的净输入和隐单元的激活值,再计算语音层单元的激活值。 4、汉字加工的格式塔双向加工模型

脱机手写体汉字识别综述

脱机手写体汉字识别综述 摘要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展. 关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计; 1 引言 汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值[1].汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on2line)和脱机(off2line)手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示. 清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品[2].目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%~99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.目前脱机手写体汉字识别仍处于实验室研究阶段,成功的商业产品仍未发布[2~4].本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴. 2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点. 2.1 汉字类别多 汉字的个数很多,国家标准GB1803022000《信息交换用汉字编码字符集基本集的扩充》收录27484个汉字[5].汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题. 2.2 字体结构复杂 汉字基本笔画(stroke)分为:横、竖、撇、点、折[6].笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔画为特征的汉字识别中起到关键作用. 汉字的组合方式包括独体字和合体字.合体字又包括上下结构、左右结构、品字结构等多种结构.以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合. 2.3 字形变化多 手写体汉字字形总的来说可以分为:手写印刷体(hand2printfashionscripts)、行书(fluentscripts)和草书(cursivescripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形.脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度.

基于Gabor小波变换的图像纹理特征提取

基于Gabor小波变换的图像纹理特征提取 【摘要】本文对Gabor小波极其滤波器进行了介绍,对利用Gabor小波变换提取图像特征的方法进行了阐述。 【关键词】Gabor小波;紋理;滤波器;数字图像 紋理特征是所有物体表面所共有的内在特性,包含了关于物体表面的组织结构排列的重要信息以及它们与周围环境的联系。在自然界中,如树木、织物等,均具有各自的紋理特征。在计算机视觉研究中,人们还发现,紋理特征具有一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,可以从微观上区分图像中不同的物体。因此,紋理特征是经常要提取的特征。最常用的提取紋理特征的方法是灰度共生矩阵法。但这种方法占用内存多,运行速度较慢。而Gabor变换不但具有最小的时频窗,而且Gabor函数与哺乳动物的视觉感受野相当吻合。这一点对研究图像特征检测或空间频率滤波非常有用。恰当的选择Gabor变换的参数,可以出色地进行图像分割、识别与理解。现简单介绍如下: 1.Gabor滤波器的设计 Gabor函数的定义为: (1-1) 它的傅里叶变换G(u,v)为: (1-2) 其中,W为高斯函数的复调制频率。以g(x,y)为母小波,则通过对g(x,y)进行适当尺度变换和旋转变换,就可以得到自相似的一组滤波器,称为Gabor小波。 (1-3) 式中,这里表示总的方向数目(n∈[0,K]),为尺度因子,在上式中用来确保其总的能量与m无关。由傅里叶变换的线性特性可知,通过改变m和n的值,便可以得到一组方向和尺度都不同的滤波器。 Gabor小波集的非正交性意味着经滤波后的图像中有冗余信息。可以用下面的方法来减少这些冗余信息。设和分别代表高频和低频的中心频率,设K是方向的数目,S代表多分辨率分解时尺度变化的次数。这样,滤波器设计的策略为:确保Gabor滤波器组的响应在频率上半峰幅值能相互接触,且互不重叠。这样,就可以得到如下计算滤波器参数的公式:

汉字识别的不同模型

汉字识别的三种模型简介 一、模板匹配理论 简介 模板匹配理论(Lindsay, Norman 1972)是从计算机科学中的模式识别研究中移植过来的。模板匹配理论认为,在长期记忆中,储存着许多外部模式的“袖珍副本”,称作模板。它们与外部模式有着一一对应的关系。当一个刺激作用于人的感官时,刺激信息便被拿来与记忆中的各种模板一一比对,认为刺激与匹配程度最高的模板相同。 比较 模板匹配方法是最直接的识别模式。 为了进行模板匹配,必须事先在大脑中储存数量巨大的模板。这将极大的增加记忆负担。 实验验证 二、原型匹配理论 简介 原型匹配理论认为,人的记忆中存储的不是与外部模式有一一对应关系的模板,而是原型。原型是对事物形象的一种概括的心理表征,反映一类事物的基本特征。在进行原型匹配的时候,需要把复杂对象的结构进行拆分,拆分成简单的形状,通过对部件的原型进行匹配,以达到识别对象的目的。这种比对不需要严格的准确匹配,只需近似匹配即可。即使某一范畴的客体之间存在外形、大小等方面的差异,所有这些客体可以通过原型匹配得到识别。 比较 这种模型比较灵活,是模板匹配理论的深化和改进。只要找到了原型,新的事物也能得到识别。这样减轻了记忆负担,提高了识别的灵活性。但这种模型是否真的存在目前仍有争议。另外这种模型只有自下而上的加工而没有自上而下的加工,这也是一个缺陷。与模板匹配相比,这种方式中,自上而下的加工似乎更重要。

实验验证 Posner和Keele的实验(1968)最早证明了原型在刺激识别中的作用以及原型的形成过程。实验材料是点模式图,每一个刺激都包括一个标准原型和一些偏离刺激。在学习阶段,被试对偏离刺激进行分类并得到反馈,学习阶段只出现偏离刺激而不出现原型刺激。在测试阶段,将学过的偏离刺激、没学过的偏离刺激以及没学过的原型刺激混合呈现,要求被试对所有刺激进行分类。结果发现被试对学过的偏离刺激和没学过的原型刺激的分类正确率很高,对没学过的偏离刺激十倍正确率较低。这表明被试在学习阶段对偏离刺激的分类过程中,逐渐抽取了此类刺激的原型,从而对没学过的原型刺激分类产生了易化作用。 三、区别性特征理论 简介 (Selfridge, Neisser 1968)又叫“特征分析理论”。该理论认为模式是由若干元素或成分按一定关系构成的,这些元素或成分称为“特征”,特征间的关系也称为特征。特征分析理论认为所有复杂的刺激都是由一些可以区分的、相互分离的特征组成。各种模式是以分解后的一些特征形式来表征和储存的。进行识别的时候,需要抽取刺激的特征,并将其与记忆中的各种模式的特征进行比较和匹配。特征匹配模型强调的是特征、区别的分析。成功与否决定于刺激的可分解性。 比较 优点在于,抽取特征的过程本身就避免了预加工的困难,相对于模板匹配有很大的灵活性。这样大大减轻了记忆负担。 实验验证 Neisser的字母搜索实验(1963):被试需要在不同的字母表中搜寻指定的字母,比较被试在两种不同字母表中的表现。两种不同的字母表区别在于非目标字母的特征。A中非目标字母都是直线段组成的字母,如AEIH;B中非目标都是由包括曲线的字母组成,如BCDG。结果发现A中容易找到字母Q,B中容易找到字母Z。反之不容易。这种现象是模板匹配理论所不能解释的。但区别特征理论却能够解释。 四、总结 事实上,并不应该把这些模型割裂开来。他们之间从本质上就有着紧密的联系。在汉字的识别过程中各种模型可能被混合使用,而且不同的汉字可能对应不同的识别模型。例如张武田、冯玲做的关于笔画数与反应时的研究[2]。研究着眼被试对汉字的反应时间随笔画和部

利用区别性特征模型解释汉字的视觉识别过程

利用区别性特征模型解释汉字的视觉识别过程 摘要汉字的识别是一项复杂的心理过程,受到各种因素的影响,例如汉字的笔画数、部件数、频率以及字型等等。在三种传统的认知模型中,区别性特征模型是最适合用来解释汉字的识别过程的,本文将就此展开论述。 关键词汉字识别区别性特征模型笔画数部件字频 1引言 中华汉字博大精深,其数量庞大,组合复杂,且没有十分固定的语法规则,使用方式较为随意多变。研究人对这样一种文字的视觉识别过程,无论是在认知心理学领域还是对于汉字的智能识别领域都是十分必要的。 2 三种认知模型及其特点 2.1 模板匹配模型 在对汉字的识别中,有三种模型可以解释汉字的知觉过程:模板匹配模型、原型模型和区别性特征模型。 模板匹配模型认为,在长时记忆中,储存着许多外部模式的图样,称作模板,它们与外部模式有着一一对应的关系。当刺激作用于视网膜时,会被准确地传输到大脑中枢,并与所有的模板进行匹配,认知系统会认为刺激与匹配程度最高的模板相同。识别汉字时,刺激的汉字与脑中储存的汉字的模板相对应,如果一致则识别出该汉字,否则不能识别出该汉字。 2.2 原型匹配模型 原型匹配理论认为,人的记忆中存储的不是与外部模式有一一对应关系的模板,而是原型。原型是对事物形象的一种概括的心理表征,反映一类事物的基本特征。在进行原型匹配的时候,需要把复杂对象的结构进行拆分,拆分成简单的形状,通过对部件的原型进行匹配,以达到识别对象的目的。这种比对不需要严格的准确匹配,只需近似匹配即可。即使某一范畴的客体之间存在外形、大小等方面的差异,所有这些客体可以通过原型匹配得到识别。在汉字识别过程中,把汉字分解为各种各种的组成部分,然后与脑中储存的原型进行匹配。2.3 区别性特征模型 区别性特征模型认为,该理论认为模式是由若干元素或成分按一定关系构成的,这些元素或成分称为“特征”,特征间的关系也称为特征。特征分析理论认为所有复杂的刺激都是

Gabor_变换

1正是我们所关心的信号局部范围内的特性。如,音乐,语言信号等。即:局部化时间分析,图形边缘检,地震勘探反射波的位置等信息极重要。 为此,D.Gabor1946年在他的论文中提出了一种新的变换方法—Gabor 变换。 2. 定义 2.1具体窗函数――Gaussaion 的 Gabor 变换定义式 设函数f 为具体的高斯函数,且)(2R L f ∈,则Gabor 变换定义为 dt e b t g t f b a G t i a f ωω-∞ ∞-*-=?)()(),;( 其中,)4exp(21 )(2 a t a t g a -=π,是高斯函数,称为窗函数。其中a>0,b>0. )( b t g a -是一个时间局部化的“窗函数” 。其中,参数b 用于平行移动窗口,以便于覆盖整个时域。 对参数b 积分,则有 ?∞ ∞-∈=R f db b a G f ωωω),(?),,( 信号的重构表达式为 ??∞∞-∞∞--=db d e b t g b a G t f t i a f ωωπω)(),;(21)( Gabor 取g(t)为一个高斯函数有两个原因:一是高斯函数的Fourier 变换仍为高斯函数,这使得Fourier 逆变换也是用窗函数局部化,同时体现了频域的局部化;二是Gabor 变换是最优的窗口Fourier 变换。其意义在于Gabor 变换出现之后,才有了真正意义上的时间-频率分析。即Gabor 变换可以达到时频局部化的目的:它能够在整体上提供信号的全部信息而又能提供在任一局部时间内信号变化剧烈程度的信息。简言之,可以同时提供时域和频域局部化的信息。 2.2窗口的宽高关系 经理论推导可以得出:高斯窗函数条件下的窗口宽度与高度,且积为一固定值。 ][()() ()222221,1,,41,,=??? ??==??????--?+-a a a w b a w b g g H G a a a a a b a b ????ωω 矩形时间――频率窗:宽为a 2,高a 1。 由此,可以看出Gabor 变换的局限性: 时间频率的宽度对所有频率是固定不变的。实际要求是:窗口的大小应随频率而变化,频率高窗口应愈小,这才符合实际问题中的高频信号的分辨率应比低频信号的分辨率要低。 3.离散Gabor 变换的一般求法

从傅里叶(Fourier)变换到伽柏(Gabor)变换再到小波(Wavelet)变换

从傅里叶(Fourier)变换到伽柏(Gabor)变换再到小波(Wavelet)变换 本文是边学习边总结和摘抄各参考文献内容而成的,是一篇综述性入门文档,重点在于梳理傅里叶变换到伽柏变换再到小波变换的前因后果,对于一些概念但求多而全,所以可能会有些理解的不准确,后续计划分别再展开学习研究。通过本文可以了解到: 1)傅里叶变换的缺点;2)Gabor变换的概念及优缺点;3)什么是小波;4)小波变换的概念及优点。 一、前言 首先,我必须说一下,在此之前,虽然我听说过小波变换(具体是前几年听一位博士毕业答辩里提到了小波降噪)但就再也没什么了,虽然近一年来零零散散地在接触语音信号处理过程中用过短时傅里叶变换(Short Time FourierTransform, STFT),但也就如此了,之于Gabor变换听都没有听过。这些 天看稀疏基,其实也就是看各种变换了,前面看了离散余弦变换(Discrete CosineTransform, DCT)、离散正弦变换(Discrete Sine Transform, DST)、离散W变换(DiscreteW Transform, DWT)、离散哈特莱变换(Discrete Hartley Transform, DHT),总体来说理解个表皮还是比较容易的,于是打算继续学习,随便挑了一 个Curvelet基打算学习一下,搜了一下资料才发现不能从这个开始学习,必须Gabor、Wavelet、Ridgelet、Curvelet、Wedgelet、Bandelet、Beamlet、Contourlet 等慢慢开始学起,我知道我又陷入了一片沼泽,但或许是一片幸福的沼泽,一个做信号处理的人对这些是应该有一个基本的概念级了解的。这让我回忆起了几年前,我对移动通信一样,作为一名电子信息专业的大学生,居然不知道什么是TD-SCDMA,居然分不清GPS和GPRS,这一直是让我感觉很耻辱的一件事情,于是我开始看书、上网查资料,经过一段时间的努力,终于把基本的概念搞明白了,比如GSM、GPRS、EDGE、CDMA1x、CDMA2000、TD- SCDMA、WCDMA、HSPA、LTE、WiMax、wifi、Bluetooth、Zigbee、802.11、802.15.4、802.16、WLAN、WPAN、WMAN等等,感觉自己虽非身处移动通信行业,但毕竟学的这个专业,终于算是对各概念混个脸熟了。当然,对于那个冷笑话,就是GPS 和GPRS的区别也就自然清楚了。而现今,当面临Gabor、Wavelet、Ridgelet、Curvelet、Wedgelet、Bandelet、Beamlet、Contourlet这么多概念时,当年的那种感觉又来了,我想我必须把这些东西的基本概念搞定,否则如何混迹于信号处理领域?! 二、傅里叶变换(Fourier Transform) 几乎从1822年Fourier发表他的“热传导理论”以来,傅氏分析便成为最完美的数学分析工具与最广泛、最有效地应用着的信号分析方法之一。傅里叶变换是大家最熟悉的变换了,所以在此也就不多描述了,它的优点就省略了,这里就只说它的缺点吧。

空间角度谈傅立叶变换、gabor变换小波及变换

空间角度谈傅立叶变换、gabor变换小波及变换 电气与自动化工程学院王欣博1014203044 对于空间的概念,我们最熟悉的就是欧式空间,这个定义了距离概念的空间,代表了我们生活中的空间概念。在泛函分析中,空间概念得到了扩展,比较著名的有希尔伯特空间、banach空间。它们的出现,极大的拓展了数学概念的内涵,并提供给我们一系列全新的工具来构建完整的数学大厦。 在泛函分析中,傅立叶变换、gabor变换及小波变换都可以理解为空间概念下的一组正交基底,虽然其各自具有不同的性质,但是比较相似的就是,他们都代表了函数空间表达,是对空间中任意函数的级数表达,相应的,我们也可以理解为展开在傅立叶、gabor或小波张成空间的频域表达。 一、傅立叶变换 为了在空间角度理解傅立叶变换,我们需要了解傅立叶变换的概念。傅立叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在不同的研究领域,傅立叶变换具有多种不同的变体形式,如连续傅立叶变换和离散傅立叶变换。最初傅立叶分析是作为热过程的解析分析的工具被提出的。 傅里叶变换是数字信号处理领域一种很重要的算法。要知道傅里叶变换算法的意义,首先要了解傅里叶原理的意义。傅里叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅里叶变换算法利用直接测量到的原始信号,以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。 从现代数学的眼光来看,傅里叶变换是一种特殊的积分变换。它能将满足一定条件的某个函数表示成正弦基函数的线性组合或者积分。在不同的研究领域,傅里叶变换具有多种不同的变体形式,如连续傅里叶变换和离散傅里叶变换。同样,在泛函分析或空间概念下,傅立叶变换的所对应的正弦余弦函数,可作为函数空间的正交基底,并表示任意该空间下的函数。

相关文档
相关文档 最新文档