文档库 最新最全的文档下载
当前位置:文档库 › 汉字识别技术研究

汉字识别技术研究

汉字识别技术研究
汉字识别技术研究

汉字识别技术研究

摘要:本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先,将RGB图像转化为二值图像(即仅有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明,本文研究的方法能够识别汉字,准确率较高。

关键词:印刷体汉字识别;预处理;特征提取;特征匹配

目录

1 绪论 (1)

1.1 汉字识别的研究背景与现实意义 (1)

1.2 我国汉字识别技术发展历史与现状 (2)

1.3 本文研究的主要内容 (3)

2 汉字识别技术的相关基础知识 (4)

2.1 概述 (4)

2.2 汉字识别流程 (5)

2.2.1预处理 (5)

2.2.2 特征提取 (6)

2.2.3 特征匹配与汉字识别 (7)

2.2.4 后处理 (7)

2.3 汉字识别模式 (8)

2.3.1 结构模式识别 (8)

2.3.2 统计模式识别 (8)

3 汉字识别系统 (9)

3.1汉字图像增强 (9)

3.1.1 二值化处理 (9)

3.1.2 平滑去噪 (10)

3.1.3 行字切分 (10)

3.2 特征提取 (12)

3.2.1 统计特征 (12)

3.2.2 特征提取方法 (13)

3.3 特征匹配识别 (13)

3.4 后处理 (14)

4 系统仿真与实验结果 (15)

4.1实验环境 (15)

4.2实验过程 (15)

4.2.1预处理 (15)

4.2.2 特征提取与特征识别 (19)

4.2.3 比对实验 (21)

4.3仿真结果分析 (22)

4.4 本章小结 (22)

5 总结与展望 (23)

5.1总结 (23)

5.2展望 (23)

致谢 (25)

参考文献 (26)

1 绪论

1.1 汉字识别的研究背景与现实意义

据文献记载,印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵,没有得到广泛应用。

80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平。80年代中期以来,以软件为主并使用通用高档微机的产品走向市场。

汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用人数最多的文字,它记录了璀璨的民族文化,展示了我国独特的思维和认知方法。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。因此,对于我国而言,在日常工作尤其是和我们接触颇多的警务工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率,值得一提的是,这对于处理案件等警务工作的影响尤为明显[2]。因此,要求有一种能将文字信息高速、自动输入计算机的方法。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对公安工作也有着相当深远的意义。 1.2 我国汉字识别技术发展历史与现状

我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段[2]:

第一阶段,从70年代末期到80年代末期,主要是算法和方案探索。

第二阶段,90年代初期,汉字识别技术由实验室走向市场,初步实用。

第三阶段,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。

同国外相比,我国的印刷体汉字识别研究起步较晚。

中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言,实现在高速率,高效率的汉字识别技术方面的突破是目前的棘手问题,虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到98%以上。但是就汉字本身属性而言,仍然面临着以下方面的困难:

(1)类别较大

目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。

(2)结构复杂

汉字是一种结构性很强的文字,每个汉字都具有特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。

(3)相似字多

部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“干”和“于”仅在字符的下

部有一细微的差别。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易出错[3]。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。

当前,我国较为先进,也是应用较为广泛的汉字识别技术为汉王公司的汉王汉字识别软件,技术来自于清华大学丁晓青教授在模式识别、图像处理、文字识别方面的突破。而且值得一提的是,我国的汉字识别方面已经有了一个相当成熟的技术空间。

1.3 本文研究的主要内容

基于以上所述,本文将重点研究印刷体宋体汉字识别技术方面的相关技术,印刷体汉字识别技术主要分预处理、特征提取、匹配识别和后处理四部分。本文对预处理和后处理部分只是做基础性的研究工作,将重点放在研究特征提取和匹配识别两部分。

因此本文一共将分五章论述所研究的内容

第一章,简要介绍印刷体汉字识别的研究背景,存在的问题,和本文的主要工作及章节安排。

第二章,详细的介绍了印刷体汉字识别研究历程,研究范围和分类,汉字识别的流程和方法(预处理,特征提取,特征匹配)。

第三章,阐述了印刷体汉字识别预处理的过程,详细论述了对整体文档图像的处理方法,包括图像的二值化、平滑去噪和行字切分的研究及实现。以及后期的特征提取与特征匹配。

第四章,利用matlab编程方式实现汉字识别过程的仿真。

第五章,对本文工作的总结,以及对该项技术日后发展的展望。

2 汉字识别技术的相关基础知识

2.1 概述

印刷体汉字识别系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。

汉字图像通过光电扫描仪,CCD器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程,其系统流程框图如图1所示。

图1 印刷体汉字识别系统框图[3]

经图(1)的流程处理后可输出数码形式的汉字字符。

2.2 汉字识别流程

2.2.1预处理

由于通过各种光电设备或者模数转换手段获得的汉字图像必定不可避免存在一些噪声干扰。这将导致图像质量下降,也最终影响了整个系统的识别率。因此在对汉字图像进行识别处理之前,对其进行预处理,也就是加载一个图像增强的过程,从而尽可能降低干扰因素,这也是非常有必要的。本文所介绍的印刷体汉字识别技术的预处理主要由二值化,平滑去噪与行字切分等几方面组成[3][4]。

(1) 二值化

将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理[5],二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这里二值化阈值的选取较为关键。若阈值取的过大.则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰,若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。

(2)平滑去噪

平滑化处理是图像增强中的一种技术,其目的有两个:一是按特定的需要突出一幅图像中的有用信息,另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声。在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复本来面目,平滑去噪必不可少。一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。常用的平滑滤波方法有中值滤波和均值滤波[6]。本文将着重研究基于邻域平均法进行的均值滤波。

(3) 行字切分

汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分。

行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来[7]。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来以确定切割的根据。

2.2.2 特征提取

预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,

预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。

如下介绍并分析一下常用的一些的可供提取的汉字特征。

(1) 结构特征

①抽取笔画法

抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。

②松弛匹配法

松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。其缺点是操作速度较慢,计算量大。

(2) 统计特征

①特征点

特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。

②笔段特征

汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。当然,汉字的特征多种多样,各有各的优点、

短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题[8]。

2.2.3 特征匹配与汉字识别

通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板间的距离,重复上述过程。求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。松弛匹配法兼具统计方法和结构方法的特长。由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。

2.2.4 后处理

后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。

一般而言,后处理可以在相关编程过程中由计算机自动实现[7]。

2.3 汉字识别模式

2.3.1 结构模式识别

结构模式识别是早期印刷体文字识别研究的主要方法。其主要出发点是印刷体文字的组成结构。从构成上讲,印刷体文字是由笔划或更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。

在实际应用中此方法面临的要问题是抗干扰能力差因为在实际得到的文本图像中存

在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等。

2.3.2 统计模式识别

统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。印刷体文字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差些。

本文主要介绍的是统计模式识别中的模板匹配法。模板匹配也需要特征提取过程。字符的图像将被作为特征,与特征库中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理。

3 汉字识别系统

3.1汉字图像增强

3.1.1 二值化处理

把汉字图形带灰度电平的数字信号处理成二值(0,1)的数字信号,称为汉字图形数字信号二值化(Binary)。对灰度图像二值化能显著的减小数据存储的容量,降低后续处

理的复杂度。

由于印刷体汉字识别只需要处理图像中的字型信息,对颜色等信息不做处理,所以二值化处理可以去掉不必要的信息,提高识别的速度。二值化处理是汉字识别系统的首要步骤,二值化结果的质量将直接影响后续处理的效果,从而决定整个识别系统的性能指标。

因此,系统实现的首要步骤即为将文件资料扫描后的RGB图像资料通过matlab编程的方式实现向二值图像的转化。

由于汉字图像的目标和背景非常清楚,因此,本文将采用全局二值化方法,全局阈值法根据文本图像确定一个阈值。

在此,可引入索引色图像的概念,即对不同颜色进行编号,组成一个调色板,图像数据记录像素对应的调色板颜色的序号。设原始图像的序号为f(x,y),在经历的图像灰度化的过程中在f(x,y)中找到一个灰度值T作为阈值,分割后的二值图像g(x,y)的灰度值大于T值时,则g(x,y)=255(即颜色为白),否则g(x,y)=0,(即颜色为黑),其中T 值为设定的阈值[8]。这种方法对于汉字图像这种颜色较为单一而不丰富的情况较为有效。

在matlab环境下实现二值化的命令可如下所示:

I=imread('原始图像');%读取原始图片

J=rgb2gray(I);%图像灰度化

figure

subplot(2,2,1),imshow(I),title('Origin Image');%显示原始图像

subplot(2,2,2),imshow(J),title('Grayed Image');%显示灰度化后的图像

%选取阈值T对图像进行二值化处理

%灰度值大于T的为白色,小于T的为黑色

K=find(J

J(K)=0;

K=find(J>=T);

J(K)=255;

subplot(2,2,3),imshow(J),title('Binary Image');%显示二值化后的图像[8]代码(1) 在实际操作中也可以利用bw=im2bw(I,0.5);即直接用matlab自带函数进行二值化处理。

3.1.2 平滑去噪

在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复庐山真面目,平滑去噪必不可少。一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。

平滑化处理是图像增强中的一种技术,其目的有两个:一是按特定的需要突出一幅像中的有用信息;另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声[7]。

因为文字已经过二值化,所以印刷体汉字图像的质量在可以保证的前提下,对文字图像无须进行复杂的滤波处理,我们就可以使用简单有效的方法进行平滑去噪就可以了。

因此本文着重介绍的是用matlab方式实现的均值滤波法,即先对已经过二值化的文字图像添加噪声,而后用滤波法将输入转化器件与环境的影响所产生的噪声一同滤去,使经二值化的图像首先不会在边缘轮廓及线条等重要信息上被损坏,同时可以使图像清晰,视觉效果更好[9]。

经过均值滤波后的图像一是可以按特定的需要突出一幅汉字图像中的有用信息;另一是为适应计算机后期处理的需要,消除汉字在输入数字化时所混入的噪声。

3.1.3 行字切分

汉字切分是整个识别系统中极为重要的一个环节,因为正确的识别往往依赖于正确的切分。切分正确率的高低会影响到整个识别系统的有效性,没有高正确率的切分,即使有好的识别算法,也无法获得高性能的识别系统[9]。

对二值化后的图像进行扫描,若该行每个像素值均为零,则为行间空白区,若该行存在值为1的像素,且值为1的像素数目大于一给定阈值(阈值可通过实验进行优化),则可以认为是以行文字的起始扫描行,记下该行。继续进行扫描,直到扫描到一行像素值全为零或值为1的像素数目小于一给定阈值的行为止,并记下该行号,由此可确定一行文字所占区域。然后对该行进行垂直扫描,若扫描中该列像素值均为零则可认为是字符间空白列,直到扫描到一列中值为1的像素数目大于零或大于一给定阈值,则开始进行轮廓跟踪分割出一个连通区域,若分割得到的连通区域高度或宽度明显小于以前得到的字符宽度或高度,则认为是偏旁部首。寻找下一个连通区域,并合并两个连通区域。至此可确定一个汉字字符。

经过前面的预处理,特别是二值化与平滑去噪,已经将文字从背景中提取出来了,

但是以单个汉字为基础的识别要求将每个汉字从文章中提取出来。由于我们平常都是按行书写,因此首先对行进行分割,再从每行中提取汉字。

从上至下扫描图像,满足下式时,第n1行被认为是一行文字的顶部

∑=>

=

k

i

n i f

Y

1

5

)1

,(

(1)

式中n1表示文件的行号,1表示一行的字节数,f(i,n:)表示输入文件在区域内(i,n1)的值(全空为0,否则为1)

同理,满足下式时,n2被认为是一行文字的底部

∑=<

=

k

i

n i f

Y

1

5

)2

,(

(2)

∑=

= +

=

k

i

n i f

Y

1

)1

2

,(

(3)

完成了对行的分割以后,就要对字进行切分。设文字行的上端为nl,下端为n2,按如下方法进行切分:

从左至右扫描该行,当满足下式时,第ml是该字的左部。

∑=>

=

2

1

2

)1

,

(

n

n j

m

j

f

Y

(4) 同理,当满足下式时,m2被认为该字的右部。

∑=<

=

2

1

2

)1

,

(

n

n j

m

j

f

Y

(5)

∑=

= +

=

2

1

)1

2

,

(

n

n j

m

j

f

Y

(6)

但值得一提的是,这样切分出的汉字可能是不完整的,当遇到如刚、误、咽等字时,容易引起错误。这也是此种方法的缺点之一[10]。

3.2 特征提取

3.2.1 统计特征

预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠

错能力,但在另外一些情况下却完全失去了效用[10]。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。但不得不提到的是,任何一个实用的。识别系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。

汉字特征的提取应该遵循如下标准:

(1) 区别性。对于属于不同类别的对象来说,它们的特征值应具有明显的差异。

(2) 可靠性。对同类对象特征值应比较相近。例如,对于成熟程度不同的苹果来说颜色是一个不好的特征。换句话说,青苹果与熟苹果颜色尽管差别很大,它们都属于苹果。

(3) 独立性。所用的各个特征之间应彼此不相关。虽然相关性很高的特征可以组合起来(例如求均值)以减少噪声,它们一般不应该作为单独的特征使用。

(4) 特征数量。模式识别系统的复杂度随系统的维数(特征的个数)迅速增长[11]。

就笔段特征而言,汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。

当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题。

3.2.2 特征提取方法

为实现特征提取,我们将着重于对汉字的横竖撇捺四种特征的提取(汉字本身属性决定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向数据统计特征提取法,13特征点提取方法等,本文中将引入13点特征提取法。

13点特征提取方法的总体思路是:

◆首先把字符平均分成8份,统计每一份黑色像素点的个数作为8个特征.分

别统计这8个区域中的黑像素的数目,可以得到8个特征。

◆然后统计水平方向中间两行和垂直方向中间两列的黑色像素点的个数作为

4个特征,最后统计所有黑色像素点的个数作为第13个特征。也就是说,

画4道线,统计线穿过的黑像素的数目。

◆最后,将字符图像的全部黑色象素的数目的总和作为一个特征。总共即得到

13个特征[11]。

从识别时间和识别率上加以对比,13点特征提取方法比其它几种方法效率都要高。经过图像的灰度化、二值化、平滑去噪、行字切分等一系列的预处理操作之后,原来排列不齐,混入噪声的各个汉字字符变成了图像清晰,排列整齐的字符,接下来便从被处理完毕的汉字字符中,提取这个字符特点的特征向量。将提取出的样本中的特征向量代入到模板匹配模块之中就可以进行下一阶段的匹配工作中了。

3.3 特征匹配识别

基于上述所分析,我们将识别的过程分为以下几个阶段

选取特征:横笔划特征(CZ1),竖笔划(CZ2),撇笔划(CZ3),捺笔划(CZ4)。

匹配方法:偏离度,累计分类率。

匹配过程:

(1) 提取待识别文字的特征点特征。

(2) 提取出标准库中的标准文字图像。

(3) 对各项分割出的各项特征进行包含匹配:

①当特征点落入图像点阵中,偏离度为0

②当特征点未落入图像点阵中,搜索离该点最近的图像点,距离设为D,则偏离度为D*D

③根据D值将所有的特征点偏离度相加就是该字的偏离度。

(4) 则偏离度值最小的文字就是识别结果[12]。

3.4 后处理

综合利用初级识别结果与字符信息的纠错优于单纯利用的纠错。综合匹配法可以减少搜索字符关系时的搜索空间,从而提高纠错速度。这是因为在寻找字的匹配关系时,

利用初级识别结果的待选集,可以大大缩小搜索范围,避免了在整个字符库中查询,在不利用待选集时,对于有可能识别出错的地方,只能采用拒识,而拒识不提供任何未知汉字与已知汉字字符集中汉字相似度的信息,所以寻找字符时的搜索空间只能是整个字符库。另外,当某一个词前后两个字都被拒识时,简单的词匹配法就无能为力,而综合词匹配法仍能利用字符信息进行纠错。

4 系统仿真与实验结果

4.1实验环境

硬件环境:奔腾4以上处理器,128M以上内存

开发平台:windows 98/2000/xp/vista系统,matlab编程语言

4.2实验过程

4.2.1预处理

在此阶段,我们首先要实现将原含文字的RGB图像转化为二值图像。所以在matllab编程语言环境下,我们使用imread()命令选取一张含有汉字的RGB图片,如图(2)所示,该图片可较直观的看出含有16个汉字,且均为印刷体宋体汉字,这些汉字在笔段特征上来看均有较强的代表性,从图像的质量来看文字具有较为普通的清晰度,综合视之可作为实验仿真之初始图片。

图(2) 初始选入图片

而后将具体进行将RGB图像转换为二值化图像的过程。如前面所讲,在此过程中,将通过选取灰度值180作为阈值,当图片的灰度值大于180时可识别为黑色,而小于180时则识别为白色。以matlab编程实现此过程时将主要应用matlab编程语言的im2bw()等函数[13],将原含文字的RGB图像转化为只有黑白两种颜色的二值图像,其仿真结果将如图(3)与图(4)

图(3) matlab仿真界面显示的原图像

图(4)matlab仿真界面显示的二值化后的二值图像从图(3)与图(4)的对比可看出程序已将原含文字的RGB图像转化为只有黑白两种颜色的二值图像。

之后将进行的是平滑去噪过程,从图()中也可看出在二值化过程中也混入了一些噪声,因此引入平滑去噪以消除含有汉字的图像在读入及二值化过程时所混入的噪声,为此我们在之前的图像二值化后的基础上进行平滑去噪编程,在实现此过程时我们将对经过二值化的图像首先用imnoise()函数加入系数为0.002的高斯白噪声,即幅度分布服从高斯分布,而功率谱密度又是均匀分布的噪声,添加这种性质的噪声可以使后面的去噪过程效果更明显[13],而后采用均值滤波法用filter2(fspecial())等函数进行滤波去噪。其仿真结果将如图(5)~ 图(7)所示。图()为经过上述过程后输出的实际去噪后图片。

图(5) 仿真界面上经二值化后的二值图像

图(6) 经增加噪声后的仿真图像

图(7) 经均值滤波处理后的去噪图像

图(8) 经过平滑去噪过程后输出的实际去噪后图片

图(6)与图(8)的对比及输出的图片来分析可看出图像的清晰度已有较为明显的提

高,而文字部分也有了增强,方便了下一步的切分工作。

下面将进行的是行字切分,该部分犹为重要,因为这一步将实现把单个汉字从整个图像中分离出来,以便更好的进行下一步的特征提取与特征匹配工作。为此我们选取经去噪后的汉字图像(图(8)),在此去噪图像的基础上利用字与字之间、行与行之间的空隙把每一个汉字从整张汉字图像中分离出来,在这个过程中,我们利用黑白不同颜色的像素点计算行距与列距,进而进行分离,行间的像素值均为零,则识别为行空白区,列距同理,根据识别出的行列空白区找出其连通区域,并通过合并连通区域确定一个个汉字字符[14]。

其仿真结果如图(9)所示

图(9) 仿真界面经行字切分的仿真结果

而在实际的处理过程中应该能够输出分割后的实际单字图像,即如图(10)所示

图(10) 实际输出的分离出的单个汉字图像

从图()中可看出程序已经切分出了单个汉字图像。可以进行下一步的特征提取工作。

4.2.2 特征提取与特征识别

在前几步的基础上,将进行基于对汉字横竖撇捺笔划特征的提取,同时将自动加载特征库作为模板向量以进行对比识别(在系统住址操作过程中可能缺少完整汉字特征库,因此此步可以手工引入的方式实现),因此这一步我们将分别选取图()中的各个汉字图像,采用3.2.2节中所述的13点特征提取法,这将应用到matlab编程语言中的size( ),round( )等函数进行汉字特征提取[15],之后与自动加载的汉字特征库进行特征比对与识别,进而将识别出的汉字以数码形式输出,识别结果可如图(11)~ 图(13)所示

近五年来对外汉语词汇教学研究综述

近五年来对外汉语词汇教学研究综述 本文对近五年来对外汉语词汇教学的有关研究进行了综述,内容涉及有关对外汉语词汇具体教学方法的研究、对外汉语词汇教学具体方法以外的有关研究和有关对外汉语词汇教学的总结性研究,目的是探讨当前存在的问题以及今后进一步研究的方向。 标签:对外汉语词汇教学综述 外国留学生在习得汉语的过程中,要掌握语音、词汇和语法三大语言要素。其中,词汇习得是对外汉语习得的核心,贯穿于汉语习得的全过程。对外汉语词汇教学是对外汉语语言要素教学中不可或缺的重要组成部分,它不仅是对外汉语教学的基础和开端,而且还贯穿于整个教学活动,处于对外汉语语言要素教学的中心位置。近五年来学者们越来越重视对外汉语词汇教学的研究,据统计,从2004年1月到2009年6月仅发表在四种核心期刊上的有关研究文章就有36篇。即《世界汉语教学》8篇,《语言教学与研究》13篇,《汉语学习》4篇,《语言文字应用》11篇。本文主要基于以上四种核心期刊的36篇相关文章对近五年来对外汉语词汇教学作一个综述。 一、有关对外汉语词汇具体教学方法的研究 近五年来有关对外汉语词汇具体教学方法的研究文章有很多,涉及的内容也很广泛。 在近义词、同义词等词汇方面:敖桂华(2008)阐述了近义词辨析的教学对策,揭示了近义词辨析的途径和方法,即辨析近义词应该从以下三个方面入手:辨析语义,探究语义上的细微差别;深入语境,捕捉用法的差异;区别词性,认知词性的语法功能。对教师教学和外国留学生学习汉语近义词具有一定的指导意义。 吴琳(2008)针对同义词教学的复杂性提出了运用系统化程序化的方法建立分层有序的同义词异同对比项目系统,这样同义词就有了一个具体的操作流程,教起来更加方便。系统化程序化的方法还可以用来解决其他易混词语的教学,对对外汉语词汇教学、教材编写以及辞典编纂都有一定的参考意义。 刘春梅(2007)对《汉语水平词汇与汉字等级大纲》中的单双音同义名词的应用实例进行了统计分析,结果表明:70.59%的单音词和30.23%的双音词在使用中有偏误,并且这些偏误分布是不均衡的;单双音同义名词偏误的主要类型有语义差异引起的偏误、色彩的偏误、音节限制引起的偏误、受量词修饰引起的偏误等。产生这些偏误的原因有教材、教师和工具书等。 孟凯(2009)对对外汉语教学中的反义属性词教学及相关的词汇教学提出了以下四点建议:重视反义属性词语义与构词以及义项上的显著对应性;反义属性词中容易引起过度类推的语义与构词或义项上的不对应要着重强调;教师应帮助留

网络词汇造词法分析

网络词汇造词法分析 来源:英语毕业论文 https://www.wendangku.net/doc/b417971319.html,/ 随着互联网的迅速普及,网络开始走进千家万户,逐渐成 为人们生活中不可或缺的一部分。伴随着网络交际的发展,越来越多的新词汇应运而生,网络语言逐渐成为传媒界、文艺界、语言界关注的一个热点,各专家学者也仁者见仁,智者见智。本文在这里不想参与各种评价,只是从网络词汇的造词法角度来探讨网络语言的一些特性,发表自己粗浅的看法。 网络语言包括广义和狭义两个概念,广义的网络语言指一 切与网络有关的语言形式,包括专业术语、常用词语、新词新语和表情符号。一般有两个层次:基础网语和交际网语。狭义的网络语言仅指其中的网络交际语言。由于基础网语具有相对的稳定性,数量也相对少一些,我们不作为讨论对象,在这里我们重点讨论交际网语中所产生的新词汇。根据任学良《汉语造词法》的分类方法,现代汉语主要有五类造词法,分别为语音学造词、修辞学造词、词法学造词、句法学造词和综合法造词。 这种分类方法在一定程度上适用于网络词汇,但也有一些 网络词汇对此有所超越和突破。首先是语音学造词,这是一种利用语音模拟、变化等方式创造新词的方法。对于网络语言,这是一种非常重要的造词方法。计算机的键盘设计是以字母文化为主导的,而汉字的书写以笔画为特征,这样,中国网民在输入汉字时就麻烦得多,由于五笔输入法比较难学,拼音输入就成了汉语输入的主流。 在拼音输入过程中,又由于汉字大量同音字的影响,再加上网民为追求速度,不可避免地出现许多别字现象,而这种别字由

于上下文的帮助并不影响阅读,并且有时还阴差阳错地错出一些新意。因此,这种无意而为的错误逐渐形成时尚,一些网民开始刻意追求这种错出来的妙处,于是风情万种的“别字”产生了。 网络语言由于输入法的限制和新新人类一族求新求异心理的结合,大量类似的新词汇产生了。于是乎“我”变成了“偶”,“你”变成了“泥”,“版主”变成了“斑竹、版猪、版筑”,“的”变成了“滴”……这些拟声词,多为追求调侃和生动风趣的风格故意把一些常用词语转变成他们认为比较有乐趣的同音词。有些与原词读音相同或相近,如“果酱(过奖)、竹叶(主页)、驴友(旅友)、菌男霉女(俊男美女),气死我乐(了)”等;有的则粗略表现了声音的特征,如“稀饭(喜欢)、粉(很)、素(是)、偶(我)”等。除了拟声词之外,还有不少译音式的造词。由于网络上不存在国与国的地理界限,一些常用外语(以英语为主)也进入了网民的视界。如爱老虎油(I love you)、猫(Modem)、烘焙鸡(Homepage)、瘟都死(Windows)、伊妹儿(E-mail)等。也有的将原音节缩略,以合音式的方法造词。如酱紫(这样子)、表(不要)等。此外,还有港澳等地的方言也被运用到网络语言中,也形成了不少的同音新词。以上这些都是较规范的语音造词,但网络语音造词远远不仅限于此,还有大量的以数字、字母及混合式的方法进行语音造词。 比如:数字式:1414(意思意思)、9494(就是就是)、7456(气死我了)886(再见了)、3166(日语的再见)字母式:GG(哥哥)、CU(see you)、IC(I see)混合式:3X(Thanks)、3Q(Thank you)、哈9(喝酒)、P9(啤酒)这些很另类的网络词汇一方面体现了网络语言词汇求精求简的特点,另一方面还表现了网络语言对汉语词汇要求扩张,将数字与字母引入汉语词汇的特点,此外与其他语言融合也是一个新的趋势。

《关于“汉字书写危机”》非连续文本阅读练习及答案

阅读下面的文字,完成各题。 材料一 提笔忘字、书写能力弱化,常用汉字面孔模糊,遇到吃不准的字词就想着求助手机,遇到高 难度字词更是望“文”兴叹……在充分享受互联网时代各种快捷和便利的同时,中小学生汉字书写能力的弱化,成为日前在京参加“翰墨薪传·全国中小学书法教师培训项目”第四期 国家级培训的专家学者们无法回避的“集体焦虑”。 中国书法家协会主席苏士澍坦言,电脑、智能手机等电子设备的普及,客观上正造成书法社会交流功能的退化,带来全社会尤其是中小学生汉字书写能力不断弱化的问题。“汉字书写危机”不容忽视。 “开展中小学书法教育并不是要让每一个孩子成为书法家,而是让每个孩子都写好汉字,让每个学生达到规范书写汉字的基本要求,以此为基础了解中华优秀传统文化,并为终身学习奠定良好的基础。”中国教育学会会长钟秉林说。 由教育部和中国文联共同实施,委托中国教育学会、中国书法家协会和教育书画协会联合承 办的“翰墨薪传·全国中小学书法教师培训项目”自2015年启动至今,目标是用5年左右时间,培训全国中小学书法种子教师和省地县三级书法教研员约7000名,并以此推动中小学书法教育的普及和质量提升。 (摘编自张西流《化解“汉字书写危机”应从孩子抓起》) 材料二 事实上,从技术层面而言,在日常生活和工作中,手写汉字的功能逐渐被键盘取代是一种难 以逆转的趋势,就像当年毛笔和纸张取代了刻刀和木简一样。 但是,从文化角度来说,汉字作为世界上最古老的文字之一,在数千年的历史长河中不断演化,形成了’独特的象形方块字。在手写汉字被逐渐淡忘的过程中,由汉字衍生出来的相关文史哲知识和信息,也在人们的记忆中慢慢模糊。学习手写汉字,不仅是在学习一种语言, 了解其背后蕴含的丰富知识,更是在领悟一种独特的东方美学和由此衍生出的人生哲学。 不能简单把书写退化现象完全归因于电脑的使用,汉字书写问题与计算机没有直接因果关 系,写字问题实质上反映的是国人对文化的淡漠、精神的缺失,近年来人们对物质诉求过高,而忽略了精神上的追求。读书的人越来越少,阅读量的减少带来了识字量的下降及提笔忘字 几率的增加。 “中华文明有着良好的健康的基因。无论键盘也好,其他也好,无论汉字书写方式怎么变, 也不能改变汉字作为中华文化传承的一个载体”。在瞬息万变的信息化时代,保持我们的文

常见的对外汉字教学法

常见的对外汉字教学法(2008-08-27 23:05:50) 标签:教育分类:语言文字对外汉字教学与研究是一个交叉性的学科研究领域,要想在对外汉字教学研究领域取得新突破,需要从事语言学理论、对外汉语教学、文字学、教育学、心理学以及计算机方面的专家的通力合作,从而探索出高效的汉字教学法。 心理学的实验证明,认读汉字属整体扫描,即对汉字形体的整体反应。汉字的书写则需要落实到汉字的每一个基本笔画、笔顺、偏旁、部件、结构上去。这对来自非汉字文化圈的外国人来说,就十分困难了。所以我们在初级阶段的汉字教学上,要让学习者将每一个汉字都当成特定的画图画来学习和记忆。同时要由于汉字数量众多,教学上相当困难。因此,较可行的方法则为开设专门的汉字课。同时要采用多种方法,让学员全面掌握汉字的音义形。在教学实践中已经采取的有效方法有: 1、翻译法:即用留学生的母语或已知语言直接通过翻译进行汉字教学。这种方法非常适用于零起点留学生。运用翻译法可以直接简明地在已知语言(Source Language)和汉语(Target Language)之间架起桥梁,为教学扫除障碍。翻译法可以用来对汉字进行总体描述,较全面地介绍汉字的历史、形体流变、构造规律等,帮助留学生消除畏难心理,树立自信心,激发学习兴趣;同时也可以直接用来讲解汉字知识。如: (1)汉字作为记录汉语的通行文字,已经有三千多年的历史了。汉字字形是方的,所以也称为“方块字”。“方块字”不同于拼音文字。拼音文字是由字母拼写而成的,方块字则是由不同的笔画写成的。 Chinese Characters which are now in current use ,have a long histor y of over 3,000 years .They are also well known as square characters because they are square-shaped. Different from the alphabetic scrip t which is spelled out in letters, Chinese Characters are written in various strokes. (2)基本笔画 basic strokes 笔顺规则 rules for stroke-order 汉字的结构 structure of Chinese Characters 甲骨文 shell and bone character 翻译法具有直接简明的特点,但选用时要把握好度,过多使用翻译法会使留学生养成对母语或已知语的依赖感。因此要尽可能快地直接使用目的语进行汉字教学。翻译法只在日后必需的情况下偶尔使用。 2、古文字介入法:追溯汉字发展史,时间越久远,字体越古老,象形性就越强。反之汉字的象形意味就越弱,抽象性就越强。根据汉字的发展规律,将古文字适时适量地引入对外汉字教学中,可提高汉字教学的形象性和生动性,帮助留学生迅速了解汉字本义。

网络词汇的造词法探析_李润生

[收稿日期]2003-01-08 [作者简介]李润生(1972—),男,江西星子人,江西教育学院助理研究员,南昌大学文学院在职研究生,从事现代汉语研究。 网络词汇的造词法探析 李润生 (江西教育学院,江西南昌330029) [摘 要] 随着网络的产生和发展,人们的语言行为发生了一定的变化,网络与语言的结合带来了网络语言现象。网络语言现象主要表现为网络词汇、表情符号等几个方面。而网络词汇则是网络语言中使用数量最多、范围最广的一种,其造词方法主要有复合、仿拟、假借等七种造词方法。[关键词] 网络词汇;造词法 [中图分类号] TP393;H146.1 [文献标识码] A [文章编号] 1005-3638(2003)02-0047-03 Probing into the Word -Building of Network Vocabulary LI Run -sheng (Jiangxi Institute of Education ,Nanchang 330029,China ) [Abstract ] With the network 's appearance and develop ment ,people 's language behavior has changed in some degree .The comb i -nation of n etwork and lan guage brings the phenomenon of network language ,such as network vocabulary ,expression insignia .The word -building of net work vocabulary is used mos tly in amount and extension ,including seven main ways ,such as comp ound ,imitat -ing and availing word -building ways . [Key Words ] net work vocabulary ;word -building 无论人们愿意与否,在不经意间,网络就一天天地走进了人们的生活。人类交流的主要工具———语言,也随着网络的扩展在一个新的时空延伸。可以说,在人们还没有来得及进行网络语言研究,甚至还没有真正意识到什么是网络语言时,令人应接不暇的网络语言现象就早已在网络上、在生活中纷纷出现了。网络语言现象有多种表现形式,主要有网络词汇、表情符号等几种。语言学界通常把表情符号等归入副语言的范畴,把网络词汇归入语言研究的范畴。网络词汇是网络语言中使用数量最多、范围最广的一种,其同现代汉语词汇的发展变化关系也最为密切。 词汇是语言变革中最活跃的方面,新词汇的涌现是语言变化中最引人注目的一个方面。一种新事物的产生必然会带来与之相适应的各种各样的词汇现象,网络词汇就是由网络这一新生事物带来的“衍生品”,并特指由于网络产生而出现或有了新发展的词汇。网民们在网上聊天和BBS 上将文字、数字、符号、英语和图片进行随意的连接,创造出大量的网络语,这些网络语主要有“非汉字符”“混合字符”和“汉字符”三种形式。这些词汇由于网络的巨大感召力,加上一些相关报刊、杂志、电视台等的大力推广,正逐渐地进入人们的日常生活。研究网络词汇的造词方法,是为了更好地理解和规范网络语词,也是现代汉语词汇规范、构成研究的一个有机组成部分。对一个完整的现代汉语语言系统来说,只有按照它原有的语法和词汇特点,造出来的与新事物、新环境相适应的词汇,才是最容易融入现代汉语语言体系,也是最容易为人所理解和接受的词汇,网络词汇的产生同样不能违背这一条规律。它的造词方法主要有以下七种: 一、复合造词 网络词汇常见的造词方法是复合,主要复合方法有偏正式、联合式、陈述式、补充式和动宾式五种。 (一)联合式:由两个语素并列融合而成。这类网络词汇的前后两个部分是并列的。如:登录、发送、扩展、粘贴、界面、链接、浏览、点击、查杀、跳转。 (二)偏正式:语素之间有附加修饰的关系。这一类网络词汇经常是用前一个语素来修饰、限制后一个语素,而在整个2003年4月第24卷第2期江西教育学院学报(社会科学) Journal of Jiangxi Institute of Education (Social Sciences )Apr .2003 Vol .24No .2

印刷体汉字识别技术的研究开题报告

2013届本科生毕业设计(论文) 开题报告 课题名称印刷体汉字识别技术的研究 专业电气工程及其自动化 专业方向电气工程及其自动化 班级09103212 学号0910321220 学生姓名沈佳骏 指导教师陈岚 教研室电子电工教研室 上海应用技术学院 电气与电子工程学院 2013年3月1日

1开题依据 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题[1],也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入40—50个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分[2]。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。 2文献综述 印刷体汉字识别是文字识别技术的一种。利用机器识别文字符号,可以说从1929 年陶舍克利用光学模板匹配识别开始。当时,他使用了10 块模板对应10 个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。大约在50 年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。随后,日本对汉字识别进行了研究。大约从70 年代开始,相继对印刷体汉字识别、手写印刷体汉字识别及在线手写汉字识别进行了研究。1980 年进行了印刷体汉字识别的公开表演,1981年 5 月在日本第56 届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。1984年日本研制成多体印刷汉字识别装置,识别率为99.98%,识别速度大于100 字/秒,代表了印刷体汉字识别的最好水平。最近几年出现的手写印刷体汉字识别装置,识别率可以达90%,识别速度5~40 字/秒,笔顺可变,笔划数不变的联机手写楷书汉字识别装置已有产品出售,正在研究具有一定规则的手写行书识别装置。我国的汉字识别研究比日本晚了大约10年,1988 年后才有初步实用的印刷体识别系统问世。从目前的文字识别技术水平来看,与实际的需求之间的确存在很大距离,可以说,在文字识别领域需要发现一些关键的计算方法,至少现在还没

汉字的创意与设计教案

汉字的创意与设计 教材分析: 中国的汉字是世界上最古老的文字之一,汉字的起源于记事图画,它是用来传达信息,记录思想的一种媒体。本课通过文字的创意设计,从基本技巧、构成法则及结构、比例、平衡、节奏、韵律、点画笔调,均匀与重新以及文字设计中的象形、指事、会意、形声等方面,创作出有个性,有强烈的视觉震憾力的字体,并将设计出来的字体根据主题进行编排和变化,从而构成最美的设计效果。带有装饰性的文字并不是现代的产物,早在3000多年前就已出现,并且形态优美,如鸟书、蝌蚪文、凤尾书、芝金篆、金剪书等,由此可见,我们的祖先很早就懂得了博采众美,将主观情感和客观物象融为一体,从汉字诞生的第一天起,就被注入了美。本课所涉及的领域很广,应包括中国古老的汉字文化和现代美术字的欣赏,基本美术字体的了解与练习,字的创意和设计应用。本课时选取字的创意和设计应用这一节的内容,注重文字的形象创意方法,又加入文字图形化的设计,从而拓展文字的表现空间。本课涉及到“设计·应用”学习领域,通过突出字形的创意设计应将字的涵义全部或局部用画形式表现的活动,培养学生初浅的设计意识。作业以学生选择和切身关系最为密切的自己的姓名或最感兴趣的词语进行创意设计,能让学生充分的表现自我特色。 学生情况分析: 三年级的学生刚从二年级上来,对美术的兴趣非常浓,也能够大胆的表现,所表现的内容不会很精细,因此对于写美术字来说会觉得比较枯燥。但创意的设计又是他们喜欢的,所以根据学生的情况,应从对媒材的感官入手,看看,想想,画画,做做,尝试有目的的设计,去除基本美术字的练习,改为以绘画形式的创意,使学生把对学习美术产生的浓厚兴趣保持下去。 教学思路: 本课为“设计·应用”学习领域,在教学方案中应注重学生的设计指导以及开拓思路,鼓励学生大胆的创造,进行简单的设计和装饰。本课的知识点明确,具有鲜明的学科特征。在处理教材时,应着重思考本课知识的定位在何种位置状态,教学显得更有意义,通过何种教学形式、方法来引导学生了解创意规律。学生获取知识的学习过程需要教师的精心策划与合理安排。本课学习过程安排以下几个环节:导入——分析方法——初步尝试——感知提升——创意设计——评析交流。从生活中的创意字形的欣赏入手激发学生的学习兴趣,初步总结了局部变形的方法,再让学生尝试创造,第一次的尝试是字的局部变化,学生较易掌握。

对外汉语词汇教学

浅论对外汉语教学中的词汇教学 论文关键词:语言教育对外汉语词汇教学 论文内容摘要:词汇教学是对外汉语教学中的一个重要环节,随着世界范围内“汉语热”现象的出现,关于如何提高词汇教学效果的探讨也越来越成为研究的重点。本文主要从词汇教学入手,通过对对外汉语教学中词汇教学的目标和任务、教学难点、教学方法拓展和教学实践等几方面进行了全面论述,从不同角度对词汇教学的深层问题和教学方法做出思考。 词汇教学是对外汉语教学中非常重要的一环,近年来在对外汉语教学领域,词汇教学越来越得到大家的重视,几乎每一篇关于词汇教学的论文中都谈到了词汇教学的重要性。学者们从不同的角度对词汇教育的重要性做了详细论述:杨惠元先生从词汇教学与句法教学的关系角度提出“强化词语教学,淡化句法教学” ①的观点;齐春红先生从认知语言学理论的角度对词汇教学的关键作用进行了理论阐释,详细论述了词汇教学的特点与认知理据②;胡明扬先生以语言的实质情况为视角,认为“语言说到底是由词语组合而成的……离开了词语也就没有语言可言。”③总之,词汇教学在对外汉语教学中的重要性已经得到了广泛的认同。因此,从不同角度对词汇教学的深层问题和教学方法做出思考,对于提高对外汉语教学效果、提升留学生语言能力具有重要意义。 一.词汇教学的目标和任务 词汇是语言学习的基础,它贯穿学习的始终,词汇教学的效果也直接影响着留学生汉语学习的整体水平。汉语的词汇体现了语音的结构和变化,组成语句又体现了种种语法关系,因此,词汇的学习也涉及到语音和语法。词汇的本质就是人们对现象的分类、归类和命名,词汇具有音节的整齐性、组词的灵活性以及复合词的构成方式跟词与词的结合方式的一致性等特点④。词语教学作为提高学生汉语认知能力的一门教学是必不可少的,关键是对外汉语教学中的词汇教学内容应该包括什么,如何通过对词汇本质和特点的把握来实现词汇教学的目标?笔者认为:以汉字为基础的词汇讲解是基础,因为学生学习汉语有一个很重要的目的是要与中国人交流,能够应用。所以对外汉语中的词汇教学要能够让学生把自己学到的汉语应用起来,就是教给他们如何应用和怎样应用,让他们分清日常口语词汇和书面语词汇的不同,并加以运用。同时需要学生明白,书面语词汇与口语词汇并不是截然分开的,很多时候书面词汇的东西也需要在口头上来表达,在初等阶段需要的是汉字(语素)与基本词汇的学习。提高学生的词汇认知能力是词汇教学的重要目标,词汇认知能力是一种综合能力,具体表现为词汇意思表达的准确性、词汇运用的正确性和词汇使用的得体性,这种能力要建立在语言知识和相关文化知识的基础上。词汇教学涉及的内容非常广泛,任务非常繁重,因此教学要分阶段、有侧重地完成目标。 二.词汇教学的难点

“规范汉字书写提高写字技能”课题实验方案

疃里镇中心小学“规范汉字书写提高写字技能”课题实验方案 一、课题的提出 在传统意识中,写字曾被认为是文化人自身修养的象征。随着信息技术的迅猛发展以及电脑的普及,人们的交流方式以及学习方式都发生了极大的变化,写字的“必要性”大大降低,不仅学生,就连一些家长和个别老师,也都认为字写得好不好无所谓了。在一些急功近利的思想观念支配下,人们对于写字的概念越来越模糊, 反映在现代教学中,写字教学往往被忽视,进而削弱了小学生的汉字书写能力。 事实上,这种做法是不科学的。汉字书写之所以成为中华民族的国粹,被世界人民引为艺术珍宝,根本原因是它在“育人”性质上的“多功能性”。教育部早在2002年5月出台《关于在中小学加强写字教学的若干意见》文件就指出在语文教学中贯彻写字教学的意义所在:“规范、端正、整洁地书写汉字是有效进行书面交流的基本保证,是学生学习语文和其他课程,形成终身学习能力的基础;热爱祖国文字,养成良好的写字习惯,具备熟练的写字技能,井有初步的书法欣赏能力是现代中国公民应有的基本素养,也是基础教育课程的目标之一。”更于《关于中小学开展书法教育的意见》(教基二[2011]4号)文件明确要求:“为继承与弘扬中华优秀文化,提高国民素质,有必要在中小学加强书法教育。” 因此,我校语文课题组从树立新课程理念入手,明确写字教学的意义,探究写字教学实践与研究相结合的策略,提高写字教学有效性,从而提高学生的素质和能力,培养学生的全面发展。 二、课题理论依据

1.教育部《关于在中小学加强写字教学的若干意见》(2002年5月)从充分认识写字教学的目的和意义,明确写字教学的要求,各门课程都应重视写字教学,为学生写好汉字创造环境提供必要条件,改进写字教学评价等五方面提出了明确的指导性意见;《关于中小学开展书法教育的意见》(教基二[2011]4号)则对在中小学开设书法课,为书法教学,为落实书法教育提供条件保障提出更为具体要求。 2.建构主义理论。建构主义从其认知论出发,对学习作出了全新的解释。建构主义认为,学习是建构内心心理表征的过程,学习者不是从外界把知识搬到记忆中,而是以已有的经验为基础,通过与外界的作用来获取,建构新知识,学生要主动建构客观事物及其关系的表征,但这种建构不是外界刺激的直接反应,而是通过已有的认知结构(包括原有的知识经验和认识策略)对新信息进行生动加工而建构起来的。建构主义提倡一种更加开放的学习。对于每一个个体来说,这种开放的学习在学习方法和学习结果上都可能是不同的。建构主义学习观强调学习的主动性、目的性、情境性、协作性。 3.人本主义理论。人本主义学者认为,首先我们需要接纳每个孩子都是独一无二的以及每个个体都有不同的情感和看法的观点;其次我们需要帮助他们观察到自己与他人都是有价值、有能力的个体。有这种观点和倾向的教师相信“每个学生都是有价值的”,并且“每个儿童都能以自己的方式行事”。其核心观点有:拥有对自己和他人的良好感觉对于个人的积极发展来说是非常关键和重要的;学校与教室的环境必须帮助儿童对一些基本的个体需要感到满意;要以学生的视觉观察和理解某种情况;要使用一些可以帮助学生更好理解自己情感和价值的技巧。 4.认知主义学习理论。认知学派建立在认知科学的理论基础之上,产生于20世纪60年代中期,研究的主要是人们如何思维。认知科学家试图

对外汉语词汇教学教案

对外汉语词汇教学教案 一、基本教学情况 课程名称:对外汉语词汇教学 教学对象:中低级水平留学生 学生人数:3名 授课学时:45分钟 二、教学目的 1、通过引导、图示使学生学习第三课关于“在饭馆儿”的个生词,并学会其读音、写法; 2、通过讲解新词语的重点、难点,指导学生正确运用词语,并能在交际中使用; 3、适当对这些关于“在饭馆儿”的词语作出解释,从而扩大词汇量。 三、教学要求 1、要求能正确的掌握每个生词的读音; 2、要求能够正确书写每个生词 3、要求能运用本课生词造日常用的句子,并知道其运用的场合。 四、教学方法 采用多媒体教学,教师将教学内容制作成Powerpoint或多媒体课件,图文并茂,生动活泼,语境具体,有助于理解。教师可采用动作表演、自由对话、分组对话等教学手段进行辅助教学,让学生对课文内容有更深、更好的理解。 五、教学过程 (一)导入新课: “同学们,你们有没有经常出去外边的饭馆吃饭?” “有。” “那你们都是怎么点菜的呢?” (同学们七嘴八舌地回答) “好吧,现在我们一起来学习第三课关于“在饭馆儿”的的词汇,认识一下中国悠久的历史文化。” (二)生词导读: 给学生发印有18的生词一张纸,生词上方标注有拼音,给2分钟的时间让学生自由熟悉。接下来用ppt展示生词,分成三组,分别让每个学生读6个,如果学生发音错误,教师进行纠正。 (三)讲解生词: 1、“正好”的讲解 (1)教师领读,学生跟读。(两遍) (2)在ppt上展示一张同学们坐在一起吃饭的图片,教师给出一个情景,“大家正在吃

饭,Adam正好来了” (3)让学生们自主思考“正好”的意思,引导后讲解时“这时候,刚刚好”的意思 (4)练习:模仿上面的情景,让学生分别造一个有“正好”的句子。 2、“门口”的讲解 (1)教师领读,学生跟读。(两遍) (2)教师走到教室门口,向学生提问:“老师站在哪里?” (3)向学生讲解“门口”的意思是站在门外面的意思。 3、“清蒸”的讲解 (1)教师领读,学生跟读。(两遍) (2)在ppt中插入一个关于“清蒸”的短视频,向学生讲解清蒸是做菜的一种方法(3)向学生拓展其它的做菜方法,如炒,煮等。 4“味道”讲解 (1)教师领读,学生跟读。(两遍) (2)在ppt上展示四张关于“酸甜苦辣”的图片 (3)提问学生图片中的四种事物尝(吃)起来怎么样? (4)向学生讲解味道是舌头对于食物的感知,只有吃东西的时候才有感觉。 (5)练习:让学生就生活中常见的食物造一个关于“味道”的句子。 5、“嫩”的讲解 (1)教师领读,学生跟读。(两遍) (2)在PPt中展示两组图片,分别是“婴儿和老人”“嫩芽和大树”,采用对比的方法加深学生对嫩字的理解。 (3)讲解嫩的意思是“初生而柔弱”或者“幼稚” (4)让学生举例生活中常见的嫩的东西,教师加以引导和纠正。 6、“香”的讲解 (1)教师领读,学生跟读。(两遍) (2)教师准备两个东西:香水和樟脑丸 (3)教师将香水拿到鼻子前面做深呼吸的动作,表示很香水;当把樟脑丸拿到鼻子前,捂住鼻子,表示难闻。用动作演绎加深学生对“香”的理解,并告诉学生香的反义词是“丑”。 7、“菜单”“叫菜”的讲解 (1)教师领读,学生跟读。(两遍) (2)首先先展示菜单的图片,让学生清楚什么是菜单 (3)教师准备好一份菜单,请两名学生上台,一个当服务员,一个当手里拿着菜单的客人。让学生演绎一个情景:你在餐馆拿着菜单该怎么做 (4)当客人将菜单上想吃的菜告诉服务员时,跟学生说这就叫做“叫菜”。 8、“新鲜”的讲解 (1)教师领读,学生跟读。(两遍) (2)在ppt展示一组图片进行对比:一个鲜红的苹果和一个放久了的苹果 (3)向学生讲解新鲜的意思是:新鲜形容物品生产日期很近,没有遭受过多的污染。 (4)练习:让学生说说他们所知道的新鲜的东西,举出几个。 9、“清淡”的讲解 (1)教师领读,学生跟读。(两遍) (2)在ppt展示两组关于食物的图片:大鱼大肉和蔬菜水果,很浓的汤和很清的汤。 (3)向学生讲解清淡的两张意思:颜色、气味等不浓;食物含油脂少的

网络新词语现状与现代汉语词汇规范的关系研究

网络新词语现状与现代汉语词汇规范的关系研究 随着网民数量的激增,网络已成为新词语衍生的重要语域。网络新词语的衍生与变异对当代汉语词汇系统和词汇规范正产生着越来越大的影响。网络语言的存在也是有其合理性的,所以对于网络语言的规范,我们也要持宽容、辩证的态度。对于这个问题已有不少学者发表了自己的看法,具体如下: 1、郁敏在《网络语言: 不应成为语言规范的死角》中指出网络网络语言, 是一种产生于网络、发展于网络的语言, 也是一种有别于传统语言的另类语言。首先,在网络中, 满天飞舞的是一些“新词”。这些新词很多属于旧词新解, 即赋予一些传统词语以新的含义。其次, 网上还是字母(拼音字母、英文字母) 和数字的天下。认为网络语言的产生, 既有现实的社会基础,又体现了语言使用者的创造性。但是, 我们不能忽略网络语言的另一面: 网络语言的创造中若过于随意, 表意不明, 用大量的数字、字母代替文字, 就有可能使语言处于一种混乱状态。所以就需要对语言进行规范化。网络语言对现有语言规范形式的突破有有益的, 也有无益的。当网络语言出现对语言规范的无益突破时, 要尽可能地匡谬正俗。对于网络语言对现有语言规范形式所作的无益突破, 我们应该一分为二地看待。一方面,网络语言中大量使用的字母和数字类似于汉语中掺杂的外来词、字母, 它表意不明, 违背了意义明确的原则, 也存在着媚俗化, 西洋化的倾向, 应该加以纠正和抵制。对于那些借助于网络的虚拟性, 在网上相互攻击与漫骂, 语言中带有侮辱性, 充满了暴力倾向,不健康的网络语言, 也应坚决制止。另一方面, 对于那些虽不合乎现有规范, 但不违背准确性的理性原则, 已经习非成是的网络语言, 还是要予以认可的。对于这些准确形象而又不太规范的网络语言还是要允许其合理存在的, 并加以引导, 使之健康发展。 2、周明强在《语言文字规范的新领域与新对策—也谈网络语言的规范问题》中提到以下几点问题:首先,人们对网络语言的认识与态度,具体包括:完全否定网络语言;完全肯定网络语言,承认网络语言存在的合理性, 不强调网络语言的规范, 相信语言的自我调节能力和语言的自我排污能力既承认网络语言存在的合理性, 又强调加强规范的重要性。其次,网络语言规范的内容及规范原因,具体包括:(1)网络语言进入现实世界应讲究规范,其中包括非语盲符号不能确切表意, 一般无法融入现实生活;符合汉语特点的网络语言需经受现实的筛选;(2)网上的语言应用应讲究规范。其次,网络语言规范的基本原则包括:合需要的原则;合理据的原则;可接受的原则;最后,网络语言规范的基本对策包括:重视网络宣传语言的规范;引导对网络语言的规范使用;指导网络语言的规范使用;对于以上观点我都是赞同的,网络语言从出现到今天,一直是在迅速发展和广泛流传的。网络语言的影响己经渗透到社会、生活、教育等各个方面,它对传统语言乃至社会文化的影响己经毋庸置疑。一方面,网络词语的大量涌现极大地丰富了汉语的词汇;另一方面,网络词语的不规范问题也异常严重,日益受到人们的诟病。 具体而言网络词语的不规范主要表现在以下几个方面: (一)用字用词随意,产生了许多生造词、异体词。许多网民在词语的使用上往往表现出非常随意的倾向。多不太注意所使用词语是否准确、是否规范,往往是随心所欲地使用各种交际手段,恶意创造、任意缩略和同音替代、乱用代码等,致使在网络词语中生造词、病句、字母、符号和汉字杂糅式表达、答非所问的断裂式会话比比皆是。 (二)较高的变异性和不稳定性,不利于语言的学习和文化的传承。由于受到网络时尚流行性特征的影响,网络词语的更替速度特别快,跟风式的流行时尚引发的必然是网络词语整体构成上的不稳定性,网络新词的显现和旧词的消隐都呈现出爆发式变化的特点。一种语言的词语如果更替过快,十分不利于语言学习和已有社会文化的传承。 (三)情境化色彩浓厚,全民可接受性降低。许多网络词语的意义只有在当时网络交际的独特语言环境中才能够被理解,离开了具体的网络交际语境,就会出现难以理解或语意发生变异的弊病,又加上网民随时都有可能会在交流情境中创造出一些新词和新式表达,从而使网络语言千奇百怪,致使其全民普遍可接受性大为降低。

大学生汉字书写能力的现状及对策

大学生汉字书写能力的现状及对策 【内容摘要】伴随着科技的日益进步和和社会的飞速发展,提高当代大学生的汉字书写水平在当今社会是个迫切需要解决的问题。大学生是祖国的未来,是国家知识人才最为集中的群体,读懂汉字、写好汉字、热爱汉字,不仅是继承中国优秀传统文化的需要,也是新形势下国家软实力的主要体现。作者主要调研了当代大学生汉字书写能力存在的一些问题,以及提出解决这些问题的基本对策和意义。 【关键词】书写能力现状对策 汉字承载着我们中华民族的历史、文化与气质,其是五千年中华文明最直接的传承者,是我们的先民几千年来生产劳动的智慧结晶。汉字书写的教育,在我国有着悠久的历史传统。《周礼?保氏》中曾提道:“养国子以道,乃教之六艺:一曰五礼,二曰六乐,三曰五射,四曰五驭,五曰六书,六曰九数。”①其中的“六书”就是指汉字识读与书写技能。如果说学校教育的重要任务之一,是教导学生如何欣赏和继承中华民族优秀的传统文化,那么首先必须继承的就是汉字文化和汉字书写文化。就个体而言,书写汉字体现着个人的才情性格、传递着个人的思想情感,使他人读后如见其人,心生温暖。曾几何时,写一手漂亮汉字是令人无比钦羡的技

能。但伴随着互联网和手机业务的飞速发展,国人手写汉字的机会越来越少了,“提笔忘字”的情况屡屡发生,中国人的汉字书写能力正遭遇前所未有的尴尬。 一、大学生汉字书写能力的现状 汉字的书写能力主要体现在两个方面:一是能写和会写,不写错字和别字;二是要写得规范美观,易于识别。简单地说,汉字的书写能力包括实用性和审美性,就是不仅要把汉字写对,也要把汉字写得好看。 在此次调查中,笔者一共发放了256张调差问卷,其中253张调查问卷真实有效。在对“喷嚏、饕餮、鳏寡、颠簸、荼毒、沆瀣一气”这些常用词进行的书写调查中发现,大学生正确书写的综合率仅为35%。需要注意的是,在书写正确的学生里,能够把汉字书写得规范并且美观的比例更低,大多数学生书写的汉字大小不一,字体东倒西歪毫无章法,有的则把笔画写成一团,无法识别。凡此种种,说明了大多数学生在汉字书写的规范性和美观性上还存在较大差距。清代刘熙载说过:“书者,如也,如其学,如其才,如其志,总之曰如其人而已矣。”我们常说“字如其人”。②清初的冯班明确指出:“书是君子之意,鲁公书如正人君子,冠佩而立,望之俨然。”③从古至今,在中国的传统文化里,字写得好坏与人品和才学是紧密联系在一起的。从写字上能够看出一

近五年对外汉字教学研究述评

Value Engineering 1背景从20世纪90年代中期以后,汉字和对外汉字教学的研究得到广大对外汉语教学界的重视。1997年6月,国家汉办在湖北宜昌召开了首次汉字和汉字教学的研讨会。1998年2月,世界汉语教学学会和法国汉语教师协会联合在巴黎举办了国际汉字教学研讨会。这两次学术会议,极大促进了汉字和汉字教学的研究工作,自此以后,越来越多的学者及教师关注并参与到此项研究工作中,出现了一个研究高潮①。尽管如此,汉字及汉字教学相关研究成果相对于汉语教学的其它方面还远远不够。据不完全统计,近五年即2006年至2010年,《世界汉语教学》、《语言教学与研究》、《语言文字应用》、《汉字文化》、《暨南大学华文学院学报》公开发表的论文共2383篇,有关对外汉字教学的论文仅仅80篇,占论文总数的3.4%,其中《世界汉语教学》9篇,《语言教学与研究》17篇《语言文字应用》30篇,这三个对外汉语教学专业刊物的论文可大体反映汉语教学界同行对汉字教学研究的状况。3.4%的比例应该可以说明汉字和汉字教学研究薄弱的程度。2汉字和汉字教学的研究成果及进展2.1汉字与汉语关系对汉字与汉语的关系有了比较清楚的认识,认为汉字及汉字教学在整个汉语教学中占有相当重要的地位。2008年11月,由厦门在学汉语语言学研究中心、北京师范大学民俗典籍文字研究中心和香港大学中国文化研究所吴多泰中国语文研究中心联合主办的汉语与汉字关系国际学术研讨会在厦门大学举行。其第一场主题即为“汉语和汉字关系”,中国人民大学胡明杨教授、 北京师范大学王宁教授、华东师范大学潘文国教授、香港大学单周尧教授四人分别作了题为《汉语和汉字问题》、《论汉字与汉语的辩证关系》、《汉字是汉语之魂》、《汉字与汉语关系研析》的报告。另,李如龙《论汉语和汉字的关系及相关的研究》(《语言教学与研究》2009年第4期)、周健讨论了字与其它语言要素-词的关系,《分析字词关系改进字词教学》(《语言文字应用》2010年第1期)。2.2“字本位”与“词本位”的讨论“字本位”教学得到更加普遍的认可,但并不是绝对的排斥“词本位”,认为“字本位”教学应当吸收“词本位”教学方法中某些积极和合理的因素,有些学者认为两者可以结合。刘颂浩《对外汉语教学中的多样问题》(《暨南大学华文学院学报》2006年第4期)、张德鑫《从“词本位”到“字中心”-对外汉语教学的战略转移》(《汉语学报》2006年第2期)、潘文国《“字本位”理论的哲学思考》(《语言教学与研究》2006年第3期)、管春林《“字本位”与“词本位”教学方法结合质疑-兼与刘颂浩先生商榷》(《暨南大学华文学院学报》2008年第4期)、瓦西德《略论“字本位”理论及其教学路子》(《汉字文化》2009年第3期)。2.3对外汉语教材编写研究有关对外汉字教材研究的论文非常少。主要有李香平《留学生高级班汉字课汉字知识教学与教材编写的研究》(《语文教学与研究》2008年第4期)、李泉、金允贞《论对外汉语教材的科学性》(《语言文字应用》2008年第4期)。 2.4汉字教学内容和方法研究汉字教什么,是汉字教学首先应该明确的。近五年侧重汉字教学内容的主要文章有:王衍军《20世纪50年代以来对外汉语精读教材用字情况调查-以五套对外汉语精读教材为例》(《暨南大学华文学院学报》2009年第2期)、姚喜双《编写〈汉字800字〉的思考》(《语言文字应用》2008年第4期)、郝美玲刘友谊《留学生教材汉字复现率的实验研究》(《语言文字应用》2007年第2期)、王宁《谈〈规范汉字表〉的制定与应用》(《语言 文字应用》2008年第2期)等。 2.5汉字本体研究对外汉语教学界的汉字本体研究主要集中于字形结构研究和形声字研究两个方面。从近五年的论文发表情况来看,字形结构研究的仍是关注的重点,主要针对汉字中级结构单位-偏旁或部件的研究。周妮《现代汉字构件的表义性分析》(《暨南大学华文学院学报》2006年第1期)、杨月容《谈现代汉语教材中的“偏旁”和“部件”》(《汉语学习》2006年第4期)、陈燕《汉字部首法取部位置的研究》(《语言教学与研究》2006年第3期)、冯志伟《用上下文无关语法来描述汉字结构》(《语言科学》2006年第3期)、耿 二岭《现代汉字的“避重捺”问题》(《汉语学习》2007年第4期)、种 一凡《形声字的理想分类初探》(《语言教学与研究》2008年第5期)。2.6留学生汉字学习特点和规律研究有关于留学生汉字学习特点和规律研究的论文,大体可分为两类,一是有关留学生对汉字认知方面的研究及调查,一是汉字书写过程及汉字偏误分析研究。从认知角度研究留学生学习汉字的特点,早已有之,不同的是,近五年的论文呈现出的认知角度更加具体、更细致。主要有:李俊红《声符对于形声字意义认识的效应-DSICP 学生声符与形声字意义认知自主联结测查报告》(《语言教学与研究》2009年第1期)、徐彩华《留学生汉字形误识别能力发展的实验研究》(《语言教学与研究》2007年第4期)等。另一方面,对于学生汉字书写的偏误分析,更多的关注到了学生的书写过程,不再是纯粹对书写结果进行偏误分析。2.7汉字与计算机的利用研究汉字与计算机的利用研究,是汉字研究的新发展,在全球化,信息化,数字化的今天,汉字对计算机的适应能力以及利用计算机教学的能力还有待大大提高,有关汉字语料库的那建设,以及相关学习、教学软件的开发,都迫切需要加快进行。这方面的文章主要有:朱宇《再探电子抽认卡对美国汉语初学者汉字记忆的影响》(《世界汉语教学》2010第1期)、李华《北京语言大学研发汉字字形描述和错字处理软件》(《世界汉语教学》2009第3期)、北京语言大学“外国学生错别字数据库”课题组《“外国学生错别字数据库”的建立与基于数据库的汉字教学》(《语言教学与研究》2006年第4期)。注释:①李大遂.对外汉字教学发展与研究概述[J].暨南大学华文学院学报,2004,(02).参考文献: [1]李大遂.对外汉字教学发展与研究概述[J].暨南大学华文学院学报,2004,(02). [2]李如龙.论汉语和汉字的关系及相关的研究[J].语言教学与研究,2009, (04 ).[3]潘先军.近4年对外汉字教学研究述评[J].汉字文化,2003,(03).———————————————————————基金项目:咸宁学院校级教学研究项目。作者简介:徐琦(1981-),女,湖北武汉人,华中师范大学硕士研究生,汉语言文字学专业,咸宁学院人文学院讲师,研究方向为对外汉语。近五年对外汉字教学研究述评 An Overview of TCSOL Studies 徐琦Xu Qi (湖北咸宁学院,咸宁437000) (Xianning University of Hubei Province ,Xianning 437000,China ) 摘要:本文以近五年(即2006-2010)年公开发表的论文为考察对象,根据对外汉字教学研究的内容,分专题评述其教学研究取得的成果及进展。 Abstract:Taking the published papers from 2006to 2010as research subject,the paper presents teaching and research results and development according to TCSOL teaching content. 关键词:对外汉字教学;研究述评;发展现状 Key words:TCSOL ;the results of studies ;the general development situation 中图分类号:G42文献标识码:A 文章编号:1006-4311(2012)01-0257-01·257·

相关文档