文档库 最新最全的文档下载
当前位置:文档库 › 统计与词典相结合的领域自适应中文分词

统计与词典相结合的领域自适应中文分词

统计与词典相结合的领域自适应中文分词
统计与词典相结合的领域自适应中文分词

统计与词典相结合的领域自适应中文分词*

张梅山,邓知龙,车万翔,刘挺

哈尔滨工业大学信息检索研究中心哈尔滨150001

E-mail: {mszhang, zldeng, car, tliu}@https://www.wendangku.net/doc/8d17101996.html,

摘要:基于统计的中文分词方法往往不具有良好的领域自适应性。本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性。实验表明,这种方法具有良好的领域自适应性。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。最终优化后的分词速度也得到了很大的改善。

关键词:中文分词;CRF;领域自适应

Combining Statistical Model and Dictionary for Domain Adaption

of Chinese Word Segmentation

Meishan Zhang, Zhilong Deng, Wanxiang Che, Ting Liu

Center for Information Retrieval of Computer Science & Technology School, Harbin Institute of Technology, Harbin 150001

E-mail: : {mszhang, zldeng, car, tliu}@https://www.wendangku.net/doc/8d17101996.html,

Abstract: Generally, statistical methods for Chinese W ord Segmentation don’t have good domation adaption. We propose an approach which can integrate extern dictionary information into statistical models to realize domain adaption for Chinese W ord Segmentation.In the paper, we use the CRF statistical model.. Experimental results show that our approach have good domain adaption. When domain of test corpus is identical to the training corpus, the F-measure value has an increase of 2%; when domain of test corpus is different with the training corpus, the F-measure value has an increase of 6%. The final speed of segmentation has also been improved greatly after optimized.

Key words: Chinese W ord Segmentation; CRF; Domain Adaption

1引言

中文分词是中文自然语言处理中最基本的一个步骤,非常多的研究者对它做了很深入的研究,也因此产生了很多不同的分词方法,这些方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。

基于词典的方法[1]利用词典作为主要的资源,这类方法不需要考虑领域自适应性的问题,它只需要有相关领域的高质量词典即可,但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题。

基于统计的方法[2][3][4][5]是近年来主流的分词方法,它采用已经切分好的分词语料作为主要的资源,最终形成一个统计模型来进行分词解码。基于统计的方法在分词性能方面有了很大的提高,但是在跨领域方面都存在着很大的不足,它们需要针对不同的领域训练不同的统计分词模型。这样导致在领域变换后,必须为它们提供相应领域的分词训练语料,但是分词训练语料的获得是

*本文承国家自然科学基金(60803093;60975055),哈尔滨工业大学科研创新基金(HIT.NSRIF.2009069)和中央高效基本科研业务费专项资金(HIT.KLOF.2010064)的资助。

需要大量人工参与的,代价昂贵。而基于词典的方法却在领域自适应方面存在着一定优势,当目标分词领域改变时,只需要利用相应领域的外部词典即可。外部词典的获取相比训练语料而言要容易很多。如果把这两种方法结合起来,使得统计的方法能够合理应用外部词典,则可实现中文分词的领域自适应性。

赵海等人(2007)[6]以及张碧娟等人(2008)[7]都曾提出将外部词典信息融入统计分词模型中大大改善了分词的性能。但是他们实际上都始终把词典当做一种内部资源,训练和解码都使用同样的外部词典信息,并没有解决中文分词的领域自适应性问题。本文借鉴在CRF模型中融入外部词典的方法来解决中文分词的领域自适应性问题。在训练CRF分词模型时,使用通用的外部词典;而分词阶段通过额外再加入领域词典来实现领域自适应性。当分词领域改变时,只需要加载相应领域的外部词典,而且不需要改变原有已经训练得到的统计中文分词模型,就可以大大改善该领域的分词准确率。

最后本文利用SIGHAN CWS BAKEOFF 2005中提供的PKU corpora进行训练,训练过程中采用通用的外部词典,训练得到的统计分词模型分别在PKU test corpus和人工标注的金融领域语料上进行了测试。测试时,PKU语料所用的词典保持与训练语料所用的词典一致,而金融领域所用的词典则额外再加入了部分金融领域的专业词汇。最后的结果显示,PKU语料上取得了2%的F-measure提升;金融领域上取得了6%的F-measure提升,最终达到93.4%。

本文组织内容为:第二部分介绍CRF中文分词原理;第三部分介绍领域自适应性的实现;第四部分为实验部分;第五部分为结论及进一步工作。

2CRF中文分词原理

薛念文[2]等人2003年提出将中文分词问题看成序列标注问题。句子中每个字根据它在词中的位置进行分类,共分为B,M,E,S四类。其中B代表该字符是每个词的开始,M表示该字符在某个词的中间位置,E表示该字符是某个词的结束位置而S表示该字符能独立的构成一个词。

CRF是目前主流的序列标注算法,它在序列标注问题上取得了很大的成功。对于给定的句子x=c1?c n及其某个分词标注结果为y=y1?y n,其中c i为输入字符,y i∈*B,M,E,S+ (1≤i≤n),我们可以用如下的方法表示y的概率:

Pλ(y|x)=1

Z(x)exp (λ?∑Φ(y i?1,y i,x))

n

i=1

(1)

其中Z(x)为一个归一化因子,Φ(y i?1,y i,x)为特征向量函数,λ为特征权重向量。

对于CRF模型,特征的选择尤为重要。本文首先使用了三类基本特征:字符n-gram特征,字符重复信息特征和字符类别特征。这三类特征和论文Tseng(2005)[3]中提到的特征很类似,这里对他们的字形态特征做了一定的扩展,将输入字符分为九类:Single,Prefix,Suffix,Long,Punc,Digit,Chinese-Digit,Letter以及Misc。下表1是对它们的定义以及相应的示例:任何一个输入字符只可能属于这些类别中的一类。其中Punc、Digit、Chinese-Digit、Letter 可以直接通过其属性来直接判断一个字符是否属于该类别;而判断一个字符是否属于Single、Prefix、Prefix或Long,通过统计该字符在外部词典中满足这些类别属性的比例来判断,阈值设为95%;如果一个字符属于多个类别,那么按照Punc、Digit、Chinese-Digit、Letter、Single、Prefix、Prefix、Long、Other这个优先次序来判定,越靠前的优先级别越高。

表1: 字符类别定义以及示例

最后这里列举一下在我们的CRF中文分词模型中所使用的基本特征,如表2所示:

其中下标代表考虑的相对位置,Reduplication c0i0和c i是否为两个完全一样的字符,Type(c i)表示字符c i的类别。

3领域自适应性的实现

外部词典对中文分词有着很大的用处,而且外部词典的获得所需要的代价远远小于为相关领域标注分词语料所需要的代价。如果统计中文分词方法能充分合理的利用外部词典,一方面可以提高中文分词的准确率,另一方面还可以使中文分词具有良好的领域自适应性。当为特定领域进行中文分词时,只需要加载该领域的专属词典,便可以很好的解决该领域的中文分词问题。整个系统框架如图1所示:

当领域改变之后,原有的CRF分词模型是不需要再改变的,只需改变领域词典即可,因此不需要针对不同领域重新去训练不同的分词模型。

图 1:领域自适应性分词系统框架图

下面介绍外部词典特征的融入方法,给定句子x =c 1?c n ,以及外部词典D ,考虑其中的第j 个字符c j (1≤j ≤n),定义如下三个函数:

f B (x,j,D )=max l , s.t. {w =c j ?c j+l?1∈D

j +l ?1 ≤n

f M (x,j,D )=max l , s.t.{w =c s ?c s+l?1∈D

j

1 ≤n 1≤s

f E (x,j,D )=max l , s.t. {w =c j?l+1?c j ∈D

1≤j ?l ?1

其中w 表示词语;f B (x,j,D )表示对于句子x 在j 位置根据词典D 采用正向最大匹配所获得的词的长度;f M (x,j,D )表示对于句子x 在j 前面的某个位置根据词典D 采用正向最大匹配所获得的经过j 位置而且不以j 结尾的最长词的长度;f E (x,j,D )表示对于句子x 在j 位置根据词典D 采用逆向最大匹配所获得的词的长度。

本文对CRF 分词模型所引入的与外部词典D 相关的扩展特征如表3所示:

表3: CRF 中文分词模型中所使用的外部词典特征

假设目前考虑位置为j ,则上面相应的,f B i B M i M i,D ), ,f E -i =f E (x,j +i,D ).

4实验

本文利用SIGHAN CWS BAKEOFF 2005中提供的PKU训练语料进行训练,训练过程中使用北京大学中国语言学研究中心公开的词典1,该词典一共包含大约10万多个词。最后分别在相应的PKU测试语料和人工标注的金融领域语料上进行了评测,表2给出了两个测试语料的统计信息。本文使用准确率(P)、召回率(R)和F-measure值(F)来评价分词系统。本文采用CRF++工具包2来进行训练和标注。

表2: 测试语料相关统计信息

4.1实验结果及分析

CRF-basic代表仅使用基本特征训练出来的模型;CRF-post表示使用拼接的后处理方法去纠正被CRF错误切分的词,这个方法假定外部词典中没有在训练语料中出现的词都应该是不可切分的;CRF-extern表示融入了词典信息特征之后所得到模型。

在PKU的测试语料上,使用训练出来的模型,测试时所使用的词典和训练时所使用的词典一致。表3给出了PKU语料上测试的结果。从表中可以看出,CRF-extern与CRF-basic相比,F-measure提升了1.8%;与CRF-post相比,提升了0.3%。

表3: SIGHAN BAKEOFF 2005 PKU测试语料上分词性能比较

在金融领域的测试语料上,保持训练出来的CRF分词模型不变,使用的词典是在训练语料的外部词典基础上增加了1,000个左右的金融领域专用词典。表4给出了金融领域测试语料上的结果。从表中可以看出,CRF-extern与CRF-basic相比,F-measure提升了7.6%;与CRF-post 相比,提升了3.2%。

表4: 金融领域测试语料上分词性能比较

从上面的两个实验可以看出,

a)无论是测试语料的领域与训练语料领域是否相同, CRF-extern对比CRF-basic显著提高

1https://www.wendangku.net/doc/8d17101996.html,/doubtfire/Course/Chinese%20Information%20Processing/Source_Code/Chapter_8/Lexicon_full_2000.zip 2https://www.wendangku.net/doc/8d17101996.html,/?taku/software/CRF++/

了分词的性能。

b)当训练语料和测试语料领域相同时,CRF-extern和CRF-post相比,分词性能有稍微的

提高;但是当领域不同时,CRF-extern对比CRF-post而言,有了非常显著的提高。

c)测试领域和训练语料不同时,最终的分词F-measure值达到了93.4%,已经非常接近于

CRF-basic在不考虑跨领域时的F-measure值94.8%。

综上所述,在统计模型中融入词典信息特征后,一方面分词性能有了一定的提高;另外一方面领域迁移后,分词性能依然能够保持在一定的水平。因此统计模型与词典结合后,使得中文分词具有良好的领域自适应性。

5结论及下一步工作

本文通过在CRF统计分词模型中融入外部词典特征来实现中文分词的领域自适应性。当面向不同的领域时,只需通过加载相应领域的词典。因为领域词典的获取与为该领域标注分词训练语料相比代价要小很多。最终实验结果表明,该方法不仅仅在原有领域上取得了比较好的效果,而且在金融领域上也取得了不错的效果。

下一步我们需要自动挖掘各种领域相关的词,从而使得我们的分词系统能适应各个领域的需求。

参考文献

[1]Keh-Jiann Chen and Shing-Huan Liu. 1992. Word identification for mandarin chinese sentences. In Proceedings of

the 14th conference on Computational linguistics, pages 101–107, Morristown, NJ, USA. Association for Computational Linguistics.

[2]Nianwen Xue. 2003. Chinese word segmentation as character tagging. International Journal of Computational

Linguistics and Chinese Language Processing, 8(1).

[3]Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, and Christopher Manning. 2005. A conditional

random field word segmenter for sighan bakeoff 2005. In Proceedings of the fourth SIGHAN workshop, pages 168–171.

[4]Yue Zhang and Stephen Clark. 2007. Chinese segmentation with a word-based perceptron algorithm. In Proceedings

of the 45th Annual Meeting of the Association of Computational Linguistics, pages 840–847, Prague, Czech Republic, June. Association for Computational Linguistics.

[5]Xu Sun, Yaozhong Zhang, Takuya Matsuzaki, Yoshimasa Tsuruoka, and Jun’ichi Tsujii. 2009. A discriminative

latent variable chinese segmenter with hybrid word/character information. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 56–64, Boulder, Colorado, June. Association for Computational Linguistics.

[6]Hai Zhao; Chang-Ning Huang; Mu Li. An Improved Chinese Word Segmentation System with Conditional

Random Field. In Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 162–165. [7]Pi-Chuan Chang, Michel Galley, and Christopher D. Manning. Optimizing Chinese Word Segmentation for

Machine Translation Performance. In ACL 2008 Third Workshop on Statistical Machine Translation.

中文分词切词超详细分析

前面我们讲个搜索引擎如何搜集网页,今天说下第二个过程网页预处理,其中中文分词就显得尤其重要,下面就详细讲解一下搜索引擎是怎么进行网页预处理的: 网页预处理的第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提供网页快照功能;接下来针对索引网页库进行网页切分,将每一篇网页转化为一组词的集合;最后将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表。如下图所示: 一个原始网页库由若干个记录组成,每个记录包括记录头部信息(HEAD)和数据(DATA),每个数据由网页头信息(header),网页内容信息(content)组成。索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所指向的记录。 如下图所示:

对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。切词软件中使用的基本词典包括词条及其对应词频。 自动分词的基本方法有两种:基于字符串匹配的分词方法和基于统计的分词方法。 1) 基于字符串匹配的分词方法 这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

中文分词基础件(基础版)使用说明书

索源网https://www.wendangku.net/doc/8d17101996.html,/ 中文分词基础件(基础版) 使用说明书 北京索源无限科技有限公司 2009年1月

目录 1 产品简介 (3) 2 使用方法 (3) 2.1 词库文件 (3) 2.2 使用流程 (3) 2.3 试用和注册 (3) 3 接口简介 (4) 4 API接口详解 (4) 4.1初始化和释放接口 (4) 4.1.1 初始化分词模块 (4) 4.1.2 释放分词模块 (4) 4.2 切分接口 (5) 4.2.1 机械分词算法 (5) 4.3 注册接口 (8) 5 限制条件 (9) 6 附录 (9) 6.1 切分方法定义 (9) 6.2 返回值定义 (9) 6.3 切分单元类型定义 (9)

1 产品简介 索源中文智能分词产品是索源网(北京索源无限科技有限公司)在中文信息处理领域以及搜索领域多年研究和技术积累的基础上推出的智能分词基础件。该产品不仅包含了本公司结合多种分词研发理念研制的、拥有极高切分精度的智能分词算法,而且为了适应不同需求,还包含多种极高效的基本分词算法供用户比较和选用。同时,本产品还提供了在线自定义扩展词库以及一系列便于处理海量数据的接口。该产品适合在中文信息处理领域从事产品开发、技术研究的公司、机构和研究单位使用,用户可在该产品基础上进行方便的二次开发。 为满足用户不同的需求,本产品包括了基础版、增强版、专业版和行业应用版等不同版本。其中基础版仅包含基本分词算法,适用于对切分速度要求较高而对切分精度要求略低的环境(正、逆向最大匹配)或需要所有切分结果的环境(全切分)。增强版在基础版的基础上包含了我公司自主开发的复合分词算法,可以有效消除切分歧义。专业版提供智能复合分词算法,较之增强版增加了未登录词识别功能,进一步提高了切分精度。行业应用版提供我公司多年积累的包含大量各行业关键词的扩展词库,非常适合面向行业应用的用户选用。 2 使用方法 2.1 词库文件 本产品提供了配套词库文件,使用时必须把词库文件放在指定路径中的“DictFolder”文件夹下。产品发布时默认配置在产品路径下。 2.2 使用流程 产品使用流程如下: 1)初始化 首先调用初始化函数,通过初始化函数的参数配置词库路径、切分方法、是否使用扩展词库以及使用扩展词库时扩展词的保存方式等。经初始化后获得模块句柄。 2)使用分词函数 初始化后可反复调用各分词函数。在调用任何函数时必要把模块句柄传入到待调用函数中。 3)退出系统 在退出系统前需调用释放函数释放模块句柄。 2.3 试用和注册 本产品初始提供的系统是试用版。在试用版中,调用分词函数的次数受到限制。用户必须向索源购买本产品,获取注册码进行注册后,方可正常使用本产品。 注册流程为: 1)调用序列号获取接口函数获取产品序列号; 2)购买产品,并将产品序列号发给索源。索源确认购买后,生成注册码发给用户; 3)用户使用注册码,调用注册接口对产品进行注册; 4)注册成功后,正常使用本产品。

中文分词实验

中文分词实验 一、实验目的: 目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。 实验要求: 1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构; 2、选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等)。 3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。 预期效果: 1、平均准确率达到85%以上 二、实验方案: 1.实验平台 系统:win10 软件平台:spyder 语言:python 2.算法选择 选择正向减字最大匹配法,参照《搜索引擎-原理、技术与系统》教材第62页的描述,使用python语言在spyder软件环境下完成代码的编辑。 算法流程图:

Figure Error! No sequence specified.. 正向减字最大匹配算法流程

Figure Error! No sequence specified.. 切词算法流程算法伪代码描述:

3.实验步骤 1)在网上查找语料和词典文本文件; 2)思考并编写代码构建词典存储结构; 3)编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字; 4)编写分词代码; 5)思考并编写代码将语料标注为可计算准确率的文本; 6)对测试集和分词结果集进行合并; 7)对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的 调和平均值); 8)思考总结,分析结论。 4.实验实施 我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。 实验过程:

百度中文分词技巧

百度中文分词技巧 什么是中文分词?我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的。中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。 分词对于搜索引擎有着很大的作用,是文本挖掘的基础,可以帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词的质量直接影响了搜索结果的精确度。目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法。 一、基于字典匹配的分词方法 这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式: 1、正向最大匹配法(由左到右的方向); 2、逆向最大匹配法(由右到左的方向); 3、最少切分(使每一句中切出的词数最小); 4、双向最大匹配法(进行由左到右、由右到左两次扫描) 通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难道,比如对于歧义的处理(关键是我们汉语的博大精深啊),为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。 二、基于统计的分词方法 虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。 中文分词的应用分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 参考文档及网站: https://www.wendangku.net/doc/8d17101996.html, https://www.wendangku.net/doc/8d17101996.html, https://www.wendangku.net/doc/8d17101996.html, https://www.wendangku.net/doc/8d17101996.html,

中文分词免费同义词近义词词库2

同义词库暗无天日=天昏地暗暗笑=窃笑暗影=阴影暗语=切口=黑暗暗中肮脏=邋遢昂首=抬头昂首望天=傲睨一世昂扬=高昂凹地=洼地凹凸=高低熬煎=折磨熬炼=锻炼翱翔=飞翔傲岸=高傲傲慢=狂妄傲睨=渺视傲睨万物=傲世轻物傲睨一世=傲睨万物傲世轻物=傲睨万物傲视=睥睨傲雪欺霜=坚贞不屈傲卒多败=骄兵必败傲卒多降=骄兵必败奥秘=秘密=秘密奥密奥妙=玄妙懊悔=悔恨懊恼=烦恼懊丧=悔恨八百壮士=四行孤军才高八斗八斗之才= 八方受敌=四面楚歌八竿子打不着=八棍子撂不着八股=陈腔滥调八怪七喇=稀奇古怪八棍子撂不着=八竿子打不着八两半斤=不相上下八门五花=五花八门八面见光=八面玲珑八面玲珑=八面见光八面受敌=四面楚歌 八面威风=气势汹汹八字帖=发草帖巴结=逢迎巴望=渴望扒手=翦绺=废除拔除拔锚=起锚拔苗助长=适得其反拔取=选取拔擢=扶植跋扈=猖进退失据跋前疐后= 跋前踬后=动辄得咎跋文=后记把臂而谈=促膝谈心把柄=痛处把持=操纵把脉=切脉把守=看管把玩簸弄=戏弄把稳=当心把握=驾驭 把戏=花招罢工=歇工罢了=而已罢免=撤职罢手=歇手=放手罢休霸道=蛮横霸术=机谋霸占=攻克白痴=呆子白搭=白费鹤发白发= 白发苍颜=皓首苍颜白发银须=庞眉皓发白费=白搭白费心血=枉费心机白话=口语白驹过隙=光

阴似箭白腊=石蜡白蜡=洋蜡白日=白天白日飞升=白日升天 白日升天=白日飞升白手=空手白手起家=自食其力白叟=老人白天=白昼=白净白皙白云苍狗=沧海桑田白种人=碧眼儿白昼=白天白=利剑百般=千般百步穿杨=百发百中百尺竿头=扶摇直上百辞莫辩=有口难言百发百中=矢无虚发百孔千疮=民生凋敝百口=合家百里挑一=寥寥无几百了千当=千了百当百密一疏=鸭蛋虽密也有缝百思不解=大惑不解百无禁忌=童言无忌 百姓=黎民百依百顺=视为心腹百战百胜=势如破竹百折不回=一往直前百折不挠=百折不回=左右摆布摆荡=动摇摆架子=搭架子摆列=排列摆设=部署摆脱=开脱腐败败北= 败坏=松弛败尽家业=倾家荡产败类=莠民败露=败事败事=败露败兴=没趣败行=劣行拜把兄弟=换帖兄弟拜别=离别拜访=造访 拜鬼求神=求神拜鬼拜候=访问拜见=参见拜年=贺年拜托=托付=访候拜望拜谒=拜望扳缠不清=纠缠不清扳话=攀谈扳连=连累扳谈=交谈布鼓雷门班门弄斧= 班师=凯旅般游=盘游颁布=颁发颁布发表=宣布颁发=发表斑白=花白斑点=雀斑斑斓=美丽斑纹=花纹搬场=搬家 搬动=挪动转移搬家=搬迁搬弄=挑衅搬弄是非=挑拨离间搬迁=搬家=木屋板屋板滞=呆滞版图=邦畿办法=措施

一种基于词典的中文分词法的设计与实现

一种基于词典的中文分词法的设计与实 现 摘要:中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 关键词:中文分词;词库索引;正向最大匹配法 1 中文分词 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 1.1中文分词方法的种类 中文自动分词方法有多种,一般来说大致可归结为以下三大类:基于词典的分词方法、基于统计的分词方法、基于规则和基于统计相结合的分词方法[2]。1.1.1基于词典的分词方法。基于词典的分词方法,又叫做基于字符串匹配的分词方法。其基本思想是:事先建立词库,其中包含所有可能出现的词。对于给定的待分词的汉子串Str,按照某种确定的原则切取Str 的子串,若该子串与词库中的某词条相匹配,则该子串是就是词,继续分割其余的部分,直到剩余部分为空;否则,该子串不是词,转到上面重新切取Str的子串进行匹配。1.1.2基于统计的分词方法。基于词典分词方法要借助词典来进行,而中文的构词非常灵活,词的数目几乎是无限的,因此要构造完备的词典几乎是不可能的。鉴于上述分词方法存在的这些缺点,一种基于统计的分词方法应运而生。这种方法撇开词典,根据字串出现的频率来判断这个字串是否是词。该方法对于大的语料,分全率还可以,但是对于小的语料分全率就比较低。该方法的另一个缺点就是不够准确,有些经常一起出现的单字构成的字串其实不是词。但是由于出现的频率很高,就被分出来当作词处理了,而且这样的“词”还非常多, 例如“这一”、“之一”、“有的”、“我的”、“许多的”等。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。1.1.3基于规则和基于统计相结合的分词方法。该方法首先运用最大匹配作初步切分,然后对切分的边界处进行歧义探测,发现歧义,最后运用统计和规则相结合的方法来判断正确的切分[4]。运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。日前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别处理,基本解决了分词所面临的最关键的问题。若词典结构和算法设计优秀,分词速度将非常快。 1.2分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。1.2.1歧义识别。歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”,这种称为交叉歧义,像这种交叉歧义十分常见。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交叉歧义

统计与词典相结合的领域自适应中文分词

统计与词典相结合的领域自适应中文分词* 张梅山,邓知龙,车万翔,刘挺 哈尔滨工业大学信息检索研究中心哈尔滨150001 E-mail: {mszhang, zldeng, car, tliu}@https://www.wendangku.net/doc/8d17101996.html, 摘要:基于统计的中文分词方法往往不具有良好的领域自适应性。本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性。实验表明,这种方法具有良好的领域自适应性。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。最终优化后的分词速度也得到了很大的改善。 关键词:中文分词;CRF;领域自适应 Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation Meishan Zhang, Zhilong Deng, Wanxiang Che, Ting Liu Center for Information Retrieval of Computer Science & Technology School, Harbin Institute of Technology, Harbin 150001 E-mail: : {mszhang, zldeng, car, tliu}@https://www.wendangku.net/doc/8d17101996.html, Abstract: Generally, statistical methods for Chinese W ord Segmentation don’t have good domation adaption. We propose an approach which can integrate extern dictionary information into statistical models to realize domain adaption for Chinese W ord Segmentation.In the paper, we use the CRF statistical model.. Experimental results show that our approach have good domain adaption. When domain of test corpus is identical to the training corpus, the F-measure value has an increase of 2%; when domain of test corpus is different with the training corpus, the F-measure value has an increase of 6%. The final speed of segmentation has also been improved greatly after optimized. Key words: Chinese W ord Segmentation; CRF; Domain Adaption 1引言 中文分词是中文自然语言处理中最基本的一个步骤,非常多的研究者对它做了很深入的研究,也因此产生了很多不同的分词方法,这些方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。 基于词典的方法[1]利用词典作为主要的资源,这类方法不需要考虑领域自适应性的问题,它只需要有相关领域的高质量词典即可,但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题。 基于统计的方法[2][3][4][5]是近年来主流的分词方法,它采用已经切分好的分词语料作为主要的资源,最终形成一个统计模型来进行分词解码。基于统计的方法在分词性能方面有了很大的提高,但是在跨领域方面都存在着很大的不足,它们需要针对不同的领域训练不同的统计分词模型。这样导致在领域变换后,必须为它们提供相应领域的分词训练语料,但是分词训练语料的获得是 *本文承国家自然科学基金(60803093;60975055),哈尔滨工业大学科研创新基金(HIT.NSRIF.2009069)和中央高效基本科研业务费专项资金(HIT.KLOF.2010064)的资助。

分词系统语文词典的词性标注问题

语文词典的词性标注问题 郭锐 零引言 本文讨论词典标注词性的必要性、标注词性的可能性和困难、现代汉语的内部分层和词性标注、词性标注应注意的问题四方面问题。 本文所依据的汉语词类体系是朱德熙、陆俭明、郭锐承担的国家七五社科项目“现代汉语词类研究”的体系。简介如下: 词 ┌──────┴──────┐ 组合词独立词 ┌─────┴─────┐┊ 实词虚词┊ ┌────┴────┐┌┼┬┐┊ 核词饰词┊┊┊┊┊ ┌──┴──┐┌┬┼┬┬┐┊┊┊┊┊ 谓词体词┊┊┊┊┊┊┊┊┊┊┊ ┌┼┐┌┬┼┬┐┊┊┊┊┊┊┊┊┊┊┊ ┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊ ⒈⒉⒊⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔⒕⒖⒗⒘⒙⒚ 动形状名方时处量区数数指副拟介连语助叹 容态位间所别量示声气 词词词词词词词词词词词词词词词词词词词 ⒛代词 (图:“现代汉语词类研究”系统简介) 词类按层级划出,基本词类共个,其中类根据语法功能划出,代词是特殊类,不是根据语法功能划出的,在功能上分别相当于动词、名词、时间词、处所词、数词、数量词、副词。各类举例如下:、动词:吃、洗、跑、休息、想、病、坐、有、是、来、能、可以、完成、思考。 、形容词:高、短、大、晚、干净、认真、伟大、不幸、有趣、可笑、结实、相同。 、状态词:雪白、甜丝丝、黑咕隆咚、轰轰烈烈、优良、酷热、瘦高、皑皑、旖旎。 、名词:石头、文化、国家、人民、船只、时间、钟头、长江、北京、孔子、学校。 、方位词:前、上、里、左、南、下面、后头、以前、周围、旁边、附近、对面。 、时间词:今天、去年、上午、刚才、过去、春节、正月、最近、拂晓、星期天。 、处所词:当地、原处、街头、野外、一旁、乡下、民间、远处、基层。

中科院中文分词系统调研报告

自然语言处理调研报告(课程论文、课程设计) 题目:最大正向匹配中文分词系统 作者:陈炳宏吕荣昌靳蒲 王聪祯孙长智 所在学院:信息科学与工程学院 专业年级:信息安全14-1 指导教师:努尔布力 职称:副教授 2016年10月29日

目录 一、研究背景、目的及意义 (3) 二、研究内容和目标 (4) 三、算法实现 (5) 四、源代码 (7) 1.seg.java 主函数 (7) 2. dict.txt 程序调用的字典 (10) 3.实验案例 (11) 五、小结 (12)

一、研究背景、目的及意义 中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不过如何实现,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。

二、研究内容和目标 1、了解、熟悉中科院中文分词系统。 2、设计程序实现正向最大匹配算法。 3、利用正向最大匹配算法输入例句进行分词,输出分词后的结果。

三、算法实现 图一:算法实现 正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。 算法示例: 待分词文本: content[]={"中","华","民","族","从","此","站","起","来","了","。"} 词表: dict[]={"中华", "中华民族" , "从此","站起来"} (1) 从content[1]开始,当扫描到content[2]的时候,发现"中华"已经在

中文分词技术

一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 下面简要介绍几种常用方法: 1).逐词遍历法。 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。 2).基于字典、词库匹配的分词方法(机械分词法) 这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下: (一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

中文自动分词技术

中文自动分词技术是以“词”为基础,但汉语书面语不是像西方文字那样有天然的分隔符(空格),而是在语句中以汉字为单位,词与词之间没有明显的界限。因此,对于一段汉字,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程词,就要应用到中文自动分词技术。下面依次介绍三种中文自动分词算法:基于词典的机械匹配的分词方法、基于统计的分词方法和基于人工智能的分词方法。 1、基于词典的机械匹配的分词方法: 该算法的思想是,事先建立词库,让它它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。由于汉字是单字成词的,所以很少使用最小匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词 a)、正向减字最大匹配法(MM) 这种方法的基本思想是:对于每一个汉字串s,先从正向取出maxLength 个字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。 b)、逆向减字最大匹配法(RMM ) 与正向减字最大匹配法相比,这种方法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。 机械匹配算法简洁、易于实现.其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。机械匹配算法实现比较简单,但其局限也是很明显的:效率和准确性受到词库

百度_baidu_搜索分词算法

Baidu查询分词算法 查询处理以及分词技术 如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节. 查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术. 我们分两个部分来讲述:查询处理/中文分词. 一. 查询处理 用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息.那么百度在接受到用户查询后做了些什么工作呢? 1. 假设用户提交了不只一个查询串,比如”信息检索理论工具”.那么搜 索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理 简单,我们接着往下看. 2. 假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询”理论 工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的呢?我们可以将”理论工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容.OK.继续,我们提交查询”理论工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那 看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的). 3. 假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待.

中文分词算法

1 最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。 逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。 给定串:我是中国人 从左往右最长匹配优先: 读入‘我’,一个字当然是一个词 再读入‘是’,查表找‘我是’,不在表中,则‘我’是一个独立的词,‘是’还要下一步判断 读入‘中’‘是中’肯定不在表内,那‘是’也是一个独立的词,‘中’还要下一步判断 读入‘果’,‘中国’在表内 再读入‘人’,’中国人‘也在表内, 此时全部读完,’中国人‘是一个次 结果就是:我是中国人 从右往左也类似 最近折腾毕业论文,搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自己的中文分词算法,我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的,毕竟论文里的背景知道我也是从网上粘贴的,呵呵!因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文分词算法在搜索引擎中的重要性,或者最大匹配法的思想与过程,请去网上搜吧,资料还是蛮多的。 1.1.1 最大匹配法分词的缺陷 尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点: 一、长度限制 由于最大匹配法必须首先设定一个匹配词长的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。我们来看一下以下两种情况:

关于百度中文分词系统研究

关于百度中文分词系统研究

所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息) 、句法规则(以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用) ,就需要以词为基本单位。当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性。可以说,分词是机器语言学的基础。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页, 如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 分词算法的三种主要类型 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 》基于字符串匹配的分词方法。 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功 (识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长) 匹配 和最小(最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方 法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 1) 正向最大匹配法(由左到右的方向) 。 通常简称为MM(Maximum Matching Method) 法。其基本思想为:设D 为词典,MAX 表示D 中的最大词长,STR 为待切分的字串。MM 法是每次从STR 中取长度为MAX 的子串与D 中的词进行匹配。若成功,则该子串为词,指针后移MAX 个汉字后继续匹配,否则子串逐次减一进行匹配。 2) 逆向最大匹配法(由右到左的方向) 。 通常简称为RMM ( Reverse Maximum MatchingMethod) 法。RMM 法的基本原理与MM 法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。 3) 最少切分法(使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向 最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169 ,单纯使用逆向最大匹配的错误率为1/ 245 。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进

分词方法详解

《汉语分词的主要技术及其应用展望》 一、汉语自动分词的提出 词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。 人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。因而人工分词的同一性得不到保证。北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带来一大障碍。其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。第四,汉语构词具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。 汉语词自动切分是计算机中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一“瓶颈”的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键, 长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。 二、现有的分词方法 为了克服汉语词计算机自动切分这一难题, 许多年来, 大量的学者都加入 了这一领域的研究, 使汉语自动分词取得了丰硕的研究成果。近年来, 语言学 界、人工智能领域和情报检索界的学者们, 在汉语自动分词与自动标引的研究 与实践上进行了大量的研究, 找到了许多解决汉语分词的方法,归纳起来有: 最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、 有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想 ——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、

基于搜索统计技术中文分词算法的应用研究

基于搜索统计技术中文分词算法的应用研究1 付青华 绵阳师范学院计算机科学与工程系,四川绵阳(637002) E-mail:fuhuamy@https://www.wendangku.net/doc/8d17101996.html, 摘要:中文分词是影响中文搜索引擎性能的一个重要因素,而歧义识别则是中文分词中需要解决的一个问题,本文简要介绍了目前主要的几种中文分词算法,并提出了基于搜索统计技术的中文分词算法,通过实验证明,它具有良好的歧义识别能力。 关键词:搜索统计;中文分词 图书法分类号:TP391 1. 引言 随着网络信息量的丰富,用户面对成千上万的搜索结果,逐一浏览是不可能的。因此判断一个搜索引擎性能的好坏并不在于其能否找到所有的信息,而是在于其能否找到用户最需要的信息。对用户提交的搜索关键字进行分词,是影响搜索引擎性能的一个重要功能模块,中文分词把输入的计算机汉语语句自动切分为词的序列的过程[1]。中文分词对于中文页面检索有重要的意义,对它的评价不应依据人的主观看法,而应该考察其是否有助于提高信息检索的准确度[2]。中文分词是汉语自然语言处理存在一些难以解决的问题[3]主要体现在两方面:①对新词识别②歧义解决[4]。 面对着这些中文分词问题,目前的解决方法主要有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。针对这三种方法各自的优缺点,本文基于搜索统计技术,提出了一种新的中文分词算法。经过实验证明,本算法具有比较良好的中文分词性能。 2. 研究现状 目前常用的中文分词方法主要有:基于字符串匹配的分词方法、基于语义的分词方法、基于统计原理的分词方法。 2.1基于字符串匹配的分词方法 又称为机械分词方法,其实现原理较为简单。主要步骤是将准备分析的汉字串与一个事先预备好的机器词库中的词进行字符串匹配,若在词典中找到某个字符串,则匹配成功,也即认为识别出一个词。 串匹配分词方法显然不具有良好的歧义识别能力,它基于机械的字符串匹配,不具有语义上的分析。虽然通过在串匹配算法过程中加入一些技术改进,如:正向匹配、逆向匹配、最大(最长)匹配、最小(最短)匹配等使得机械分词技术的性能有所提高,但其精度并不能完全满足实际的需要。实际使用中,机械分词只是作为一种初始划分的手段,还需通过利用各种其它的技术辅助,来进一步提高切分的准确率。 2.2基于语义的分词方法 该分词方法是让计算机了解句子语义,从而实现识别词、划分词的功能。它的基本方法是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它一般由 1本课题得到绵阳师范学院重点实验项目的资助。

中文分词方法

分词算法设计中的几个基本原则: 1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词) 2、切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术和服务”以及“技术和服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术和服务”有1个非词典词,而“技术和服务”有0个非词典词,因此选用后者。 3、总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。 下面详细说说正向最大匹配法、逆向最大匹配法和双向最大匹配法具体是如何进行的: 先说说什么是最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。 下面以“我们在野生动物园玩”详细说明一下这几种匹配方法: 1、正向最大匹配法: 正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。 第1次:“我们在野生动物”,扫描7字词典,无

搜索引擎中文分词原理与实现

while (ts.i ncreme ntToke n()) { //取得下一个词 搜索引擎中文分词原理与实现 因为中文文本中,词和词之间不像英文一样存在边界, 所以中文分词是一个专业处理中 文信息的搜索引擎首先面对的问题,需要靠程序来切分出词。 一、LUCene 中的中文分词 LUCene 在中处理中文的常用方法有三种,以 皎死猎人的狗"为例说明之: 单 字:【咬】 【死】 【猎】 【人】 【的】 【狗】 二元覆盖:【咬死】 【死猎】 【猎人】 【人的】 【的狗】 分 词:【咬】 【死】 【猎人】 【的】 【狗】 LUCene 中的StandardTokenizer 采用单子分词方式, CJKTokenize 采用二元覆盖方式。 1、LUCene 切分原理 LUCene 中负责语言处理的部分在 org.apache.Iucene.analysis 包,其中, TokenStream 类 用来进行基本的分词工作, Analyzer 类是TokenStream 的包装类,负责整个解析工作,Analyzer 类接收整段文本,解析出有意义的词语。 通常不需要直接调用分词的处理类 analysis ,而是由LUCene 内存内部来调用,其中: (1) 在索引阶段,调用 addDocument (doc )时,LUCene 内部使用 Analyzer 来处理每 个需要 索引的列,具体如下图: 图1 LUCene 对索引文本的处理 In dexWriter in dex = new In dexWriter(i ndexDirectory, new CnAn alyzer(), //用于支持分词的分析 器 !in Creme ntal, In dexWriter.MaxFieldLe ngth.UNLIMITED); (2) 在搜索阶段,调用 QUeryParSer.parse (queryText )来解析查询串时, QUeryParSer 会调用Analyzer 来拆分查询字符串,但是对于通配符等查询不会调用 Analyzer 。 An alyzer an alyzer = new CnAn alyzer(); //支持中文的分词 QUeryParSer ParSer = new QUeryParSer(VerSiO n.L UCENE_CURRENT, "title", an alyzer); 因为在索引和搜索阶段都调用了分词过程,索引和搜索的切分处理要尽量一致,所以 分词效果改变后需要重建索引。 为了测试LUCene 的切分效果,下面是直接调用 Analysis 的例子: Analyzer analyzer = new CnAnalyzer(); // 创建一个中文分析器 TokenStream ts = analyzer.tokenStream("myfield", new StringReader(" 待切分文本 ")); //

相关文档