文档库 最新最全的文档下载
当前位置:文档库 › 常用分词词性对照表

常用分词词性对照表

常用分词词性对照表
常用分词词性对照表

1.名词(26个词性)

n 名词

nr 人名

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

ntc 公司名

ntcf 工厂

ntcb 银行

ntch 酒店宾馆

nto 政府机构

ntu 大学

nts 中小学

nth 医院

nh 医药疾病等健康相关名词

nhm 药品

nhd 疾病

nn 工作相关名词

nnt职务职称

nnd职业

ng 名词性语素

ni 机构相关(不是独立机构名)

nic 下属机构

nis 机构后缀

nm 物品名

nmc 化学品名

nb 生物名

nba 动物名

nbp 植物名

nz 其他专名

2.学术词(8个词性)

g 学术词汇

gm 数学相关词汇

gp 物理相关词汇

gc 化学相关词汇

gb 生物相关词汇

gbc 生物类别

gg 地理地质相关词汇

gi 计算机相关词汇

3.简称省略语(1个一类,北大)

j 简称略语4.成语(1个一类,北大)

i 成语

5.习用语(1个一类,北大)

l 习用语

6.时间词(1个一类,1个二类)

t 时间词

tg 时间词性语素

7.处所词(1个一类)

s 处所词

8.方位词(1个一类)

f 方位词

9.动词(1个一类,9个二类)

v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词(内动词)

vl 动词性惯用语

vg 动词性语素

10.形容词(1个一类,4个二类)

a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

11.区别词(1个一类,2个二类)

b 区别词

bl 区别词性惯用语

12.状态词(1个一类)

z 状态词

13.代词(1个一类,4个二类,6个三类)

r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

14.数词(1个一类,1个二类)

m 数词

mq 数量词

15.量词(1个一类,2个二类)

q 量词

qv 动量词

qt 时量词

16.副词(1个一类)

d 副词

17.介词(1个一类,2个二类)

p 介词

pba 介词“把”

pbei 介词“被”

18.连词(1个一类,1个二类)

c 连词

cc 并列连词

19.助词(1个一类,15个二类)

u 助词

uzhe 着

ule 了喽

uguo 过

ude1 的底

ude2 地

ude3 得

usuo 所

udeng 等等等云云

uyy 一样一般似的般

udh 的话

uls 来讲来说而言说来

uzhi 之

ulian 连(“连小学生都会”)

20.叹词(1个一类)

e 叹词21.语气词(1个一类)

y 语气词(delete yg)

22.拟声词(1个一类)

o 拟声词

23.前缀(1个一类)

h 前缀

24.后缀(1个一类)

k 后缀

25.字符串(1个一类,2个二类)

x 字符串

xx 非语素字

xu 网址URL

26.标点符号(1个一类,16个二类)

w 标点符号

wkz 左括号,全角:(〔[{《【〖〈半

角:( [ { <

wky 右括号,全角:)〕]}》】〗〉半角:) ] { >

wyz 左引号,全角:“‘『

wyy 右引号,全角:”’』

wj 句号,全角:。

ww 问号,全角:?半角:?

wt 叹号,全角:!半角:!

wd 逗号,全角:,半角:,

wf 分号,全角:;半角:;

wn 顿号,全角:、

wm 冒号,全角::半角::

ws 省略号,全角:………

wp 破折号,全角:——--——-

半角:--- ----

wb 百分号千分号,全角:%‰半角:%

wh 单位符号,全角:¥$£°℃半

角:$

现代汉语词类表和语法表

现代汉语词类表和语法表 汉语词类语法表 词类表 名称定义语法特点类别举例 名词表示人或事物 名称的词。 词前可加数量词,不能加 “不”、“很”副词。 词后不能加时态助词 “了”。 具体名词 人牛山 水 抽象名词 友谊立场 观点思想 表示方向位置 的词。 用在名词或名词性词组 后。 方位词 东西南 北 代词替代或指示作 用的词。 能够替代或指示各类实 词,且不带修饰成分。 人称代词 我你他 我们 指示代词这那这里 疑问代词谁哪什么 动词表示行为动作 或发展变化的 词。 词前可加副词。 词后可加“着”、 “了”、“过”时态助 词,表示动作的持续、完 成或过去。 不及物动词 (自动词) 醒病觉悟 及物动词 (他动词) 看写打 调查讨论 认为 表示可能、必 要或愿望的 词。(能愿动词 或助动词) 词后不能加“着”、 “了”、“过”时态助 词。 用在动词、形容词前。 表示可能 能能够可 以 表示必要该当应当 表示愿意敢肯愿意表示动作趋向 的词。 用在动词、形容词后。趋向动词 来去上 下 进来出去 形容词表示人或事物 的性质或状态 的词。 词前可加副词。 词后可加“着”、 “了”、“过”时态助 词,表示持续、完成或过 去。 性质形容词大小英明 状态形容词 雪白 红通通 数词表示数目的 词。 与量词结合,称数量词。 基数词 百千万 亿 序数词 第一第二 第三 分数词百分之二十 倍数词 一倍十倍 百倍 概数词几(个) 一百

上下 量词表示事物或动 作单位的词。 与数词或指示代词 “这”、“那”结合。 名量词 (物量词) 一把(镰刀) 一屋子(人) 动量词 去一次说一 遍 副词修饰、限制动 词、形容词或 其他副词的 词。 用在动词、形容词或其他 副词前作状语。 不能和名词组合。 表示程度 很太最 非常 表示范围 都全只 统统 表示时间 正刚又 曾经 表示否定 未没有(看 见) 表示语气 偏偏也许 简直 介词起转介作用的 词。用在名词、 代词或名词性 词组前,组成 介词结构,表 示处所、时间、 状态、方式、 原因、目的、 比较对象等。 词后不能加时态助词 “着”、“了”、“过”。 不能单说,不能单独作谓 语,用在名词、代词或名 词性词组前组成介词结 构。 表示处所、 方向 在向从 往 表示时间从自从当 表示状态方 式 用以按照 表示原因 由于因因 为 表示目的 为为了为 着 表示比较比跟同 表示排除除了 名称定义语法特点类别举例 连词连接词、词组 或句子,表示 它们之间关系 的词。 起连接作用,不起修饰和 补充作用。 表示联合关 系 和跟与 同 表示偏正关 系 如果只要 因为 虽然即使 不但 助词在词、词组、 句子后,起辅 助作用的词。 独立性最差,意义最不实 在。每个词的个性很强。 结构助词的地得 时态助词着了过 语气助词吗呢吧 叹词表示感慨、应 答的词。 在句中的位置比较灵活, 不同名词、动词和形容词 发生特定的关系,不充当 句子成分,可独立成句。 表示喜悦哈哈 表示悲痛唉哎哟 表示愤怒哼呸 表示惊讶唉呀咦 表示呼唤喂 表示答应嗯唉

CTB 词性标注中文版翻译

CTB词性标注指南 第一章 引言 中文几乎没有屈折语素。譬如,词语不随时态、格、人称和数量而曲折变化。因此,对特定文本中的词进行词性标注往往都很困难。 这个文件是专为宾州中文树库项目[XPS+00]所设计的。这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。 词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。 1.1 标注标准 词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。譬如,中文词“毁灭”可以被翻译为英文中的destroy或destroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。根据第一种观点,词性标注应该只基于意义。因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。第二种观点是词性标注应该由词的句法分布来决定。当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。 我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。 由于很多中文动词也出现在名词位置,因此需要两个词性标注标记,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。我们认为这个观点不足以让人信服,主要有如下两个理由。首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。其次,很多动词可以出现在名词位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。 1.2 词性标注标记集 我们的词性标注标记集有33种标记: 动词,形容词(4):V A,VC,VE,VV。

R语言学习系列12 文本分词

12.文本分词 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。 例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。 R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。 一、配置Java环境 步骤1.下载JDK安装包 https://www.wendangku.net/doc/3314957134.html,/technetwork/java/javase/downloads/index.html 点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64 步骤2.安装JDK 安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101 特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre 文件夹,比如D:\Program Files\Java\jre1.8.0_101否则将有问题。

步骤3.配置环境变量 右键计算机->属性->高级系统设置->环境变量,在“环境变量”窗口“系统变量”区域操作: (1)【新建…】,变量名输入:JAVA_HOME 变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101 【确定】 (2)双击Path,在变量值框末尾加上 ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin 【确定】 (3)【新建…】,变量名输入:CLASSPATH变量值输入: %JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar 【确定】 步骤4.测试是否配置成功 运行->cmd,回车,输入java–version回车,显示版本号等信息; 输入javac–version回车,也显示版本号,如下图所示,则表示配置成功

中文分词实验

中文分词实验 一、实验目的: 目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。 实验要求: 1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构; 2、选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等)。 3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。 预期效果: 1、平均准确率达到85%以上 二、实验方案: 1.实验平台 系统:win10 软件平台:spyder 语言:python 2.算法选择 选择正向减字最大匹配法,参照《搜索引擎-原理、技术与系统》教材第62页的描述,使用python语言在spyder软件环境下完成代码的编辑。 算法流程图:

Figure Error! No sequence specified.. 正向减字最大匹配算法流程

Figure Error! No sequence specified.. 切词算法流程算法伪代码描述:

3.实验步骤 1)在网上查找语料和词典文本文件; 2)思考并编写代码构建词典存储结构; 3)编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字; 4)编写分词代码; 5)思考并编写代码将语料标注为可计算准确率的文本; 6)对测试集和分词结果集进行合并; 7)对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的 调和平均值); 8)思考总结,分析结论。 4.实验实施 我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。 实验过程:

当代汉语文本语料库分词词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。

R语言学习系列12-文本分词

12. 文本分词 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。 例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。 R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。 一、配置Java环境 步骤1. 下载JDK安装包 https://www.wendangku.net/doc/3314957134.html,/technetwork/java/javase/downloads/index.html 点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64 步骤2. 安装JDK 安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101 特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre 文件夹,比如D:\Program Files\Java\jre1.8.0_101否则将有问题。

步骤3. 配置环境变量 右键计算机->属性->高级系统设置->环境变量,在“环境变量”窗口“系统变量”区域操作: (1) 【新建…】,变量名输入:JAVA_HOME 变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101 【确定】 (2) 双击Path,在变量值框末尾加上 ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin 【确定】 (3) 【新建…】,变量名输入:CLASSPATH 变量值输入: %JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar 【确定】 步骤4. 测试是否配置成功 运行->cmd, 回车,输入java –version回车,显示版本号等信息; 输入javac–version 回车,也显示版本号,如下图所示,则表示配置成功

现代汉语词性专题训练答案

现代汉语词性专题训练、答案. 现代汉语词性专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词

3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 D助词7.“哎哟”是()A拟声词B语气词C叹词 8.代词包括()A人称代词B指示代词C疑问代词ED代名词代动词 C连词B副词9.虚词包括()D助词E语气词A介词 10.“报告”一词兼()A名词BE动词C形容词D连词 代词D副词11.“和、跟、同、与”兼()A动词B连词C介词 助词E12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书 E 在家要孝顺父母

13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 E你快跟着我走你抽空跟他谈谈D二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 )((渐渐))天渐渐冷起来了。2()((过))这件事已经讨论过了。1(. ))(4)自行车他骑出去了。(出去)((3)他正在教室里看书。(正)( )6)()你吃了饭再走。(了)((5)我拿着—本书。(着)( )(8)你应该努力学外语。(努力)((7)他是外国人吗?(吗)())10)最好听的是这首歌。(最)((刚才)(9)他刚才来过。()()12)这是一本袖珍词典。(袖珍)((11)房子上面铺着瓦。(上面)()

分词工具比较

IKAnalyzer IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene 项目,同时提供了对Lucene的默认优化实现。 语言和平台:基于java 语言开发,最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer 3.0 则发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对Lucene 的默认优化实现。 算法:采用了特有的“正向迭代最细粒度切分算法”。采用了多子处理器分析模式,支持:英文字母( IP 地址、 Email 、 URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词典扩展定义。针对 Lucene 全文检索优化的查询分析器 IKQueryParser ;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。 性能:60 万字 / 秒 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是LuceneAnalyzer接口的实现。该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用"人民"搜索含"人民币"的文章,这是大部分用户的搜索思维;不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上"人民"和"人民币"是完全搭不上关系的。 je-anlysis的分词(基于java实现) 1. 分词效率:每秒30万字(测试环境迅驰1.6,第一次分词需要1-2秒加载词典) 2. 运行环境: Lucene 2.0 3. 免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 4. 优点:全面支持Lucene 2.0;增强了词典维护的API;增加了商品编码的匹配;增加了Mail地址的匹配;实现了词尾消歧算法第二层的过滤;整理优化了词库; 支持词典的动态扩展;支持中文数字的匹配(如:二零零六);数量词采用“n”;作为数字通配符优化词典结构以便修改调整;支持英文、数字、中文(简体)混合分词;常用的数量和人名的匹配;超过22万词的词库整理;实现正向最大匹配算法;支持分词粒度控制 ictclas4j ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复

词性标注说明_128601491

人民日报标注语料库(PFR)使用说明书 本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。 PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明 1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 2.文件名格式为“月-日-版号-篇章号”。 3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4.标号之后,是2个单字节空格,然后开始正文。 5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最 后的词,在标记之后也有2个单字节空格,保持格式一致。 6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用 “[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后 空两个单字节空格,保持了格式的一致。 三.例子 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

常用分词词性对照表

1.名词(26个词性) n 名词 nr 人名 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 ntc 公司名 ntcf 工厂 ntcb 银行 ntch 酒店宾馆 nto 政府机构 ntu 大学 nts 中小学 nth 医院 nh 医药疾病等健康相关名词 nhm 药品 nhd 疾病 nn 工作相关名词 nnt职务职称 nnd职业 ng 名词性语素 ni 机构相关(不是独立机构名) nic 下属机构 nis 机构后缀 nm 物品名 nmc 化学品名 nb 生物名 nba 动物名 nbp 植物名 nz 其他专名 2.学术词(8个词性) g 学术词汇 gm 数学相关词汇 gp 物理相关词汇 gc 化学相关词汇 gb 生物相关词汇 gbc 生物类别 gg 地理地质相关词汇 gi 计算机相关词汇 3.简称省略语(1个一类,北大) j 简称略语4.成语(1个一类,北大) i 成语 5.习用语(1个一类,北大) l 习用语 6.时间词(1个一类,1个二类) t 时间词 tg 时间词性语素 7.处所词(1个一类) s 处所词 8.方位词(1个一类) f 方位词 9.动词(1个一类,9个二类) v 动词 vd 副动词 vn 名动词 vshi 动词“是” vyou 动词“有” vf 趋向动词 vx 形式动词 vi 不及物动词(内动词) vl 动词性惯用语 vg 动词性语素 10.形容词(1个一类,4个二类) a 形容词 ad 副形词 an 名形词 ag 形容词性语素 al 形容词性惯用语 11.区别词(1个一类,2个二类) b 区别词 bl 区别词性惯用语 12.状态词(1个一类) z 状态词 13.代词(1个一类,4个二类,6个三类) r 代词 rr 人称代词 rz 指示代词 rzt 时间指示代词 rzs 处所指示代词

汉语词性标注

湖南文理学院课程设计报告 课程名称:计算机软件技术基础 系部:电信系 专业班级:通信工程T09103班 学生姓名:刘程程 指导教师: 完成时间:2011.12.28 报告成绩:

目录 中文摘要 .................................................................................................................................................................... I ABSTRACT ............................................................................................................................................................ II 第一章引言 (1) 1.1背景和意义 (1) 1.2词性标注定义及其困难 (1) 1.2.1词性的定义 (2) 1.2.2词性标注的难点 (2) 第二章基础理论介绍 (3) 2.1隐马尔科夫模型(H1DDEN M ARKOV M ODEL,HM) (3) 2.2HMM用于词性标注 (4) 第三章改进HMM标注模型与参数估计 (4) 3.1改进HMM模型词性标注 (4) 3.2参数估计 (5) 3.2.1训练语料库 (5) 3.2.2当用数据库 (5) 第四章改进VITERBI算法标注 (7) 4.1标注过程 (7) 4.2改进后的V ITERBI算法的具体描述 (7) 第五章实验结果与分析 (8) 5.1评价标准 (8) 5.2实验结果 (9) 5.3错误分析 (10) 参考文献 (11)

现代汉语词性及专题训练答案汇编

学习-----好资料 现代汉语词性 一.名词 表示人和事物的名称叫名词。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、李白、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上很、十分。 3、有的动词表示能够、愿意这些意思,叫做能愿动词,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、是、有也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半…… 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等) 2、疑问代词:用来提出问题。如谁、什么、哪(问人或事物)、哪儿、那里(问处所)、几 多(问数量)、多、多么(问程度)、怎么、怎样、怎么样(问性质状态)、什么、怎样、什么样

现代汉语的词性分类

现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。 实词 一.名词 表示人和事物的名称叫名词。如“黄瓜、猪、马、羊、白菜、拖拉机、计算机”。 1、表示专用名称的叫做“专用名词”,如“云南、上海、李白、白居易,中国”。 2、表示抽象事物的名称的叫做“抽象名词”,如“范畴、思想、质量、品德、品质、友谊、方法”。 3、表示方位的叫做“方位名词”,如“上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间”等。二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如“想、重视、注重、尊敬、了解、相信、佩服、惦念”等,这样的动词前面往往可以加上“很、十分”。 3、有的动词表示能够、愿意这些意思,叫做“能愿动词”,它们是

“能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须”,这些能愿动词常常用在一般的动词前面,如“得去、能够做、可以考虑、愿意学习、应该说明、可能发展”。 4、还有一些动词表示趋向,叫做“趋向动词”,如“来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起来”,它们往往用在一般动词后面表示趋向,如“跳起来、走下去、抬上来、跑过去”。 5、“是”“有”也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色”。状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如“一、二、两、三、七、十、百、千、万、亿、半”。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。单位量词表示事物的单位,如“个、张、、只、支、本、台、架、辆、颗、

hanlp中文分词器解读

中文分词器解析hanlp分词器接口设计:

提供外部接口: 分词器封装为静态工具类,并提供了简单的接口

标准分词是最常用的分词器,基于HMM-Viterbi实现,开启了中国人名识别和音译人名识别,调用方法如下: HanLP.segment其实是对StandardTokenizer.segment的包装。 /** * 分词 * * @param text 文本 * @return切分后的单词 */ publicstatic Listsegment(String text) { return StandardTokenizer.segment(text.toCharArray()); } /** * 创建一个分词器
* 这是一个工厂方法
* 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 * @return一个分词器 */ publicstatic Segment newSegment() }

publicclass StandardTokenizer { /** * 预置分词器 */ publicstaticfinalSegment SEGMENT = HanLP.newSegment(); /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(String text) { return SEGMENT.seg(text.toCharArray()); } /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(char[]text) { return SEGMENT.seg(text); } /** * 切分为句子形式 * @param text 文本

分词算法

中文分词 一、概述 什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是一个学生。 中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 1)正向最大匹配法(由左到右的方向); 2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机

中文词性标注集

POS_MAP = { 'n': ('名词', 'noun', { 'nr': ('人名', 'personal name', { 'nr1': ('汉语姓氏', 'Chinese surname'), 'nr2': ('汉语名字', 'Chinese given name'), 'nrj': ('日语人名', 'Japanese personal name'), 'nrf': ('音译人名', 'transcribed personal name') }), 'ns': ('地名', 'toponym', { 'nsf': ('音译地名', 'transcribed toponym'), }), 'nt': ('机构团体名', 'organization/group name'), 'nz': ('其它专名', 'other proper noun'), 'nl': ('名词性惯用语', 'noun phrase'), 'ng': ('名词性语素', 'noun morpheme'), }), 't': ('时间词', 'time word', { 'tg': ('时间词性语素', 'time morpheme'), }), 's': ('处所词', 'locative word'), 'f': ('方位词', 'noun of locality'), 'v': ('动词', 'verb', {

'vd': ('副动词', 'auxiliary verb'), 'vn': ('名动词', 'noun-verb'), 'vshi': ('动词"是"', 'verb 是'), 'vyou': ('动词"有"', 'verb 有'), 'vf': ('趋向动词', 'directional verb'), 'vx': ('行事动词', 'performative verb'), 'vi': ('不及物动词', 'intransitive verb'), 'vl': ('动词性惯用语', 'verb phrase'), 'vg': ('动词性语素', 'verb morpheme'), }), 'a': ('形容词', 'adjective', { 'ad': ('副形词', 'auxiliary adjective'), 'an': ('名形词', 'noun-adjective'), 'ag': ('形容词性语素', 'adjective morpheme'), 'al': ('形容词性惯用语', 'adjective phrase'), }), 'b': ('区别词', 'distinguishing word', { 'bl': ('区别词性惯用语', 'distinguishing phrase'), }), 'z': ('状态词', 'status word'), 'r': ('代词', 'pronoun', { 'rr': ('人称代词', 'personal pronoun'),

现代汉语的词性分类

现代汉语的词性分类 的词可以分为12类。 :名词、、形容词、、和。 :、、、、叹词、。 1.名词:表示人和事物的名称的实词。如:"黄瓜、白菜、拖拉机、计算机"。 1、表示专用名称的叫做"专有名词",如"云南、上海、李白、白居易"。 2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、友谊、方法"。 3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 2.动词:表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 5、"是""有"也是动词,跟动词的用法一样,“是”也称为判断动词。有与无对应是存在性动词。 3.形容词:表示事物的形状、性质、颜色、状态等,如“多、少、高、 矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。

现代汉语词性分类.

现代汉语词性分类 一、实词:名词、动词、形容词、数量词、代词. (-)名词 名词是表示人或事物的词。例如: 指人的:鲁迅、农民、工人、作家、老师、学生 指物的:日、风、山、马、稻子、飞机、原子、计算机、车辆、纸张、道德、法律、文化 表时间的:春天、明年、早晨、星期天、现在、刚才 表处所的:马来西亚、北京、凯旋门、大庆、亚洲 表方位的:上、下、前、左、右、东、南、内、外(单纯的) 以上、以前、以东、上边、上面、东边、西边、里头、外头、中间(合成的)(二)动词 动词是表示动作、行为、心理活动或存在变化等的词。例如: 表示动作行为:走、坐、听、看、批评、宣传、保卫、学习、研究、进行、开始、停止、禁止 表示存在变化消失:存在、在、有、等于、发生、演变、发展、生长、死亡、消灭 表示心理活动:爱、恨、伯、想念、打算、喜欢、希望、害伯、担心、讨厌 表示判断:是 表示可能意愿必要(助动词):能、能够、会、可以、愿、愿意、肯、敢、要、应当、应该、配、值得 表示趋向(趋向动词):上、下、进、出、回、开、过、起、来、上来、下来、进来、出来、回来、 开来、过来、起来、去、上去、下去、进去、出主、回去,开去、过去 动词的语法特点: 1.一部分动词可以重叠,表示“动作短暂”或“尝试”的意思,是时态的表示法。单音节动词重叠形式是:AA 看——看看想——想想 试——试试讲——讲讲 双音节动词重叠形式是:ABAB 学习——学习学习批评——批评批评 讨论——讨论讨论休息——休息休息 动词比较复杂,有的需要加以说明。 1.动词“是” I. “是”用在名词前边是动词,这种“是”常常表示主语“等于什么”或“属于什么”。例如“鲁迅就是周树人”、“牛是反刍动物”、“他是个开车的”、“是他救了我”;此外,“这一年,人家都是丰年,我是歉年,收完秋就没吃的了”等里面的“是”仍是动词,作谓语。 II. “是”用在动词、形容词前边,表示肯定,含有“的确”、“实在”的意思,可以看作语气副词,作状语,例如“我〔是〕懂了”、“他〔是〕勇敢”、“这样做〔是〕好”。 2.动词“有”

大规模中文文本语料库分词与词性标注一致性检验技术研究-山西大学

大规模中文文本语料库分词与词性标注一致性检验技术研究 基本信息 批准号60473139 项目名称大规模中文文本语料库分词与词性标注一致性检验技术研究 项目类别面上项目 申请代码F020603 项目负责人郑家恒 负责人职称教授 依托单位山西大学 研究期限2005-01-01 到 2007-12-31 资助经费23(万元) 项目摘要 中文摘要 目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。 中文主题词分词一致性;词性标注一致性;语言环境模型;语料加工规范模式 英文摘要 英文主题词consistency of segmentation;co 结题摘要

建设高质量的大规模语料库是中文信息处理领域的基础性工程,也是很多相关应用领域进行更深层次研究的根本保证。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。本课题主要研究了:语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略;组合型歧义字段语言环境和兼类词语言环境模型;分词与词性标注一致性检验知识库和一致性检验算法;开发了自动分词与词性标注一致性检验软件。在国内外学术期刊和学术会议共发表论文20余篇,其中1篇被SCI检索,2篇被EI检索;开发的词性标注一致性软件等2个软件进行了软件著作登记;开发的自动分词软件参加了2007年bakeoff的评测,其中对词表词的分词评测取得了最好的成绩;同时,研究团队还为本次评测提供了分词训练语料和测试语料。 成果 1 基于规则的中文语料库分词一致性会议苗玺、郑家恒 2 一种改进的句子相似度计算方法会议菅小艳、郑家恒 3 一种基于实例学习的人名识别方法会议朱丽丽、郑家恒 4 基于模式匹配的中文专有名词识别会议郑家恒、谭红叶、王兴义 5 基于HMM的农作物信息抽取会议菅小艳、郑家恒 6 A Classification-based Algorit会议张虎、郑家恒、赵颖 7 基于小句相似度计算的专有名词识期刊朱丽丽、郑家恒 8 利用支持向量机实现动词—动词搭期刊白妙青、郑家恒 9 汉语语料库词性标注自动校对方法期刊张虎、郑家恒、刘江 10 规则与统计相结合的分词一致性检期刊刘博、郑家恒、张虎 11 A Study on Pattern Generalizat期刊Tan Hongye, Zhao Tiejun, Yao

相关文档