文档库 最新最全的文档下载
当前位置:文档库 › 汉语框架语义角色的自动标注

汉语框架语义角色的自动标注

汉语框架语义角色的自动标注
汉语框架语义角色的自动标注

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/bc1335524.html,

Journal of Software, Vol.21, No.4, April 2010, pp.597?611 https://www.wendangku.net/doc/bc1335524.html, doi: 10.3724/SP.J.1001.2010.03756 Tel/Fax: +86-10-62562563

? by Institute of Software, the Chinese Academy of Sciences. All rights reserved.

?

汉语框架语义角色的自动标注

李济洪1+, 王瑞波1, 王蔚林2, 李国臣3

1(山西大学计算中心,山西太原 030006)

2(山西大学数学科学学院,山西太原 030006)

3(山西大学计算机与信息技术学院,山西太原 030006)

Automatic Labeling of Semantic Roles on Chinese FrameNet

LI Ji-Hong1+, WANG Rui-Bo1, WANG Wei-Lin2, LI Guo-Chen3

1(Computer Center, Shanxi University, Taiyuan 030006, China)

2(School of Mathematical Sciences, Shanxi University, Taiyuan 030006, China)

3(School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China)

+ Corresponding author: E-mail: lijh@https://www.wendangku.net/doc/bc1335524.html,

Li JH, Wang RB, Wang WL, Li GC. Automatic labeling of semantic roles on Chinese FrameNet. Journal of

Software, 2010,21(4):597?611. https://www.wendangku.net/doc/bc1335524.html,/1000-9825/3756.htm

Abstract: Based on the semantic knowledge base of Chinese FrameNet (CFN) self-developed by Shanxi

University, automatic labeling of the semantic roles of Chinese FrameNet is turned into a sequential tagging

problem at word-level by applying IOB (inside/outside/begin) strategies to the exemplified sentences in CFN corpus,

and the Conditional Random Fields (CRF) model is adopted. The basic unit of tagging is word. The word, its part of

speech, its relative position to the target word, the target word, and their combination are chosen as the features.

Various model templates are formed through optional size windows in each feature, and the orthogonal array within

statistics is employed for screening of the better template. All experiments are based on the6 692 exemplified

sentences of 25 frames selected from CFN corpus. The separate model is trained for each frame on its exemplified

sentences by 2-fold cross-validation, and the processing of identification and classification for the semantic roles

are taken simultaneously. Finally, with the target word given in a sentence, as well as the frame name of the target

word, the experimental results on all 25 frames data for the precision, the recall, and F1-measure are 74.16%,

52.70%, 61.62%, respectively.

Key words: Chinese FrameNet; semantic role labeling; orthogonal array; feature selection; conditional random

fields

摘要: 基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列

标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词

相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,

? Supported by the National Natural Science Foundation of China under Grant No.60873128 (国家自然科学基金); the National High-

Tech Research and Development Plan of China under Grant No.2006AA01Z142 (国家高技术研究发展计划(863))

Received 2008-11-22; Revised 2009-06-01; Accepted 2009-10-14

598 Journal of Software软件学报 V ol.21, No.4, April 2010

基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.

关键词: 汉语框架语义知识库;语义角色标注;正交表;特征选择;条件随机场

中图法分类号: TP391文献标识码: A

1 引言

近年来,自然语言处理开始逐步进入语义分析阶段,其研究重点是句义分析.所谓句义分析是指根据句子中每个实词的词义和关系推导出能够反映这个句子意义(即句义)的某种形式化表示.语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法.近几年来,国际上举行过6次语义角色自动标注的评测,吸引了众多的研究者参与其中.为此,2008年自然语言研究的国际上权威学术期刊《Computational Linguistics》出了一期“语义角色标注研究”的专辑.国内近年来有关语义角色标注的研究也越来越得到同行的重视,在重要的学术会议上成果渐增.语义角色标注技术在大规模语义知识库的构建、机器翻译、信息提取、问答系统、信息检索等应用领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义.

1.1 汉语框架网知识库

汉语框架网络(Chinese FrameNet,简称CFN)[1]工程是以Fillmore的框架语义学为理论基础、以加州大学伯克利分校的FrameNet[2]为参照、以汉语真实语料为依据的供计算机使用的汉语词汇语义知识库.框架语义学认为,“框架(frame)”是一个与激活性语境相一致的结构化范畴系统,是存储在人类认知经验中的图示化情境.框架中的各种参与者称为框架元素(frame element),它们在使用中与语义角色、格角色等概念相当.框架语义学认为,框架是词语理解的背景和动因,因此可以根据背景框架的不同,对词语,主要是动词、形容词和事件名词进行分类描述.与传统的语义角色或者格角色相比,语义角色或者格角色是相对于词汇而言的,而框架元素仅适用于具有相同框架背景的一组词语,它摆脱了格角色个数无法确定的问题,因此用其来描述自然语言的语义更为恰当.

参照英文FrameNet并针对汉语自身所具有的特点,山西大学从2006年开始构建汉语框架网络.截至2007年12月,汉语框架网络中已构建框架130个,15 000条例句,覆盖词元1 760个,其中,动词词元1 428个,名词词元192个,形容词词元140个.语料库中所有例句均来自北京大学汉语语言学研究中心现代汉语语料库CCL语料库,每条例句均具有了正确的分词及词性标注信息(遵循山西大学分词及词性标注规范),并且针对每条句子人工标注了目标词(每个例句只标注了一个目标词)及其框架语义角色.以“陈述”框架为例: 陈述(statement):此框架表达的是说话者用语言向听话者传达信息的行为.

核心框架元素(3个):媒介Medium[Medium]、信息Message[Msg]、说话者Speaker[Spkr]

非核心框架元素(7个):听话者Addressee[Add]、关涉Topic[Top]、致因Cause[Cau]、程度Degree[Degr]、

形容Depictive[Depic]、修饰Manner[Manr]、时间Time[Time] 父框架:[信息交流|Communication]

词元:动词词元:演说v、供认v、宣称v、宣布v等,名词词元:断言n、宣告n、声明n、评论n等

例句:1 603条

例如:?spkr-np-subj 英 jn 方面n?作为 v 报复 v 措施 n 也 d ?tgt 宣布v??msg-dj-obj 4 m 名 q 俄罗斯 nsy 大使馆 n 的 u 外交官 n 为 v 不 d 受 v 欢迎 v 的 u 人n?. w。

这里,“宣布”为“陈述”框架的词元,为标注的目标词(tgt).角色的标注信息包含3层内容,如?spkr-np-subj 英方面?担任“宣布”的“说话者[spkr]”角色,为名词短语[np],且是目标词?tgt 宣布?的主语[subj].

李济洪等:汉语框架语义角色的自动标注599

框架元素分为核心元素和非核心元素两大类,并且它们都是与所给定的框架密切相关的.框架不同,其核心元素和非核心元素也不同.本文以下所提到的“CFN框架语义角色”指的是“CFN框架元素”.

1.2 研究现状

国际上,2004年以来对于语义角色标注举行的6次评测分别为Senseval-3[3],SemEval2007[4],CoNLL (Conference on Computational Linguistics Learning)会议主办的SRL(semantic role labeling) Shared Task 2004[5], 2005[6]以及CoNLL Shared Task 2008[7],2009[8].其中,CoNLL SRL Shared Task是以PropBank,NomBank为语料,而Senseval-3的SRL Task和SemEval 2007 Task-19是以英文FrameNet为语料.

以英文PropBank,NomBank为语料的语义角色自动标注研究主要有Chen[9],Thompson[10],Kadri Hacioglu[11],Pradhan[12,13],Cohn[14],Surdeanu[15],董静等人[16],于江德等人[17]的工作.刘挺等人[18]基于英文PropBank,以句法成分为基本标注单元,使用最大熵模型研究了语义角色的自动标注问题,得到了较好的结果,在开发集和测试集上分别获得了75.49%和75.60%的F1-值.CoNLL-2008 Shared Task除要求角色标注之外,还增加了谓词的识别和词义排歧,以及论元中心词与谓词的句法依赖关系(syntactic dependency)和语义依赖关系(semantic dependency)的分析,最好的评测结果F1-值达到84.86%.国内有5支队伍参加了评测,Che等人[19]的评测结果最好,达到82.66%的F1-值,在所有19支参加评测的队伍中排名第二.

CoNLL-2009 Shared Task与2008年的任务基本相同,但在包含中英文的7种语言上评测时,最终以7种语言评测的平均F1-值作为排名依据.在其Joint Task中,Che等人[20]结果排名第一,7种语言的平均F1-值达到82.64%,同时,Che等人的结果也是中文评测的第一名,中文的F1-值达到76.38%.在语义角色标注子任务中,Zhao 等人[21]的结果最好,7种语言的平均F1-值达到80.47%,中文评测的最好结果为Nugues系统[22],其F1-值达到78.60%.

基于英文FrameNet语料的语义角色标注的研究最早是Gildea等人[23]的工作.他们使用概率插值方法建立模型,在句子完全句法分析树上构建特征,在FrameNet测试集上取得了65%的准确率和61%的召回率.Senseval- 3的SRL Task有8个队参加了评测,最好的结果达到89.9%的准确率和77.2%的召回率.SemEval 2007 Task-19的任务除语义角色标注之外,增加了句子中框架的识别(包括目标词识别、目标词所属框架名的排歧(类似于WSD(word sense disambiguation)))以及句子中所激活的框架的语义依赖关系(semantic dependency)的分析.只有3个队提交了评测结果,在Task-19给定的测试集上,只进行框架识别的F1-值在49%~75%之间;在自动识别框架的基础上,再进行语义角色标注的F1-值在36%~49%之间.

汉语的语义角色自动标注的较早研究是Sun[24],Xue[25]基于中文PropBank的自动标注研究工作.Xue[26]基于中文PropBank语料库,在使用手工标记良好的句法分析上得到了94.1%的F1-值.但若采用自动的句法分析,则只有71.9%的F1-值.PropBank只对每个句子的核心动词进行了标注,语义角色的定义总共有50多个,所有动词的主要角色最多有6个,均以Arg0~Arg5为标记.因此,相对于框架语义角色来说,PropBank的语义角色标注所有例句可以在一起训练和测试,有较为丰富的资源.Xue[26]的实验结果表明,Arg0,Arg1自动标注的精度要好于其他角色的标注,最主要的原因是Arg0,Arg1角色的涵义具有同质性,如Arg0在绝大多数情况下是指Agent,有利于统计模型的训练;而其他角色虽然标记相同,但其涵义却差别很大.正如袁毓林[27]所指出的:“中文PropBank 中,论元标记Arg2至Arg5对于语义角色的严重超载,使用这种标注语料来训练角色自动标注系统,其性能势必会受到影响”.事实上,PropBank中语义角色类型忽略了语言表达中的细节,词汇义项的描述显得不够精细.

尽管框架网络看起来像一部词典,但却不同于PropBank,框架网络的基本单元不是个别的词(如传统词典的基本单元),而是被称作框架的概念结构,它由框架元素配置而成.框架与框架相互联系构成语义网络,通过这些框架网,语言单元相互关联,从而形式化出句子、句群、乃至篇章的语义结构,为自动语义理解提供有用的线索.因此,框架语义角色的自动标注研究有着十分重要的意义.

近年来,山西大学在手工构建的CFN知识库的基础上,开始着手研究汉语框架语义角色的自动标注系统,并得到国家自然科学基金、社会科学基金以及国家“863”项目的支持.文献[28]基于规则的方法研究了“自主感知”和“非自主感知”两个框架的语义角色的标注,但每个框架构建规则工作量大,适应性差.文献[29]中对若干框

600 Journal of Software软件学报 V ol.21, No.4, April 2010

架作了初步的自动标注研究.本文总结这两年来的标注实验工作,通过对“陈述”框架自动标注实验的详细分析,试图探索基于机器学习的汉语框架语义角色自动标注模型,为下一步大规模语义知识库的构建提供一个实用的标注工具.

本文从CFN的130个框架中挑选出例句个数相对较多的框架(25个),将其所有例句构成训练和测试集,用于建模分析.事实上,利用统计学习方法进行语义角色的标注,其关键环节是特征的选择.本文使用条件随机场(conditional random field,简称CRF))模型建立汉语框架语义角色标注模型,并给出了一种使用统计正交表的特征模板优选方法,很大程度上避免了传统模板选择中“试”着选的办法的盲目性,实验结果也验证了这一方法的可行性.

本文第2节给出汉语框架语义角色标注的任务描述.第3节说明相应的语义角色标注模型.第4节介绍使用正交表进行最优特征模板选择的方法.第5节和第6节给出语料的来源以及评价指标.第7节给出后处理方法.第8节给出实验结果及分析.最后对全文进行总结,并给出下一步的研究方向.

2 汉语框架语义角色标注任务描述

考虑到汉语框架CFN的建设仍然处于初始阶段,可用的语料规模相对较少,本文将CFN语义角色标注的任务规定为:对于一个汉语句子,在给定目标词及其所属框架的前提下,自动识别出目标词所支配的语义角色的边界,并标注出该目标词所支配的语义角色(框架元素,包括核心和非核心元素).这个任务与Senseval-3中针对英文FrameNet的语义角色标注任务是相同的.

本文的语义角色标注均在句子已分好词和有词性标注的基础上(山西大学的分词2000规范).

2.1 标注单元

英文的语义角色标注研究中使用的标注单元主要有句法成分、短语、词或者依存关系等,其中以句法成分为标注单元的研究较多,标注精度也比较理想.

本文选择以词作为基本标注单元,主要是考虑到:(1) 汉语的分词和词性标注技术相对来说比较成熟,选择词为标注的基本单元可以减少标注错误向下一处理环节的累积;(2) 目前,CFN语料库中只标注了词、词性(包含命名体标注)、目标词、语义角色边界和名称,虽然每个语义角色有短语类型和句法功能标注(相对于目标词的功能性成分),但却没有整个句子完整的句法分析或浅层的句法分析的标注信息.

2.2 语义角色的标注步骤

语言学家一般认为,谓词的每个语义角色分别对应于完全句法树中的某一个句法成分.基于完全句法分析树,Màrquez等人(2008年)[30]将语义角色标注的一般步骤描述为:1) filtering or pruning:在句子完全句法分析之后,过滤掉句子中明显不可能是语义角色的成分;2) local scoring:对过滤后剩余的每个句法成分进行标注;

3) joint scoring:这一步考虑整个句子层面的所有角色标注序列,寻求概率最大的标注序列;但由于这些语义角色标注步骤建立在完全句法分析树的基础上,因而语义角色标注的性能也完全依赖于句法分析的性能.

本文对所有例句使用IOB[31]策略,记标注集合为{B-X,I-X,O}(其中,X为语义角色标记),示例如下:

英|B-spkr 方面|I-spkr 作为|O 报复|O 措施|O 也|O 宣布|O 4|B-msg 名|I-msg 俄罗斯|I-msg 大使馆|I-msg 的|I-msg 外交官|I-msg 为|I-msg 不|I-msg 受|I-msg 欢迎|I-msg 的|I-msg 人|I-msg .|O。

其中:“宣布”是目标词,属于“陈述”框架;B-spkr代表“陈述”框架中角色“说话者[spkr]”的开始;I-spkr表示“陈述”框架中“说话者[spkr]”角色的延续;O表示块外词,即不是语义角色.

这样,就将CFN语义角色标注转化为词层面的线性序列标注.为此,CFN语义角色自动标注步骤为: 1) 边界识别:自动识别出句子中语义角色块边界;2) 角色分类:标注语义角色的类型;3) 后处理:针对不合理标注串等明显标注错误进行后处理,输出合理的角色标注序列.

李济洪 等:汉语框架语义角色的自动标注

601

3 标注模型

条件随机场模型[32]目前被广泛应用于序列标注任务中.许多学者已使用条件随机场模型进行语义角色标注的尝试,Cohn [14]将树条件随机场模型直接使用到PropBank 的句子的完全句法分析树上,建立标注模型.实验结果表明,树条件随机场的标注性能要显著好于最大熵模型.董静等人的工作[16]以PropBank 为实验语料,将句法分析树“压平”,并考虑句法树中水平层次上的角色标签之间的马尔可夫依赖关系,以线性链CRF 为标注模型进行了语义角色标注实验,提高了模型的精度.于江德等人[17]使用条件随机场模型研究了英文PropBank 的语义角色标注问题,他将完全句法分析树转换成浅层短语块序列,并使用浅层短语块和命名实体块作为标注单位,也取得了不错的结果.所有这些结果都表明,条件随机场模型在语义角色标注中有不俗的表现.然而,文献中使用条件随机场进行框架语义角色自动标注研究得很少.

框架知识库中不同框架所拥有的语义角色不同,标注模型可以每个词元建一个模型[23],也可以每个框架建一个模型[29].本文认为,不同词性词元的框架语义角色分布及句法搭配模式的可能有很大的不同,例如“陈述”框架名词词元的例句:

我们常常遇到?spkr-np-atta 某些同志? ?top-np-atta 对中央几个主要负责同志的? ?manr-np-atta 不正确的? ?tgt=“陈述” 言论 n ?,常常是不经过组织,也不合乎组织原则的.

与动词词元最明显的区别是,名词词元“言论”的框架元素绝大部分在其所处的最大短语(np)中,角色多数是“的”字结构.就现有的文献来看,基本上也是将动词(语料PropBank)和名词(语料NomBank)分别建模的.为此,本文建议对同一个框架,区分不同词性词元来分别建模.

在具体实验中,考虑到每个框架的例句偏少,本文首先使用如下近似卡方统计量来检验同一个框架下不同词性词元的在例句库中的角色分布是否存在显著差别.若显著不同,则要分别建模;否则,只需一个框架建一个模型.若检验为显著不同,但只是框架的一种词性的例句较多,其他词性类的词元的例句数较少(例句数与该框架语义角色个数之比小于20),则也不再区分,只将同一个框架下所有例句放在一起训练建模.

检验所用卡方统计量如下:

设某框架有K 个语义角色,其词元有M 种词性,记第m 种词性的第k 个语义角色在例句库中的频次为C km , m =1,…,M ,k =1,…,K ,则用如下的卡方检验来判断该框架的第m 种词性的例句的语义角色分布是否显著不同于其他词性的语义角色分布:

2

21()K

km km m k km C P P χ=?=∑, 其中,1111,K M K M

km km km km k m k m P r C r C C ====??==????∑∑∑∑.

若2

20.05(1)m K χχ≥?,则需将第m 种词性的例句单独训练一个模型,即将其看作一个不同的框架.否则,不区分 不同类型词性的词元,将所有例句放在一起训练和测试.这里,r 为第k 个语义角色在所有M 种词性例句中的比

例,P km 是将第m 种词性的角色总个数1K km k C =??????

∑按比例r 分配到第k 个语义角色的个数.特别地,若不同词性词元 的语义角色分布相同(“理想”状态),即,对任一给定的k ,C k 1=C k 2=…=C kM (或频率相等),则有P km =C km .

4 特征选择及优化

事实上,模型特征是影响机器学习性能的重要因素.构建良好的特征以及特征信息的有效利用是提高机器学习性能的关键.

条件随机场模型的特征定义比较灵活,特别地,可以通过定义各特征的窗口来有效地描述标注单元与其上下文的某种依赖关系,较大的窗口还能反映标注单元与其上下文之间长距离的特征信息的依赖关系.当然,并不是将窗口定义得越大越好,大窗口会导致数据稀疏,使得模型的泛化能力显著下降.因此,每种特征(包括组合特

602 Journal of Software软件学报 V ol.21, No.4, April 2010

征)均需要调整相应的窗口到适当大小以有效反映依赖性,这是CRF模型中特征选择的重要环节.一般地,在使用CRF模型的文献中,对特征窗口的选择都没有作深入的研究,本文拟对此作初步的探讨.

条件随机场模型中的特征选择,以各特征窗口大小的组合而构成的各种特征模板的选择来体现.因此,特征选择事实上是特征模板的选择.

4.1 候选特征及窗口

根据目前语料库的状况,候选的特征有:词、词性、词相对于目标词的位置、目标词,还有这些特征的二元组合、三元组合特征、这些特征的两两组合特征.本文将这些特征的窗口大小限定在3以内,并人为地给出几个可选窗口,见表1.

Table 1Candidate features and their optional sizes of windows

表1候选特征及其可选的窗口大小

No. Candidate features Optional sizes of window

1 Word [0,0][?1,1][?2,2][?3,3]

2 Bigram of word -[?1,1][?2,2][?3,3]

3 Part of speech [0,0][?1,1][?2,2][?3,3]

4 Bigram of POS -[?1,1][?2,2][?3,3]

5 Position (relative to target word)[0,0][?1,1][?2,2][?3,3]

6 Bigram of position -[?1,1][?2,2][?3,3]

7 Word/POS -[0,0][?1,1][?2,2]

8 Word/Position -[0,0][?1,1][?2,2]

9 POS/Position -[0,0][?1,1][?2,2]

10 Trigram of position -[?2,0][?1,1][0,2]

word -[0,0]

11 Word/target

12 Target word (compulsive) [0,0]

在候选特征集中,确定了窗口的所有特征就构成了一个特征模板.表1中,需要注意以下几点:

(1) 在每个模板中,每种特征只能选取一种窗口大小,“?”表示不选择该特征;

(2) [?m,n](m和n为正整数)表示窗口的大小,其中,?m代表当前标注单位的左边开大小为m的窗口,n代

表当前标注单位的右边开大小为n的窗口,一般选择对称大小的窗口.例如,以词特征为例,窗口大小

[?1,1]代表选取词及其前一个词、后一个词作为特征;其他类推;

(3) 当前词、当前词的词性和当前词相对于目标词的位置为基本特征,窗口大小的选择有4种,窗口最小

为[0,0],所以这3个为必选特征,只是在不同的模板中,窗口大小有所不同;

(4) 目标词为必选特征,在每个训练模板中都要有,窗口只需取[0,0];

(5) 对词的二元组合特征,由于窗口[0,0]中只容纳一个标注单位,无法构成二元组合,因此,词的二元组合

特征窗口没有[0,0]的情形.其他特征情况类似;

(6) “位置”特征是指被标注的当前词是在目标词(谓词)的左面(前面)还是右面(后面)或就是目标词,反映

了当前词与目标词搭配的顺序关系,取值可以有L(左面),T(目标词),R(右面).比如,例句“两 m 位 q 领导人 n 介绍v了 u …”中,若标注的当前词为“领导人”,则窗口[?1,1]的位置特征取值应为:L L T;

当前词的位置与词性的组合特征的窗口为[?1,1]的取值为L_q,L_n,T_v,其他取值类推.根据当前词的

相邻词位置的三元组合特征的特点,文中采用了非对称窗口.

另外,本文还将语义角色标记之间的一阶转移特征作为必选特征加入到每个模板之中.

4.2 基于正交表的特征模板的选优

上述特征的所有组合可以构成410×2种特征模板.在所有模板上进行训练、测试,挑出最好的模板,计算量很大,显然不现实.

传统的特征模板选取方法有两种:(1) 通过主观经验为每种特征选定一个固定窗口,形成一个个固定窗口的特征模板[12];或通过主观经验给定几个候选特征模板,并从中挑选出最优的模板[29];(2) 以一个模型为Baseline模型,顺序地加入每种特征,并使用贪心算法逐步调整该特征的窗口大小,确定每种特征的最优窗口,形

李济洪 等:汉语框架语义角色的自动标注 603 成相应的特征模板[33].第1种方法过于主观;第2种方法实验训练时间较长,而且很难保证选到的模板较优.

事实上,每个特征的候选窗口有如下性质:1) 窗口大的特征信息包含窗口小的特征信息;2) 一个模板中每种特征只能具有一个窗口值;3) 由于各种特征信息之间相关性较大,特征窗口大小会交互影响模型的性能.因此,不能在选定特征后再调整窗口大小,将特征和窗口大小一起选择较为妥当.

本文建议,在一批适量的候选特征模板中,挑出最好的模板.这批适量的候选模板应满足:1) 数量不能太多,因为计算量的原因;2) 要有“代表性”,也即在410×2种全部特征模板中具有一定“代表性”的模板.如果将表1中的候选特征看作因子,窗口大小看作水平,把各种组合构成的特征模板看作全体“实验点”空间,这个问题转化为统计实验设计中的在全部实验空间中“均匀”选取实验点的优化问题.“均匀”选出的点所对应的模板就是具有“代表性”的模板.

本文使用统计学实验设计的正交表选优法来选择模板.正交表具有均匀分散性,常用于优化选点问题,其原理和方法在实验设计文献[34]中有详细的描述.用统计学实验设计的术语,这里对应的就是11个因子(特征),前10个因子每个因子4个水平(窗口大小),最后一个因子为2水平(窗口大小),文献[34]中可以选用的正交表有L 32(49×24).为了使用该正交表,本文将“相邻词的位置的三元组”特征拆成3个2水平的特征(列),3列的2水平分别对应不选取(?)和[?2,0],[?1,1],[0,2](窗口大小),因子排列分别对应表中的前9列和最后4列.使用这个正交表,只需按表里列出的各组合(每种组合对应一个模板)形成相应的32个(编号0~31)候选模板,并从中选择一个最优模板.最优模板选取的标准完全以每个框架测试集上全部语义角色标注的F 1-值的大小来确定,F 1-值大者 为优.

5 语料来源

实验所用语料从130个框架中选择例句个数较多的25个框架的例句库(详见表2).本文将所选语料例句拆分为4份,其中,每个框架的例句库按照词元均匀拆分到每一份中.由于目前语料规模不大,本文采用2-fold 交叉验证进行实验.即,任取2份作为训练集,其他2份作为测试集,这样共可以作3组2-fold 交叉验证.最终的评价指标以3组交叉验证实验的F 1-值的平均值来评价标注模型的性能.

Table 2 Data from 25 frames selected from the corpus

表2 语料库所选的25个框架数据表 Names of frame

Number of frame elements Number of exemplified sentences Distribution of frame element counts in 4-folder data sets Number of lexical units Names of frame Number of frame elements Number of exemplified sentences Distribution of frame element counts in 4-folder data sets

Number of lexical units 感受 6 569 169, 176, 161, 16461 因果

7 140 63, 64, 63, 71 14 知觉特征 5 345 128, 125, 130, 12336 陈述 10 1603 988, 1 011, 992, 963

87 思想 3 141 29, 32, 30, 32 15 拥有

4 170 87, 83, 86, 81 1

5 联想 5 185 76, 76, 77, 70 19 适宜性

4 70 40, 41, 42, 39 7 自主感知 14 499 278, 291, 279, 28227 发明 12 198 109, 111, 123, 126

13 查看 9 320 157, 158, 152, 15531 计划

6 90 51, 53, 47, 48 9 思考 8 283 111, 120, 111, 11633 代表

7 80 50, 46, 46, 46 8 非自主 感知

13 379 205, 200, 202, 20128 范畴化11 125 83, 84, 74, 84 10 获知 9 258 160, 156, 158, 16415 证明

9 101 50, 48, 46, 46 11 相信 8 218 103, 90, 97, 10026 鲜明性9 260 110, 106, 106, 102

30 记忆 12 298 163, 169, 162, 18117 外观

10 106 47, 47, 43, 45 13 包含 6 126 66, 64, 65, 65 24 属于某类

8 74 39, 38, 39, 37 7 宗教信仰 5 54 31, 23, 31, 27 4 Total 200 6 692 3 393, 3 412, 3 362, 3 368 560 注:框架元素定义个数是指在CFN 中相应框架的定义中核心元素与非核心元素个数之和.

604

Journal of Software 软件学报 V ol.21, No.4, April 2010

6 评价方法

框架语义角色自动标注正确指的是语义角色的边界和类型均完全识别正确.在测试集上对每个框架的所

有语义角色,采用信息检索中的准确率(precision)、

召回率(recall)和F 1-值来评价标注模型的性能.它们的定义分别为

准确率=正确标注为语义角色的个数/自动标注为语义角色总数,

召回率=正确标注为语义角色的个数/测试集中语义角色总数,

F 1-值=2×准确率×召回率/(准确率+召回率).

若重复使用交叉验证,则最终的评价指标以几组交叉验证实验的准确率、召回率的平均值而计算出的F 1-值来评价标注模型的性能.

7 后处理方法

由于是以词为基本标注单位,模型的概率最大的自动标记序列可能出现不合理的序列,例如:…O I-X…,或…B-X I-Y…,或…B-X I-X I-Y…,或目标词对应标记不为“O”等.从而无法按照IOB 的标记策略还原它们所对应的语义角色块.

在测试时,文本以概率最大的合理标注序列(以C (Y )=TURE 判断)作为最优标注序列输出,即

*arg

max (|)s.t. ()TRUE

Y Y P Y X C Y ?=???=?, 其中:当序列Y 为合理序列时,函数C (Y )=TURE;否则,C (Y )=FALSE.在具体实现时,将条件随机场模型输出的标注序列,依序列的概率值从大到小顺序排列,逐个判断C (Y ),直至找到第1条合理的标记序列输出即可.判断一个标注序列是否为合理的标注序列的算法如下:

算法1. 判断标注序列合理性的算法.

输入:(1) 当前句子的标注序列:S =(s [1],s [2],…,s [n ]);

其中,s [i ]属于集合{B-X,I-X,O},X 为语义角色类型,1≤i ≤n ;

(2) 目标词在序列中的位置:pos _tgt ,1≤pos _tgt ≤n ;

1: 初始化:

当前语义角色标记chunkTag 赋值为空;

序列状态state 赋值为“合理”;

2: 检查目标词的预测标记s [pos _tgt ]:

如果s [pos _tgt ]为O,则跳至3;否则,则将state 设置为“不合理”,跳转到4;

3: 循环开始s [i ]:1≤i ≤n //依次判定标注序列S 中每个词语的标记

(1) 如果s [i ]为B-X,则将当前语义角色标记chunkTag 设置为X;

(2) 如果s [i ]为I-X,判断X 是否与chunkTag 匹配.如果不匹配,则将state 设置为“不合理”,跳转到4;

(3) 如果s [i ]为O,则将当前语义角色标记chunkTag 设置为空;

循环结束

4: 结束

输出:序列状态state.

标注的序列可能很多,若在有限步(比如200步)内还无法找到合理序列,则将最大概率序列直接修改为合理序列,具体的修改算法如下:

算法2. 将不合理序列直接修改为合理序列的算法.

输入:(1) 当前句子的标注序列:S =(s [1],s [2],…,s [n ]);

其中,s [i ]属于集合{B-X,I-X,O},X 为语义角色类型,1≤i ≤n ;

李济洪 等:汉语框架语义角色的自动标注

605

(2) 目标词在序列中的位置: pos _tgt ,1≤pos _tgt ≤n ;

1: 初始化:

当前语义角色标记chunkTag 为空; 2: 检查目标词的预测标记s [pos _tgt ]:

如果s [pos _tgt ]不为O,则将标记s [pos _tag ]设置为O;

3: 循环开始s [i ]: 1≤i ≤n //依次判定标注序列S 中每个词语的标记

(1) 如果s [i ]为B-X,则将当前语义角色标记chunkTag 设置为X;

(2) 如果s [i ]为I-X,则判断X 是否与当前语义角色chunkTag 匹配.如果不匹配,则将标记s [i ]设置为

(“I-”+chunkTag);

(3) 如果tag 为O,则将当前语义角色标记chunkTag 设置为空;

循环结束

输出:S ′=(s [1],s [2],…,s [n ]); //修改后的标注序列.

8 实验结果及分析

实验所用CRF++工具包来自于Sourceforge [35],使用其中的CRFL2算法,并选取C =1进行参数平滑.

按照第3节所述方法对25个框架分别进行检验,得到只有“陈述”框架需要分开训练.“陈述”框架的词元具

有动词和名词两种词性,有K =10个角色.根据第3节的2m χ检验方法,自由度应为9,经过计算得到动词的卡方值

为220.05144.2(9)16.919χχ=>=(“陈述”框架),名词的卡方值为220.05967.24(9)16.919χχ=>=,并且两类的例句个

数都较多.因此,将“陈述”框架的语义角色标注模型分为动词模型和名词模型两种.

下面先给出“陈述”框架动词模型的详细实验结果和实验分析,最后给出25个框架的自动标注结果和整体标注性能.“陈述”框架动词词元有例句1 350条,角色个数3 441.四份例句数据集的分布为:第1份(D1):例句数438,角色个数846个;第2份(D2):例句数438,角色个数890个;第3份(D3):例句数438,角色个数875个;第4份(D4):例句数437,角色个数858个.

本文的所有实验均是将标注步骤1)的边界识别与步骤2)的角色分类合并进行的.

8.1 “陈述”框架动词模型的语义角色的标注结果

依F 1-值的大小,从正交表的32个特征模板中挑选出了“陈述”框架动词模型的最好模板(#12).表3给出了“陈述”框架动词模型#12模板的3组交叉验证的实验结果,最好模板的F 1-值为67.75%.

Table 3 Results of 2-fold cross-validation on SRL (semantic role labeling)

for the verbal model of “statement” frame

表3 “陈述”框架动词模型语义角色标注的2-fold 交叉验证结果

2-fold CV Group 1 2-fold CV Group 2 2-fold CV Group 3 Component parts of training

set and testing set

D1, D2?D3, D4 traning and testing each other D1, D3?D2, D4 traning and testing each other D1, D4?D2, D3 traning and testing each other Best template (#12)

68.21% 65.68% 70.14% 66.67% 69.04% 66.75% Average of each group

66.95% 68.41% 67.90% Average in all 67.75%

一般文献中都是基于经验给出若干个模板,并从中选出最好的模板.如使用文献[29]选出的最好模板,用同样数据得到的“陈述”框架动词模型的F 1-值为64.13%,在χ2(1)检验下,两者有显著差异(p <0.05).表4中列出了最优模板(#12)的含义.

表4中,“目标词”特征为给定前提条件(必选),词、词性、位置3个特征也为必选特征(加粗体).

606 Journal of Software软件学报 V ol.21, No.4, April 2010

Table 4Best template of SRL for the verbal model of “statement” frame

表4“陈述”框架动词模型语义角色标注的最优模板

No. Features Selected

levels Description

1 Word [0,0] Feature of current word

2 Bigram of word -Not selecting this feature

3 POS [?3,3] Feature of POS with [?3,3] window

4 Bigram of POS -Not selecting this feature

5 Position [?1,1] Feature of position with [?1,1] window

6 Bigram of position [?3,3] Bigram feature of position with [?3,3] window

7 Word/POS [0,0] Joint feature of current word and its POS

8 Word/Position [?2,2] Joint feature of current word and its position with [?2,2] window

9 POS/Position [?1,1] Joint feature of POS and position of current word with [?1.1] window

10 Trigram of position -Not selecting this feature

11 Word/target

word -Not selecting this feature

12 Target word [0,0] Feature of target word be included in all templates

8.1.1 “陈述”框架动词模型语义角色标注结果的错误分析

“陈述”框架动词模型标注性能较低的原因主要有:

(1) 语义角色的边界识别正确率低

表5中详细列出了各语义块的错误分析结果.由表5可知,在标注错误的语义角色块中,大部分都是因边界识别错误造成的,边界正确但角色类别标注错误的语义角色块很少.

Table 5Statistics on error labeling of semantic roles for the verbal model of “statement” frame

表5“陈述”框架动词模型下语义角色块的标注错误情况统计

2-fold cross validation

Total number of

chunks in each test set

Chunks with

wrong boundaries

Chunks with correct

boundaries but wrong

frame elements types

Both correct

chunks

1 705 601 43 1 061

Group 1 D1, D2?D3, D4

1 736 62

2 66 1 048

1 720 565 50 1 105

Group 2 D1, D3?D2, D4

1 721 618 51 1 052

1 737 599 53 1 085

Group 3 D1, D4?D2, D3

1 704 600 44 1 060

如果仅对“陈述”框架进行边界识别,可得动词模型的3组交叉验证的平均边界识别准确率、召回率、F1-值分别为74.97%,67.24%,70.90%;而在给定正确边界的基础上,“陈述”框架动词模型的语义角色分类精确率(accuracy)为89.64%.

(2) 词特征稀疏的影响

词特征是标注模型的关键特征.要使语义角色块标注正确,首先使得组成其语义块的词的标注正确.但是,从词的标注(而不是从语义角色块)情况来看,那些在测试集中出现而在训练集中未出现的词的标注正确率较其他词明显要低.表6给出了“陈述”框架动词模型中词的标注情况的统计信息.

Table 6Labeling results w.r.t. words within the semantic roles for the verbal model of “statement” frame

表6“陈述”框架动词模型语义角色中按照词的标注结果

Appeared in the training set Not appeared in the training set

Experiment Word

counts Correct

Accuracy

(%)

Wrong

Error rate

(%)

Word

counts

Correct

Accuracy

(%)

Wrong

Error rate

(%)

D1,D2 7 497 5 766 76.91 1 73123.09 1 978 1 427 72.14 551 27.86 D1,D3 7 661 5 782 75.47 1 87924.53 2 007 1 425 71.00 582 29.00 D1,D4 7 660 5 645 73.69 2 01526.31 1 923 1 339 69.63 584 30.37 D2,D3 7 319 5 715 78.08 1 60421.92 1 998 1 463 73.22 535 26.78 D2,D4 7 353 5 620 76.43 1 73323.57 1 879 1 394 74.19 485 25.81 D3,D4 7 487 5 784 77.25 1 70322.75 1 938 1 416 73.07 522 26.93 Average

(%)

76.31 23.70 72.21 27.79 从表6中可以看出,那些在测试集中出现而在训练集中未出现的词的标注准确率会下降约4%.因此,测试集

李济洪 等:汉语框架语义角色的自动标注 607 中出现而未在训练集中出现的词是性能下降的一个因素.如果加大训练集规模,相对缩小测试集规模,那么在测试集中未出现而在训练集出现的词的数目将会变少.比如,当“陈述”框架动词模型的例句库训练、测试按4-fold 交叉验证, F 1-值为71.03%,模型的性能明显提升.

(3) 缺乏较好的句法分析器的支持

Xue [26]的研究结果表明,基于人工标注的完全句法树,中文PropBank 的语义角色的标注F 1-值能够达到94.1%,可与英文PropBank 的性能相媲美.但是,如果采用自动的汉语句法分析器,则最终F 值却只能达到71.9%.

为了得到基于完全句法分析树的CFN 语义角色标注结果,本文使用Stanford 大学的汉语句法分析器v1.6[36](从文献[37]来看,它是性能较好的汉语完全句法分析器之一)对训练、测试集上所有例句进行了自动完全句法分析(在“正确”分词的基础上).本文尝试使用与Xue [26]相同的特征集和最大熵分类器进行CFN 语义角色边界识别实验.在“陈述”框架的动词词元的测试集上,语义角色边界识别的F 1-值只有55.96%.

8.1.2 “陈述”框架动词模型语义角色标注的性能分析

随机抽取“陈述”框架动词词元训练集中例句数,使其例句个数n 与框架定义的元素个数e 的比值r =n /e ,以步长5从5取到65,分别训练和测试,可以得到模型随着标注例句的规模变化的性能曲线,如图1所示.图1中给出了3组交叉验证的F 1-值的变化曲线(共6条)以及6组实验的F 1-值的平均值(macro-F ).

图1 “陈述”框架下动词模型的性能曲线

由图1中可知,随着例句个数n 与框架定义的元素个数e 比值r =n /e 的增大,其标注的性能呈上升趋势.换句话说,如果继续增加语料库规模,则模型的性能还有增加的余地.

8.2 其他框架的自动标注结果

其他框架按照以上方法,分别训练并测试,可以得到如表7所示的实验结果.表7的最后一行给出了25个框架的总的实验结果,总F 1-值为61.62%.

根据表7给出的实验结果以及前述结果分析,本文可以得到如下几点结论:

(1) 最好模板1号最多,有9个;12号模板次之,有6个.在其他框架的实验结果中,1号模板均排在前5位.

若全部框架都用1号模板,则可以得到F 1-值61.04%.这也是所有框架按同一个模板的最好的结果(全

部使用12号模板得到60.93%,为次好模板),与各自最优模板的61.62%差异不大.因此,1号模板可以

作为所有框架的通用模板(见表8).这样,在新框架的自动标注建模中,为节省时间,可以省掉模板选择

的过程,直接用1号模板;

(2) 本文用选出的通用模板1号,得到25个框架的F 1-值为61.04%;对25个框架全部采用文献[29]中的

最优模板,只能得到56.91%.在χ2(1)检验下,两者有显著差异(p <0.05),说明正交表特征选择方法较传

统的经验试探的模板选择方法可能更有效,并在一定程度上避免了模板选择的盲目性;

(3) 本文曾尝试使用Stanford 大学的汉语句法分析器v1.6对实验数据集上所有例句进行了自动分析,并

使用Xue [26]的完全相同特征在25个框架的测试集上进行实验.角色的边界完全能够与句法分析树中

D1,D2 D1,D3 D1,D4 D2,D3 D2,D4 D3,D4 Macro- 65.00%

60.00%

55.00%

50.00%

45.00%

40.00%70.00%

608

Journal of Software 软件学报 V ol.21, No.4, April 2010

的句法成分对齐的有76%,使用最大熵方法仅识别角色边界的结果也只有52.43%.因此,在缺乏较好

句法分析器的情况下,将语义角色标注问题看作词序列的序列标注问题,方法具有一定的可行性;

(4) 所有框架的自动标注结果都是准确率显著大于相应的召回率,召回率是影响模型性能的主要指标.

从“陈述”框架动词模型的错误分析来看,整个模型召回率低的主要原因是在每个框架的角色边界识

别时的召回率很低.因此,提高角色边界的识别的召回率应当是下一步主攻方向;

(5) 同一个框架定义下虽然有相同的框架元素定义,但可以有不同的词性词元.我们分开来建模主要是

考虑到不同的词性词元在句子中与其元素之间的组配方式明显不同,反映在条件随机场模型的所选

特征上会有所不同,模板也有所不同.“陈述 n”和“陈述 v”标注的分开训练、测试结果明显不同,说明

区分还是有必要的;

(6) 在本文所选的25个框架中,标注结果的F 1-值偏低的基本上都来自框架网的认知域,而认知域的框架

即使在手工标注时也都很难把握,因此其自动标注有一定的难度,具有挑战性.

Table 7 Results on cross-validation for the selected 25 frames

表7 选出的25个框架交叉验证的结果 Namesof frame No. of best template P (%) R (%)F 1 (%)Names of frames No. of best template P (%) R (%) F 1 (%) 感受

1 62.94 52.0156.96因果 1

2 72.94 40.51 52.09 知觉特征

16 81.37 62.7170.83陈述_v 12 74.53 62.11 67.75 思想

16 67.12 44.7253.68陈述_n 21 70.28 43.89 54.03 联想

1 50.23 24.3032.75拥有 1 77.57 59.35 67.25 自主感知

6 73.50 49.5659.20适宜性 2 69.14 49.42 57.64 查看

1 71.45 36.3748.20发明 1

2 69.91 42.20 52.6

3 思考

12 74.95 47.4558.11计划 1 72.53 52.01 60.57 非自主感知

9 72.60 48.2757.99代表 11 76.60 58.73 66.48 获知

1 74.71 52.6861.79范畴化 1 67.71 30.56 42.11 相信

12 83.39 51.0663.34证明 20 75.30 55.82 64.11 记忆

17 79.21 52.1062.86鲜明性 23 81.98 54.20 65.25 包含

1 87.78 84.8786.30外观 1 74.06 49.13 59.08 宗教信仰 1

2 85.10 47.2860.79属于某类

9 83.92 67.31 74.70 Total 74.16 52.70 61.62

Table 8 Best template of SRL for all 25 frames

表8 所有25个框架语义角色标注的最优模板

No. Features Selected levels Description

1 Word [?1,1] Feature of current word with [?1,1] window

2 Bigram of word -

Not selecting this feature 3 Part of speech [0,0] Feature of POS for current word

4 Bigram of POS [?2,2] Bigram feature of POS with [?2,2] window

5 Position [0,0] Position feature for current word

6 Bigram of position [?2,2] Bigram feature of position with [?2,2] window

7 Word/POS [?1,1] Joint feature of current word and its POS with [?1,1] window

8 Word/Position [0,0] Joint feature of current word and its position

9 POS/Position [?2,2] Joint feature of POS and position of current word with [?2,2] window

10 Trigram of position -

Not selecting this feature 11 Word/target word -

Not selecting this feature 12 Target word (compulsive) [0,0] Feature of target word be included in all templates

9 结论与展望

本文基于山西大学开发的汉语框架语义知识库(CFN),将语义角色标注问题看作以词为基本标注单元的序列标注问题,使用条件随机场模型,以每个框架相同词性的词元建一个模型,引入统计学正交表特征窗口的优选方法,研究了汉语框架语义角色的自动标注任务.在由25个框架例句所构成的语料上,以每个框架的最优模板得到的语义角色标注的2-fold 交叉验证的F 1-值达到61.62%;若以选出的所有框架的统一的最优模型模板来

李济洪等:汉语框架语义角色的自动标注609

看,F1-值达到61.04%.

本文基于Stanford句法分析器,使用Xue的方法得到的结果偏低,可能与我们的语料偏小、分类模型训练不够充分有很大关系.但我们一直在思考,语义角色是目标词的支配项,是词与目标词的语义依存关系.将词语级的语义依存分析基于完全句法分析之上,似乎有点将此依赖于一个更为复杂问题的解决.事实上,许多语言学家认为,汉语是一种意合语言,语义与句法形式结构相对应的特征并不明显,词语的语义结构多体现在词与某些词语经常性的组合.因此,本文将目标词的语义角色标注问题看作词序列的序列标注问题,在句子中抽取词与词之间的依赖关系特征,不失为一种有益的尝试.从本文的标注结果来看,这种方法具有一定的可行性.

下一步需要进行的研究工作还有许多,主要集中在如下5个方面:

(1) 深入研究如何在模型中加入句法层面的特征,努力提高自动标注模型的性能;

(2) 将语义角色边界识别和语义角色分类分别进行,并与本文中的模型进行对比分析;

(3) 多种语义角色标注模型标注结果的比较和融合;

(4) 增加语料规模,建立分词性模型的通用模板;

(5) 设计完成一个框架语义自动标注器,为构建大规模语义知识库提供一个自动分析工具.

致谢本文的实验分析和撰写过程,均得到刘开瑛老师的指导,在此表示感谢.并由衷地感谢审稿人为本文提出了非常具有建设性的意见.

References:

[1] You L, Liu K. Building Chinese FrameNet database. In: Ren FJ, Zhong YX, eds. Proc. of the IEEE NLP-KE 2005. Wuhan: IEEE

Press, 2005. 301?306.

[2] Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project. In: Morgan K, ed. Proc. of the COLING-ACL’98. Montreal:

ACL Press, 1998. 86?90.

[3] Litkowski KC. Senseval-3 task automatic labeling of semantic roles. In: Mihalcea R, Edmonds P, eds. Proc. of the 3rd Int’l

Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona: ACL Press, 2004. 9?12.

[4] Baker CF, Ellsworth M, Erk K. SemEval 2007 task 19: Frame semantic structure extraction. In: Agirre E, Màrquez L, Wicentowski

R, eds. Proc. of the 4th Int’l Workshop on Semantic Evaluations. Prague: ACL Press, 2007. 99?104.

[5] Carreras X, Màrques L. Introduction to the CoNLL-2004 shared task: Semantic role labeling. In: Ng HT, Riloff E, eds. Proc. of the

CoNLL 2004. Boston: ACL Press, 2004. 89?97.

[6] Carreras X, Màrques L. Introduction to the CoNLL-2005 shared task: Semantic role labeling. In: Knight K, Ng HT, Oflazer K, eds.

Proc. of the CoNLL 2005. Ann Arbor: ACL Press, 2005. 152?164.

[7] Surdeanu M, Johansson R, Meyers A, Màrquez L, Nivre J. The CoNLL 2008 shared task on joint parsing of syntactic and semantic

dependencies. In: Clark A, Toutanova K, eds. Proc. of the CoNLL-2008. Manchester: ACL Press, 2008. 159?177.

[8] Hajic J, Ciaramita M, Johansson R, Kawahara D, Marti MA, Màrquez L, Meyers A, Nivre J, Padó S, Stěpónek J, Stranak P,

Surdeanu M, Xue NW, Zhang Y. The CoNLL-2009 shared task: Syntactic and semantic dependencies in multiple languages. In: Stevenson S, Carreras X, eds. Proc. of the CoNLL-2009. Boulder: ACL Press, 2009. 1?18.

[9] Chen J, Rambow O. Use of deep linguistic features for the recognition and labeling of semantic arguments. In: Hinrichs EW, Roth

D, eds. Proc. of the EMNLP-2003. Sapporo: ACL Press, 2003. 41?48.

[10] Thompson CA, Levy R, Manning CD. A generative model for semantic role labeling. In: Lavrac N, Gamberger D, Todorovski L,

Blockeel H, eds. Proc. of the ECML-2003. Croatia: Springer-Verlag, 2003. 235?238.

[11] Hacioglu K. Semantic role labeling using dependency trees. In: Nirenburg S, ed. Proc. of the COLING-2004. Geneva: COLING,

2004. 1273?1276.

[12] Pradhan S, Hacioglu K, Krugler V, Ward W, Martin J, Jurafsky D. Support vector learning for semantic argument classification.

Machine Learning, 2005,60(1):11?39. [doi: 10.1007/s10994-005-0912-2]

[13] Pradhan S, Ward W, Martin JH. Towards robust semantic role. Computational Linguistics, 2008,34(2):289?310. [doi:

10.1162/coli.2008.34.2.289]

610 Journal of Software软件学报 V ol.21, No.4, April 2010

[14] Cohn T, Blunsom P. Semantic role labeling with tree conditional random fields. In: Knight K, Ng HT, Oflazer K, eds. Proc. of the

CoNLL 2005. Ann Arbor: ACL Press, 2005. 169?172.

[15] Surdeanu M, Màrquez L, Carreras X, Comas PR. Combination strategies for semantic role labeling. Journal of Artificial

Intelligence Research, 2007,29(1):105?151.

[16] Dong J, Sun L, Lv Y, Feng Y. Semantic role labeling based on linear chain conditional random fields. In: Sun MS, Chen QX, eds.

Proc. of the Progress and Forefront of Chinese Information Processing. Beijing: Tsinghua University Press, 2006. 32?37 (in Chinese with English abstract).

[17] Yu JD, Fan X, Pang W, Yu Z. Semantic role labeling based on conditional random fields. Journal of Southeast University (English

Edition), 2007,23(3):361?364.

[18] Liu T, Che WX, Li S. Semantic role labeling with maximum entropy classifier. Journal of Software, 2007,18(3):565?573 (in

Chinese with English abstract). https://www.wendangku.net/doc/bc1335524.html,/1000-9825/18/565.htm [doi: 10.1360/jos180565]

[19] Che WX, Li ZH, Hu YX, Li YQ, Qin B, Liu T, Li S. A cascaded syntactic and semantic dependency parsing system. In: Clark A,

Toutanova K, eds. Proc. of the CoNLL-2008. Manchester: ACL Press, 2008. 238?242.

[20] Che WX, Li ZH, Li YQ, Guo YH, Qin B, Liu T. Multilingual dependency-based syntactic and semantic parsing. In: Stevenson S,

Carreras X, eds. Proc. of the CoNLL-2009. Boulder: ACL Press, 2009. 49?54.

[21] Zhao H, Chen WL, Kit C, Zhou GD. Multilingual dependency learning: A huge feature engineering method to semantic

dependency parsing. In: Stevenson S, Carreras X, eds. Proc. of the CoNLL-2009. Boulder: ACL Press, 2009. 55?60.

[22] Bjorkelund A, Hafdell L, Nugues P. Multilingual semantic role labeling. In: Stevenson S, Carreras X, eds. Proc. of the CoNLL-

2009. Boulder: ACL Press, 2009. 43?48.

[23] Gildea D, Jurafsky D. Automatic labeling of semantic roles. Computational Linguistics, 2002,28(3):245?288. [doi: 10.1162/

089120102760275983]

[24] Sun HL, Jurafsky D. Shallow semantic parsing of Chinese. In: Hirschberg JB, ed. Proc. of the NAACL-HLT 2004. Boston: ACL

Press, 2004. 249?256.

[25] Xue NW, Palmer M. Automatic semantic role labeling for Chinese verbs. In: Bramer M, ed. Proc. of the 19th Int’l Joint Conf. on

Artificial Intelligence. Edinburgh: IJCAI, 2005. 1161?1165.

[26] Xue NW. Labeling Chinese predicates with semantic roles. Computational Linguistics, 2008,34(2):225?255. [doi: 10.1162/

coli.2008.34.2.225]

[27] Yuan YL. The new trend and long term goal of constructing semantic resource. Journal of Chinese Information Processing, 2008,

22(3):3?15 (in Chinese with English abstract).

[28] Liu M, You L. The preparatory study of semantic role labeling rule for Chinese perceptive word. In: Sun MS, Chen QX, eds. Proc.

of the Frontiers of Content Computing: Research and Application. Beijing: Tsinghua University Press, 2007. 320?325 (in Chinese with English abstract).

[29] Liu K, Chen XY, Li JH. Chinese frame elements automatic tagging. In: Bai S, Sun MS, eds. Proc. of the 4th National Conf. of

Information Retrieval and Content Security. Beijing: NCIRCS Press, 2008. 48?55 (in Chinese with English abstract).

[30] Màrquez L, Carreras X, Litkowski KC, Stevenson S. Semantic role labeling: An introduction to the special issue. Computational

Linguistics, 2008,34(2):145?159. [doi: 10.1162/coli.2008.34.2.145]

[31] Ramshaw LA, Marcus MP. Text chunking using transformation-based learning. In: Yarowsky D, Church K, eds. Proc. of the 3rd

Workshop on Very Large Corpora. Cambridge: ACL Press, 1995. 88?94.

[32] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In:

Brodley CE, Danyluk AP, eds. Proc. of the 18th Int’l Conf. on Machine Learning. Williamstown: Morgan Kaufmann Publishers, 2001. 282?289.

[33] Ding W, Chang B. Maximum entropy-based semantic role classification. Journal of Chinese Information Processing, 2008,22(6):

20?27 (in Chinese with English abstract).

[34] Robust Design Team of CAAS. Robust Design of Computable Project. Beijing: Peking University Press, 1985. 165?165 (in

Chinese).

[35] Kudo T. CRF++ tools package. version: 5.0, 2007. https://www.wendangku.net/doc/bc1335524.html,/

李济洪等:汉语框架语义角色的自动标注611

[36] MacCartney B. The Stanford parser. version: 1.6, 2007. https://www.wendangku.net/doc/bc1335524.html,/software/lex-parser.shtml

[37] Levy R, Manning C. Is it harder to parse Chinese, or the Chinese treebank? In: Tsujii JI, ed. Proc. of the 41st Annual Meeting on

Association for Computational Linguistics, Vol.1. Sapporo: ACL Press, 2003. 439?446.

附中文参考文献:

[16] 董静,孙乐,吕元华,冯元勇.基于线性链条件随机场模型的语义角色标注.见:中国中文信息学会25周年学术会议论文集.北京:

清华大学出版社,2006.

[18] 刘挺,车万翔,李生.基于最大熵分类器的语义角色标注.软件学报,2007,18(3):565?573. https://www.wendangku.net/doc/bc1335524.html,/1000-9825/18/

565.htm [doi: 10.1360/jos180565]

[27] 袁毓林.语义资源建设的最新趋势和长远目标.中文信息学报,2008,22(3):3?15.

[28] 刘鸣洋,由丽萍.汉语感知词语的语义角色标注规则初探.见:内容计算的研究与应用前沿会议论文集.北京:清华大学出版

社,2007.320?325.

[29] 刘开瑛,陈雪艳,李济洪.汉语框架元素自动标注实验报告.见:第4届全国信息检索与内容安全学术会议论文集.北京:清华大学

出版社,2008.48?55.

[33] 丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类.中文信息学报,2008,22(6):20?27.

[34] 中国现场统计研究会三次设计组.可计算性项目的三次设计.北京:北京大学出版社,1985.165?165.

李济洪(1964-),男,山西长子人,副教授,主要研究领域为中文信息处理,统计学.

王蔚林(1984-),男,硕士,主要研究领域为统计学

.

王瑞波(1985-),男,硕士,主要研究领域为

中文信息处理.

李国臣(1963-),男,教授,主要研究领域为

中文信息处理.

常用现代汉语虚词辨析60例

常用现代汉语虚词辨析60例 汉硕备考交流~壹贰玖八叁陆七零四五 1、本来原来 “本来”强调理应如此,常与“就”连用。 “原来”表示发现过去不知道或对情况有所认识。 2、逐渐逐步 “逐渐”一般表示自然而然的变化,可以修饰形容词。 “逐步”用于有意识有步骤的变化,可以修饰形容词。 3、偶尔偶然 “偶尔”(也写作:“偶而”)着眼于数量,次数少有时跟“经常”相对。“偶然”着眼于意外,从一般事理或一般规律上看,事情的发生是意外的,是在规律之外,跟“必须”相对。 4、一齐一起 “一齐“表示同时,侧重点是时间。 “一起”主要有两个用法:其一,侧重的是动作行为的方式,而不是时间。其二,表示同一个处所。 5、以至以致 “以至”一般表示时间、程度、范围上的递升或递降,有“直到”的意思。“以致”表示事物发展的结果,一般指不好的结果。 6、往往常常 “往往”是对到目前为止出现的情况的总结,有一定的规律性,不能用于主观愿望。“常常”单纯指动作的重复,不一定有规律性,可以用于主观愿望。因此“常常”可以用于将来的事情,“往往”则不能。用“往往”的句子要指明与动作有关的情况、条件、结果;“常常”没有这种限制。 7、才再 “才”表示动作已经实现,并强调实现的很晚。“再”表示动作尚未实现,但将于某时实现。 8、又再 在表示动作重复或继续时,“又”用于已经实现的。“再”用于未来实现的。 9、一概一律 这两个词在用于通知、规定时,概括事物,可以通用;概括人常用“一律”。 10、已经一经

“已经”表示事情完成或时间过去。“一经”表示只要这样说了或这样做了,接着就会产生相应的结果。“已经”和“一经”都是副词。不过用“一经”的句子,“一经”换成“一旦”还解释得通;用“已经”的句子,“已经”绝对不能换成“一旦”。 11、竟然居然 都是副词,都有出乎意料,超出常理或常情。用于不好的方面,表 示“不应该这样而这样”。用于好的方面,表示“不容易这样而这 样”。“竟然”用于主语后面,动词谓语前面。“竟然”也可以单说 成“竟”。“竟然”常用于口头语体,“竟”则不限。“居然”有时语气略 重。“竟然”一般不这样用。 12、已经曾经 都是副词,都有有了某种行为或情况的意思。 “已经”表示动作、变化完成或达到某种程度,强调动作行为开始或完成,时间一般在不久以前,后面的动词多带动态助词“了”,少 用“过”。“曾经”表示以前有过某种行为或情况,强调某种行为或情况从前有过,现在已经结束了,“曾经”后面的动词多带动态助词“过”,也可以用“了”。 13、暂且姑且 “暂且”指暂时地,重在强调时间短暂。“姑且”指暂时地,重在强调让步。 14、几乎简直 “几乎”表示接近,程度上比“简直”差些。“简直”的意思是“接近完全”,“近乎等于”。 15、马上立刻 “马上”所表示的紧迫性有时幅度大;而“立刻”没有这种情况,它表示的都是即刻要发生的。 16、从来历来向来 “从来”表示从过去到现在。“历来”从来,一向。“向来”从来,一向。都可作副词,都可表示从过去到现在的意思。“从来”多用于否定句;“历来”多用于肯定句;“向来”兼用于肯定句和否定句。“从来”的语气比较绝对,强调的意味较重;“历来”、“向来”是一般地叙述,语意较 轻。“从来”、“历来”还可以作形容词,充当定语,“向来”没有形容词的意义和用法。“历来”多用于书面语,“从来”、“向来”兼用于书面语和口语。 17、对于、对介词“对于”、“对”介引动作的对象或与动作有关的人或事物。这两个介词在许多场合都可以通用。一般说能用“对于”的地方也能用“对”,但是“对”的意思更广泛,能用“对”的地方不一定都能用“对

现代汉语词性分类(虚词)讲课讲稿

现代汉语词性分类(虚词) 一、副词: 1、用在动词、形容词前,起限制、修饰作用的词。表示动作、行为的范围、时间、频率、语气等或性质状态的程度的词。 2、具体分类如下: (1)表程度:很、最、极、挺、顶、非常、十分、极其、格外、分外、更、更加、越、越来越、越发、有点儿、稍、稍微、略微、差不多、几乎、过于、太、比较、相当、多么 (2)表范围:全、都、总、共、总共、统统、只、只有、仅仅、单、光、一齐、一概、一律、尽、净、就、一共、一起、一同、一道、一切、一味、统统、唯独。 (3)表时间:已、已经、曾、曾经、刚、才、刚刚、正、正在、将、将要、就、就要、马上、立刻、顿时、赶紧、终于、老(是)、总(是)、早就、起初、原先、一向、从来、偶尔、随时、忽然、永远、始终。 (4)表频率:常、常常、时常、时时、往往、渐渐、一直、一向、向来、从来、总是、始终、永、永远、偶尔、又、再、还、也、屡次、经常、不断、反复、曾经、仍然 (5)表肯定、否定:必、必须、必定、必然、当然、准、的确、不、没有、没、未、别、莫、勿、未必、不必、何必、不便、不用(甭)、不妨(6)表语气:难道、岂、究竟、到底、偏偏、索性、简直、是、是否、可、也许、难怪、大约、大概、幸而、幸亏、反倒、反正、果然、居然、何尝、其实、明明、恰恰、未免、只好、却、倒、必定、或许 (7)表示情貌:百般、特地、互相、擅自、几乎、渐渐、逐渐、逐步、猛然、依然、仍然、当然、毅然、果然、差点儿。 3、时间副词和时间名词的区别: a.时间名词能做定语,如:“现在的事情”“目前的任务”“刚才的情况”。时间副词不能做定语。如:不能说“正在的事情”“立即的任务”“刚刚的情况”。 b.时间名词做主语,如:“今天星期天”“现在是早晨八点钟”“近来很冷”。而时间副词不能做主语,如:不能说“正在是早晨八点整”。

现代汉语虚词研究

现代汉语虚词研究 绪论 一、汉语虚词研究的简单回顾 中国古代的虚词研究,从汉代到清代有着2000多年悠久的历史。古代语文学家在这方面取得了举世瞩目的成就。早在汉代,古人就有了对“词、语助、助语”(虚词)的研究,刘勰的《文心雕龙》已经按功能和位置把虚词分为发端、送末、札句三类在语言使用中把词区分为虚词和实词两大类的,据现有文献的记载,在我国,最早见于宋人的著作,不过,当时都把“词”称作“字”。宋朝有个叫周辉的文人在他的《清波杂记》中有过这样的记载:“东坡教诸子作文,或辞多而意寡,或虚字多实字少,皆批谕之。”词人张炎在他的《词源》中也写道:“词之句有二字、三字、四字,至六字、七八字者,若堆砌实字,读且不通,况付之雪儿乎?合用虚字呼唤,单字如‘正、但、甚、任’之类,

两字如‘莫是、还又、那堪’之类。”可见,当时所谓的“实字”就是指那些表示具体的事物和概念的词,大致接近于现代所说的名词,而“虚字”则主要是指副词、连词、介词、助词、叹词、语气词,有时也可以指代词、数词,甚至部分谓词。当时,人们又把“虚字”叫作“词、助字、语助、助语辞”等。我国最早的虚词词典、元朝卢以纬的《语助》(又名《助语辞》),曾对文言中的“语助”做了简明而系统的解释第一次。清代的虚词研究代表了语文学时期虚词研究的高峰,刘淇的《助字辨略》、王引之的《经传释词》等即是清代虚词研究的代表作。这时期人们对虚字的认识又有了相当的发展,清人王鸣昌在他的《辩字诀》中,已能根据虚字的功用将其细分为六类:起语虚字、按语虚字、转语虚字、衬语虚字、束语虚字和歇语虚字。当然,当时的研究还不能算真正的语法研究,主要是为训释古籍和指导写作用的。 古代的虚词研究往往是出于实用目的,因为构文之道,不外虚实两字,而经传中实

汉语句子框架语义结构分析技术研究

汉语句子框架语义结构分析技术研究 【摘要】:语义分析是自然语言处理领域中最重要也是最为困难的问题。如何对句子进行有效的、深入的自动语义分析,一直是国内外学者关注的主要目标之一。汉语句子的框架语义结构分析技术是以框架语义学为理论基础,借助山西大学的汉语框架网语义资源,针对汉语句子语义结构,展开了汉语句子框架语义结构建模、目标词识别、框架排歧和框架语义角色标注等核心技术研究,同时,对基于汉语框架语义分析的旅游问答系统进行了应用研究。主要研究成果如下:(1)针对汉语句子语义结构,系统地进行了汉语句子框架语义结构分析,提出了汉语框架语义依存图模型,包括单框架语义依存图、完全框架语义依存图、核心框架语义依存图,为汉语句子语义结构表示提供了新的方法。(2)针对目标词识别问题,提出了基于相似度计算、最大熵模型的未登录目标词识别方法,充分考虑了词义信息、依存特征及上下文语境,有效地解决了未登录目标词的识别,为实现准确的框架排歧提供了保障。(3)针对框架排歧问题,提出了基于T-CRF的框架排歧方法,通过加入依存特征中长距离的依存关系提升了汉语框架排歧的性能,同时与基于SVM和最大熵模型排歧方法进行了对比实验,验证了基于T-CRF框架排歧的有效性。(4)针对框架语义角色标注问题,在总结对比现有主流算法的基础上,提出了基于T-CRF模型的框架语义角色标注方法,并通过加入依存特征提升了标注准确率。其次,基于框架语义角色标注进行了句子相似度计算,从框架语义的角度出发,提出了基于

多框架及其重要度的句子语义相似度计算方法,实验结果验证了框架语义角色对句子语义相似度计算的有效性。(5)针对汉语框架网语义资源与语义分析方法的应用研究,设计并实现了面向山西旅游领域的问答实验原型系统。系统以旅游景点五台山为例,针对每个景点的简介文本进行了全文框架语义角色标注。系统包括问题输入、问句分析及答案抽取,验证了基于框架语义分析进行问答系统应用的可行性。本文的研究成果进一步丰富了汉语句子框架语义结构分析理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。【关键词】:汉语框架网框架语义依存图语义结构未登录目标词框架排歧语义角色标注 【学位授予单位】:山西大学 【学位级别】:博士 【学位授予年份】:2012 【分类号】:TP391.1 【目录】:中文摘要9-11ABSTRACT11-13第一章绪论13-231.1研究背景及意义13-141.2研究现状及分析14-191.3本文的主要研究内容、创新点与组织结构19-23第二章汉语框架网平台23-332.1框架语义学23-242.2汉语框架网工程24-272.2.1相关概念24-262.2.2CFN语义资

现代汉语虚词的性质、范围与分类第1讲

第一讲、2011-03-01 汉语虚词的性质、范围、类别及其研究现状 第一节、汉语词类的虚实分界 一、早期的虚实概念。 在语言使用中把词区分为虚词和实词两大类的,据现有文献的记载,在我国,最早见于宋人的著作,不过,当时都把“词”称作“字”,(“词”这个概念是本世纪初从西方引入的)。宋朝有个叫周辉的文人在他的《清波杂记》中有这样的记载:东坡教诸子作文,或辞多而意寡,或虚字多实字少,皆批谕之。词人张炎在他的《词源》中也写道:词之句有二字、三字、四字,至六字、七八字者,若堆砌实字,读且不通,况付之雪儿(案:“雪儿”本为唐朝李密的爱姬,能歌善舞,后泛指歌女)乎?合用虚字呼唤,单字如“正、但、甚、任”之类,两字如“莫是、还又、那堪”之类。由此可以看出,当时所谓的“实字”主要就是指那些具体的事物和概念,大致接近于现代所说的名词,而“虚字”则不但包括副词、连词、介词、叹词、助词、语气词,而且有时也可以指代词、数词,甚至是一些动词、形容词以及一些固化短语。 当时,人们把“虚字”叫作“词、语助、助字、助语辞”等等。元朝卢以纬的《语助》,作为我国最的一本虚词词典,对其所收的一些“语助”均有简明而又独到的解释。[1]到了清代,人们对虚字的认识已有了相当的发展。清人王鸣昌在他的《辩字诀》中,已经能够根据虚字的功用将其细分为六类:起语虚字、按语虚字、转语虚字、衬语虚字、束

语虚字和歇语虚字。当然,古人的虚词研究还不能算真正的语法研究,主要是出于训释古籍和指导作文的需要。就研究虚字的专书而言,除了《语助》,清朝袁仁林的《虚字说》、刘淇的《助字辩略》、王引之的《经传释词》都是很有代表性的。这些词典既包括连词、介词、助词、语气词等严格意义上的虚词,也收了一些副词、代词、谓词等等,不过基本上还是以训释经传中的虚词为主的。总的说来,早期的虚实区分是一种语文学意义上的分类,并不是一种语法学的分类,而且虚词和实词的范围、类别也是比较模糊的,尽管到了后期已经逐渐地明晰起来。 真正接近于现代意义上的虚字概念虚词观,直到上个世纪末马建忠的《马氏文通》问世才出现,马建忠明确指出:“凡字,有事理可解者,曰实字;无解而惟以助实字之情态者,曰虚字。”按照马建忠的看法,虚字就是表语法作用而不表具体词意的词。这一观点,在其后的半个多世纪中一直被人们所遵循。 二、虚实划分的标准 自从马建忠撰写《马氏文通》,创立现代意义上的汉语语法学以来,有关汉语的词类问题,一直存在着种种不同的看法。综观这一百多年来有关汉语词类问题的矛盾、分歧和争论,其焦点主要集中在以下三个方面:一、汉语中的词到底是不是可以分类,究竟应当以什么标准作为划分汉语词类的主要依据,什么样的语法理论更值得我们参考、借鉴;二、究竟应该建立一个什么样的汉语词类体系,虚实两分的分类系统是否适应汉语的语言实际,哪些词类应该分别归入实词和虚词;三、在具体操作时,对于一系列多功能的词究竟应该怎么处理,尤其是有关兼类、同

词语之间的几种语义联系

词语之间的几种语义联系 自从“现代语言学之父”、世界最著名的语文学家索绪尔于本世纪初提出“语言是一个符号系统”的观点以来,词语之间的系统联系一直是语言学家关注的焦点之一。特别是近几十年来,词语之间的语义联系越来越受到语言学家重视,围绕词语之音的语义联系问题,语言学家提出了一系列重要的新理论、新方法和新概念,如语义场理论、义素分析法等等。传统语言学只注意到词语之间的同义关系和反义关系,而实际上词语之间还有许多别的重要的语义关系。有些语义关系已被语言学家发掘出来了,还有一些则有待于进一步发掘。这里谈谈除了同义反义关系之外的几种重要的语义聚合关系,并谈谈他们在词语解释中的作用。 一、上下义关系 上下义关系是词语之间语义上的包含与被包含的关系,凡是一个词语的全部语义(概念意义)包括在另一个词语的语义之中,这两个词语就构成上下义关系。上下义关系就是逻辑学上的属种关系,具有属种关系的一组词就是上下义词,其中表示属概念的词是上义词,表示种概念的词是下义词,如:“笔-钢笔”、“人-男人”、“听-偷听”、“销售-批发”、“红-粉红”、“白-雪白”等等。其中“笔”是“钢笔”的上义词,“钢笔”是“笔”的下义词。其余依此类推。 上下义词都有属种关系,没有属种关系的词不是上下义词,如构成整体与部分关系的词就不是上下义词,如“中国-北京”、“衣服-衣襟”、“森林-树”、“船-船队”都不是上下义词。表示等级关系的词也不是上下义词,如“博士-硕士”、“处长-科长”、“年-月”都不是上下义词。因为这些词语之间并没有逻辑上的属种关系。 上下义词具有包容性,上义词的所指范围包容下义词所指范围,可以进入“乙是甲”的格式,但不能反过来说“甲是乙”。如可以说“钢笔是笔”,但不能说“笔是钢笔”。从逻辑上讲,如果乙真,则甲必真;如果乙假,则甲或真或假。如,“这是钢笔”为真,那么“这是笔”必真;若“这是钢笔”为假,那么,“这是笔”可能是真的,也可能是假的。 上下义词具有相对性,甲词是乙词的上义词,乙词又可能是丙词的上义词。如“枪”是“武器”的下义词,又是“手枪”的上义词。 由于上下义词还具有传递性,若甲词是乙词的上义词,乙词是丙词的上义词,那么甲词也是丙词的上义词。反之亦然,如“人”是“男人”的上义词,“男人”是“老汉”的上义词,那么“人”也是“老汉”的上义词。 由于上下义词具有传递性,因此上下义词的上下义关系有远有近。具有最邻近的上下义词,就是直接上下义词,其他上下义词就是间接上下义词,如“人-男人”就是直接上下义词,“人-老汉”就是间接上下义词。 上下义关系是词语之间的重要语义关系,我们平常解释词语,给概念下定义,常常要利用词语之间的上下义关系,构成“属加种差定义”。如“钢笔是笔头用金属制成的笔。”“石雕是在石头上雕刻形象、花纹的艺术。”这种“属加种差定义”是最常见的定义方式。 二、总分关系 总分关系是词语之间语义上的整体与部分的关系。如果一个词语所指的事物属于另一个词语所指事物的一个构成部分,这两个词语之间就构成总分关系。具有整体部分关系的一组词是总分词,其中表示整体的词是总义词,表示部分的词是分义词,如“中国-上海”、“大学-系”、“房子-客厅”、“教学楼-教室”、“ 身体-头”、“鞋子-鞋底”、“四季-春天”、“森林-树”、“船队-船”等等。其中“中国”是“上海”的总义词,“上海”是“中国”的分义词。其余依此类推。总分词中分义词所指对象是总义词所指对象的构成部分,可以进入“乙是甲的一部分”的格式。如“上海是中国的一部分”。 总分词与上下义词有类似之处,都可进入“甲包括乙”的格式。但上下义词之间是属与种的关系,可以进入“乙是甲”的格式,总分词之间是整体与部分的关系,不能进入“乙是

现代汉语虚词

高考题选(现代汉语虚词) 1、文中甲乙丙丁处恰当的词语是(1990年全国高考题) ①(甲)睡眠还较浅,大脑里的抑制过程还不全面彻底,剩下了某些兴奋点继续活动,梦境就要产生。 ②梦是在睡眠时产生的,熟睡(乙)不会做梦,所以梦是睡眠还较浅时的产物。 ③又由于大脑皮层大部分处于抑制状态,而这些孤立的兴奋点缺乏有逻辑的联系,这(丙)构成了梦境的荒诞性。 ④引起这些兴奋点活动的因素,大多与从前感知过的刺激的痕迹作用有关,(丁)梦境是与日常生活有关联的,不是神秘的。 A.如果、却、就、因而 B.由于、才、却、所以 C.如果、就、又、那么 D.因为、可、才、可见 答案:A。 2、依次填入下面一段文字栝号处的最恰当的关联词语是(1991年全国高考题) 社会主义制度的巩固,社会主义事业的发展,只能是两个文明同时建设、相互促进的结果。( )两手都硬起来,( )能两个文明一起上;单有一手硬,( )可能有一时的效果,( )最终两个文明建设都上不去。 A.只有、才、虽然、但 B.只要、就、即使、反而 C.因为、所以、尽管、可 D.既然、就、也、而 答案:A 3.按顺序分别填入下文标号处的正确词语是(1992年全国高考题) 一个人(甲)不懂得正确的意见只能是对于实际事物的客观的全面的反映,(乙)坚持要按自己的主观的片面的想法去办事,那么,(丙)他有善良的动机,(丁)还是会犯或大或小的错误。 答案:D 4.依次填入下文①—⑤五个标号处的词语最恰当的一组是(1993年全国高考题) 一些同志①懂得建设社会主义精神文明的重要,②知道它在建设有中国特色的社会主义当中的地位,③在一定时期内能够做到两个文明一起抓。④当精神文明建设形势比较好,经济建设任务又很重的时候,他们往往⑤自觉不自觉地将精神文明建设当成“软”任务来

什么是语义关系及动词和名词的语义关系类型-小学语文基础知识归纳.doc

什么是语义关系及动词和名词的语义关系类型|小学语文基础知识总结|小学语文基础 知识大全- 语义关系(一)什么是语义关系 语义关系是指隐藏在句法结构后面由词语的语义范畴建立起来的关系。语义关系跟句法关系可能一致,也可能不一致。如: ①我不吃了 ②香蕉不吃了 ③鸡不吃了 这三例句法关系都一样,都是主谓关系。但其背后隐藏的语义关系是不同的,例1,我是动作的发出者,称为施事。例2,香蕉是动作的承受者,称为受事。例3,鸡可能是动作的发出者,如鸡吃米;也可能是动作的承受者,如我吃鸡。因此,例3是歧义的。可见,建立起语义关系的类型,就可以合理解释句法结构内部种种复杂的情况。 (二)动词和名词语义关系类型 动词跟名词之间的语义关系叫格关系,是各种语义关系的重点。名词可跟动词直接组合,也可靠介词引人,因此介词也叫格标记。名词性词语经常担任的语义角色有: 1.施事 指动作行为的发出者,可用介词被、叫、让、给引进。如:他哭了。/进来一个大汉。/被狼咬死了。 2.系事 指连系动词联接的对象。如:

祥子的衣服早已湿透了。/这个任务很重要。 3.受事 指动作行为的承受者,可用介词把、将引进。如:地扫干净。/我们战胜了敌人。/他把树砍了。 4.与事 指动作行为的间接承受者,可用介词给引进。如:他们教我英语。/他捐给家乡一笔钱。 5.对象 指动作的对象,也可用介词对、向引进。如: 我们学习雷锋。/他对孩子进行教育。/大家向老师敬酒6.致使 指动作行为使动的对象,可用介词使引进。如: 我热了一碗饭。/我们要振作精神。 7.结果 指动作行为产生的结果。如: 我写了一篇文章。/妈妈蒸了许多馒头。 8.工具 指动作行为的凭借物,可用介词用、拿引进。如:他在刻铜板。/胳膊上裹着纱布。 9.材料 指动作行为使用的材料,可用介词用引进。如: 脸上搽了一层粉。/他在给庄稼施肥。 10.方式 指动作行为进行的方法、形式。如: 钱存定期。/我们寄挂号。 11.处所

框架语义学下“V来”的历时演变及用法特征

框架语义学下“V来”的历时演变及用法特征 本文以认知语言学中的框架语义理论为基石,以“看来”“说来”“想来”等为例,考察“来”与前附成分结合而成的“V来”类结构的历时演变及用法特征。现代汉语中的“看来”“说来”“想来”已经完全演变为带有主观化的连词。“V来”结构的历时演变也在重新分析、高频使用等多重作用下逐渐趋于成熟。 标签:框架语义学“V来” 看来用说来征 一、引言 框架的概念由美国语言学家Fillmore提出,框架语义理论(Frame Semantics)是认知语言学研究语言概念结构的基础理论,在框架语义理论中有两个重要的概念:显像和框架。显像指代词项所表征的意义(即我们通常所说的指代意义),框架指理解词项的显像所具备的相关知识和概念结构。Fillmore定义“框架”这一概念时提到:“当使用‘框架’这一术语时,我心中想到的互相联系的概念体系,对这个体系中任何一个概念的理解都必须依赖于对其整个概念结构的理解。”本文中所探讨的“V来”类词,在其历时发展中因具有互相联系的概念体系,因而在语义分析与语法结构上具有相似性。 本文以感官概念域为依据,将不同的感官概念域视为不同的“框架”,在不同的框架下,语言的显像也是不同的。 “来”在现代汉语中是使用频率非常高的多义动词,根据《现代汉语词典》和《现代汉语八百词》,“来”的本义为“由彼至此,由远及近,与‘去’‘往’相对”,常置于句中作谓语,其前多由名词性成分充当句子主语,也可与之组合成谓词性结构修饰其后的名词性结构,构成偏正结构。其后可接“着、了、过”等体貌助词。此外,“来”还可以用来表示“要做某件事;可能或不可能;未来、将来;某一时间以后”等多个意思,也可作助词,“表比况,相当于‘一般’;用于数词之后,表约数”等。例如: (1)大家都来唱歌。(表示要做某件事) (2)我又没力气,干不来累活。(表示不可能) (3)来日方长;继往开来。(未来、将来) (4)从他离开家以来,已经有三年了。(某一时间以后) (5)那时此宝有二丈多来长,斗来粗细。(助词,表比况,相当于“一般”)(6)马有三百来匹。(助词,表约数)

最新常用现代汉语虚词辨析

常用现代汉语虚词辨析60例 1、本来原来 “本来”强调理应如此,常与“就”连用。 “原来”表示发现过去不知道或对情况有所认识。 2、逐渐逐步 “逐渐”一般表示自然而然的变化,可以修饰形容词。 “逐步”用于有意识有步骤的变化,可以修饰形容词。 3、偶尔偶然 “偶尔”(也写作:“偶而”)着眼于数量,次数少有时跟“经常”相对。 “偶然”着眼于意外,从一般事理或一般规律上看,事情的发生是意外的,是在规律之外,跟“必须”相对。4、一齐一起 “一齐“表示同时,侧重点是时间。 “一起”主要有两个用法:其一,侧重的是动作行为的方式,而不是时间。其二,表示同一个处所。 5、以至以致 “以至”一般表示时间、程度、范围上的递升或递降,有“直到”的意思。 “以致”表示事物发展的结果,一般指不好的结果。 6、往往常常 “往往”是对到目前为止出现的情况的总结,有一定的规律性,不能用于主观愿望。“常常”单纯指动作的重复,不一定有规律性,可以用于主观愿望。因此“常常”可以用于将来的事情,“往往”则不能。用“往往”的句子要指明与动作有关的情况、条件、结果;“常常”没有这种限制。 7、才再 “才”表示动作已经实现,并强调实现的很晚。“再”表示动作尚未实现,但将于某时实现。 8、又再 在表示动作重复或继续时,“又”用于已经实现的。“再”用于未来实现的。 9、一概一律 这两个词在用于通知、规定时,概括事物,可以通用;概括人常用“一律”。 10、已经一经 “已经”表示事情完成或时间过去。“一经”表示只要这样说了或这样做了,接着就会产生相应的结果。“已经”和“一经”都是副词。不过用“一经”的句子,“一经”换成“一旦”还解释得通;用“已经”的句子,“已经”绝对不能换成“一旦”。 11、竟然居然 都是副词,都有出乎意料,超出常理或常情。用于不好的方面,表示“不应该这样而这样”。用于好的方面,表示“不容易这样而这样”。“竟然”用于主语后面,动词谓语前面。“竟然”也可以单说成“竟”。“竟然”常用于口头语体,“竟”则不限。“居然”有时语气略重。“竟然”一般不这样用。 12、已经曾经 都是副词,都有有了某种行为或情况的意思。 “已经”表示动作、变化完成或达到某种程度,强调动作行为开始或完成,时间一般在不久以前,后面的动词多带动态助词“了”,少用“过”。“曾经”表示以前有过某种行为或情况,强调某种行为或情况从前有过,现在已经结束了,“曾经”后面的动词多带动态助词“过”,也可以用“了”。 13、暂且姑且 “暂且”指暂时地,重在强调时间短暂。“姑且”指暂时地,重在强调让步。 14、几乎简直 “几乎”表示接近,程度上比“简直”差些。“简直”的意思是“接近完全”,“近乎等于”。 15、马上立刻 “马上”所表示的紧迫性有时幅度大;而“立刻”没有这种情况,它表示的都是即刻要发生的。 16、从来历来向来

现代汉语的词性分类

现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。 实词 一.名词 表示人和事物的名称叫名词。如“黄瓜、猪、马、羊、白菜、拖拉机、计算机”。 1、表示专用名称的叫做“专用名词”,如“云南、上海、李白、白居易,中国”。 2、表示抽象事物的名称的叫做“抽象名词”,如“范畴、思想、质量、品德、品质、友谊、方法”。 3、表示方位的叫做“方位名词”,如“上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间”等。二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如“想、重视、注重、尊敬、了解、相信、佩服、惦念”等,这样的动词前面往往可以加上“很、十分”。 3、有的动词表示能够、愿意这些意思,叫做“能愿动词”,它们是

“能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须”,这些能愿动词常常用在一般的动词前面,如“得去、能够做、可以考虑、愿意学习、应该说明、可能发展”。 4、还有一些动词表示趋向,叫做“趋向动词”,如“来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起来”,它们往往用在一般动词后面表示趋向,如“跳起来、走下去、抬上来、跑过去”。 5、“是”“有”也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色”。状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如“一、二、两、三、七、十、百、千、万、亿、半”。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。单位量词表示事物的单位,如“个、张、、只、支、本、台、架、辆、颗、

框架语义学的理论基础

框架语义学的理论基础 xxxx 哈尔滨工程大学外语系 摘要: 框架语义学作为认知语言学发展的一个分支,为我们理解语言中词语的意义提供了一个全新的视角。 本文着重阐述了以经验主义哲学和皮亚杰(J. Piaget)的建构论为哲学基础的框架语义学,其在理论方面,基本继承了菲尔谟(Charles J. Fillmore)格语法的基本思想,是格语法的系统化、具体化。 关键词: 格语法;框架语义学;框架 Abstract: Frame Semantics as a major branch of Cognitive Linguistics,which provides us a new viewpoint to understand the meaning of word, and this paper mainly express basic philosophy of Frame Semantics which based on Empirical philosophy and J. Piaget?s Constructivism, on the aspect of the theory, it inherits the basic idea of Case Grammar. Key words: Case Grammar; Frame Semantics; Frame 1.引言 在20世纪70年代末,Charles J. Fillmore在格语法(Case Grammar)理论的基础上提出并发展了框架语义学(Frame Semantics),它是一种通向理解及描写词语和语法结构的意义的途径。为了理解语言中词语的意义,我们必需先具备概念结构,即语义框架的知识,为我们提供词语的意义以及在话语中使用的

基于知识图谱的图像语义分析技术及应用研究

Computer Science and Application 计算机科学与应用, 2018, 8(9), 1364-1371 Published Online September 2018 in Hans. https://www.wendangku.net/doc/bc1335524.html,/journal/csa https://https://www.wendangku.net/doc/bc1335524.html,/10.12677/csa.2018.89148 The Research of Image Semantic Analysis Technology and Application Based on Knowledge Graph Liqiong Deng, Guixin Zhang, Xiangning Hao Department of Command Information System and Network, Air Force Communication NCO Academy, Dalian Liaoning Received: Aug. 24th, 2018; accepted: Sep. 6th, 2018; published: Sep. 13th, 2018 Abstract The semantic analysis technology of image has always been a difficult point in image field. As an intelligent and efficient way of organizing, knowledge graph can help users accurately query the information. This paper firstly puts forward an image semantic analysis process based on know-ledge graph, then adopts deep learning model to describe image’s features. Image semantic know-ledge fusion and processing is studied on this basis; a multilevel image semantic model con-structed has ability to manage entity triples and support automatic construction. Finally, applica-tions in semantic retrieval, association and visualization are analyzed, which has some guiding significance for information organization and knowledge management of media semantic. Keywords Knowledge Graph, Deep Learning, Image, Semantic Analysis, Semantic Retrieval 基于知识图谱的图像语义分析技术及应用研究 邓莉琼,张贵新,郝向宁 空军通信士官学校指挥信息系统与网络系,辽宁大连 收稿日期:2018年8月24日;录用日期:2018年9月6日;发布日期:2018年9月13日 摘要 图像的语义分析技术一直是图像领域的研究难点之一,知识图谱作为一种智能的知识组织方式,可以帮

现代汉语词性

现代汉语词性 一.名词 表示人和事物的名称叫名词。如:"黄瓜、猪、马、羊、白菜、拖拉机、计算机"。 1、表示专用名称的叫做"专用名词",如"云南、上海、李白、白居易,中国"。 2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、品质、友谊、方法"。 3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 5、"是""有"也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如"一、二、两、三、七、十、百、千、万、亿、半"。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如"个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇、等; 度量量词表示事物的度量,如"寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米"。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如"次、下、回、趟、场"。 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种形状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。我你您他她它我们你们他们她们它们咱们自己别人大家大伙(自己能和其他代词连用,起强调作用。例如:我自己你们自己大家自己) 2、疑问代词:用来提出问题谁什么哪(问人或事物)哪儿那里(问处所)几多(问数量)多多么(问程度)怎么怎样怎么样(问性质状态)什么怎样什么样(问方式行动) 3、指示代词:用来区别人或事物这那(指人或事物)这儿这里那儿那里(指处所) 这会儿那会儿(指时间)这么这样这么样那么那样那么样(指性质、状态、方式、行动、程度)这些那些这么些那么些(指数量)每各(指所有的或全体中任何一个)某另别(确有所指,未说明哪一个) 代词一般不受别的词类的修饰。代词同它所代替的或指示的实词或短语的用法相当,它所代替的词能充当什么句子成分,它也能充当什么句子成分。 七.副词 副词的意义和种类

框架语义学对英汉幽默的解读

框架语义学对英汉幽默的解读 幽默是一种特殊的语言现象,是一种智慧的体现。对幽默的鉴赏主要取决于对语言的反应能力。框架语义学作为认知语言学的一个重要组成部分,对幽默有着恰当的解释力。本文以英汉幽默为例,把能够获取幽默效果的手段分为“双关、突降、急智”三种,根据框架语义学的框架转换、原型理论和视角等解读这三种手段所达成的幽默效果。 标签:框架语义学框架转换原型视角幽默解读 一、引言 幽默是什么?根据维基百科,幽默是“使人感到好笑、高兴、滑稽的行为或语言,相当于风趣”。然而,幽默比笑更有深度,其产生的效果远胜于咧嘴一笑。幽默的载体多种多样,卡通画、喜剧、笑话、小品、相声等等均是产生幽默的载体。对幽默的研究涉及心理学、哲学、美学、语言学等诸领域。仅从语言学内部来看,各个研究者的切入视角就各不相同。国内学者如吴术燕(2011)从关联理论的角度分析相声幽默语言,袁琴芬(2011)从多模态——听觉印象研究了幽默的交际效果。国外学者如Zajdman(1995)研究了幽默言语的策略,Boxer,D.和 F.Cortes—Conde(1997)研究了幽默言语行为的参与者角色等。虽然这些研究帮助我们从各个方面更好地理解了幽默,却没有全面剖析幽默言语效果得以实现的心理过程,即受众理解幽默时的心理过程。王文斌(2004)指出,“受众在幽默言语的幽默实现过程中起着至关重要的作用”,“幽默言语的成功与否有赖于受众的成功解读”。鉴于此,本文拟以英汉语言幽默为例,区分了达成幽默效果的“双关、突降、急智”等三种手段,根据框架语义学的框架转换、原型理论和视角等理论解读这三种手段所达成的幽默效果。 二、框架语义学 框架语义学是认知语言学的一个重要组成部分,Fillmore(1982:373)把其中的“框架”界定为“由概念组成的系统,系统中的概念相互连通,理解其中任何一个就必须以理解整个系统结构为前提”。框架还是“具体统一的知识构架,或经验的整体图式化”(Fillmore,1985:223)或“认知结构”(Fillmore and Atkins,1992:75)。 框架与语言理解是密不可分的。了解一种语言就意味着要“了解和识别大量的框架,以及了解哪些语言选择与它们相关联”(Fillmore,1976:25)。换言之,把握某种语言中的任何一个概念,必须首先了解它所处的框架。人类处于一种不断认识的过程,已有的知识结构有助于新知识的获取,随之又会丰富现有的知识结构,同时相应地增强认知能力。 框架语义学中的原型(prototype)是定义和理解词语的意义所依靠的框架或背景,是我们周围文化中相当大的一部分(Fillmore,1982:379)。比如“orphan”指失去父母的孩子,在典型的背景世界中,孩子依靠父母的关心与指导。“orphan”本身是没有年龄规定的,但事实上到一定年龄后失去父母的人并不会被认定为“孤儿”。二十岁之后的人通常能自己照顾自己,过了从家里获得指导的年龄,因此这类人不太适合用于“orphan”这一概念。这说明理解一个词的意义取决于其原型概念。 虽然理解涉及到原型,但不同的人在不同时期所强调的重点并不一致,其所视的范围亦不同,这就是框架语义学中的视角(perspective)所起的作用。视角

现代汉语虚词练习(解答)

现代汉语虚词练习(解答) 1.依次填入下列横线处的词语,最恰当的一组是() ①谭盾自感艺无止境,于是他转而向民间学习,从而了音乐创作的境界。 ②在高三紧张的复习阶段,我们也不能熬夜,因为充足的睡眠是健康的。 ③一个人如果一味得过且过,不思进取,甚至好逸恶劳,那么一事无成。 ④讲好普通话是每个老师必须具备的技能,是语文老师,就更不必说了。 A.开创保证往往何况 B.开创保障往往况且 C.开拓保障必然况且 D.开拓保证必然何况 答案:D(开拓:指在原有的基础上拓展,提升。开创:指从无到有的创新。保证:侧重于小的方面。保障:侧重于大的方面。必然:指假设的前提和结论之间没有例外的可能。往往:指大多数情况是这样。何况:指意思更进一层,带有前后对比、衬托之意。况且:表进一步追回说明理由) 2.依次填入下列横线处的词语,恰当的一组是() 网吧在取得安全合格证之前,必须在电脑上安装安全管理软件,封堵有害信息网站等。电脑进入非允许范围内的网站,安全管理软件会同时发出警报。但事实上,许多网吧在定期对电脑进行清理时,经常要重做系统,安全管理软件往往嫌麻烦不被重装。 A.从而如果由于甚至 B.以便由于假若而 C.以便如果由于而 D.从而由于假若甚至 答案:C(从而:顺承关系。以便:目的关系。如果:表假设。由于:表因果。假若:表假设关系。而:可以表因果。甚至:只能表递进) 3.依次填在横线上恰当的一组词语,最恰当的一组是() ①建设文明寝室,首先要文明寝室的量化指标,再按指标对学生寝室进行考评。 ②在中国人民抗击日本侵略者的斗争中,无数英雄儿女献出了生命。但中国人民、不屈不挠,取得了抗日战争的伟大胜利。 ③培养公民的法制观念是一个长期过程,从学生时代就进行法制教育,能起到潜移默化的作用。 A.确定前仆后继只有/才 B.决定前仆后继只要/就 C.确定前赴后继只有/才 D.决定前赴后继只要/就 答案A(“指标”只能跟“确定”搭配,故排除BD。前仆后继:前面的倒下,后面的继续;前赴后继:前面的出发,后面的继续跟上。根据文意排除C。只有/才:必要条件,也是唯一条件。只要/就:充分条件,不是唯一条件) 4.依次填入下列各句横线处的词语,最恰当的一组是() ①文学创作是艰苦的事,只有刻苦自励,推陈出新,时时求思想感情和语言的精炼与,你才会逐渐达到艺术的完美。 ②蝙蝠必须几乎连续不停地发出声音,以便借助声纳来周围所有的物体。 ③四月的北京和南方不同,早晚天气比较凉,在中午暖和的阳光下,穿毛衣也不会觉得热。 A.符合察知即使 B.吻合查知虽然 C.吻合察知即使 D.符合查知虽然

现代汉语词性分类.

现代汉语词性分类 一、实词:名词、动词、形容词、数量词、代词. (-)名词 名词是表示人或事物的词。例如: 指人的:鲁迅、农民、工人、作家、老师、学生 指物的:日、风、山、马、稻子、飞机、原子、计算机、车辆、纸张、道德、法律、文化 表时间的:春天、明年、早晨、星期天、现在、刚才 表处所的:马来西亚、北京、凯旋门、大庆、亚洲 表方位的:上、下、前、左、右、东、南、内、外(单纯的) 以上、以前、以东、上边、上面、东边、西边、里头、外头、中间(合成的)(二)动词 动词是表示动作、行为、心理活动或存在变化等的词。例如: 表示动作行为:走、坐、听、看、批评、宣传、保卫、学习、研究、进行、开始、停止、禁止 表示存在变化消失:存在、在、有、等于、发生、演变、发展、生长、死亡、消灭 表示心理活动:爱、恨、伯、想念、打算、喜欢、希望、害伯、担心、讨厌 表示判断:是 表示可能意愿必要(助动词):能、能够、会、可以、愿、愿意、肯、敢、要、应当、应该、配、值得 表示趋向(趋向动词):上、下、进、出、回、开、过、起、来、上来、下来、进来、出来、回来、 开来、过来、起来、去、上去、下去、进去、出主、回去,开去、过去 动词的语法特点: 1.一部分动词可以重叠,表示“动作短暂”或“尝试”的意思,是时态的表示法。单音节动词重叠形式是:AA 看——看看想——想想 试——试试讲——讲讲 双音节动词重叠形式是:ABAB 学习——学习学习批评——批评批评 讨论——讨论讨论休息——休息休息 动词比较复杂,有的需要加以说明。 1.动词“是” I. “是”用在名词前边是动词,这种“是”常常表示主语“等于什么”或“属于什么”。例如“鲁迅就是周树人”、“牛是反刍动物”、“他是个开车的”、“是他救了我”;此外,“这一年,人家都是丰年,我是歉年,收完秋就没吃的了”等里面的“是”仍是动词,作谓语。 II. “是”用在动词、形容词前边,表示肯定,含有“的确”、“实在”的意思,可以看作语气副词,作状语,例如“我〔是〕懂了”、“他〔是〕勇敢”、“这样做〔是〕好”。 2.动词“有”

相关文档