当前位置：文档库 › 词义标注语料库建设综述 - 第22卷3 期第

词义标注语料库建设综述 - 第22卷3 期第

第22卷　第3期2008年5月

中文信息学报

J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G

Vol.22,No.3May ,2008

文章编号:100320077(2008)0320016208

词义标注语料库建设综述

金澎,吴云芳,俞士汶

(北京大学计算语言学研究所,北京100871)

摘　要:词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping 策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。

关键词:计算机应用;中文信息处理;词义消歧;词义标注语料库;平行语料库;bootstrapping 中图分类号:TP391 文献标识码:A

Survey of Word Sense Annotated Corpus Construction

J IN Peng ,WU Yun 2fang ,YU Shi 2wen

(Institute of Computational Linguistics ,Peking University ,Beijing 100871,China )

Abstract :The bottleneck of word sense disambiguation (WSD )is lack of large scale ,high 2quality word sense anno 2tated corpus.In this paper ,several word sense annotated corpus are introduced in the aspects of corpus coverage ,dictionary ,tokens ,word types and the inter annotator agreement ,involving English ,Chinese and Japanese.As for the auto and semi 2auto construction methods ,this papers focuses on bootstrapping methods and word 2aligned paral 2lel corpus based approaches.And finally ,some issues in the word sense annotated corpus construction are pointed and possible solutions are given.

K ey w ords :computer application ;Chinese information processing ;word sense disambiguation ;word sense annota 2ted corpus ;parallel corpus ;bootstrapping

收稿日期:2007207210　定稿日期:2008204209

基金项目:国家973计划资助项目(2004CB318102);国家自然科学基金资助项目(60703063);国家863计划资助项目

(2007AA01Z198)

作者简介:金澎(1977—),男,博士生,主要研究方向为计算语言学、词义消歧;吴云芳(1973—),女,博士,主要研究方向为计算语言学、语料库语言学;俞士汶(1938—

),男,教授,博导,主要研究方向为计算语言学。 ①　也称作ITA (Inter

Tagger Agreement )。

1　概述

词义消歧(Word Sense Disambiguation ,WSD )长期以来一直是自然语言处理的热点难题,在机器翻译[1]、信息检索[2,3]等领域均有重要的应用价值。而词义标注语料库的建设对WSD 研究有着重要的意义:Ng 指出,WSD 的中心任务是建设一个大规模的词义标注语料库来训练有指导的机器学习模型[4]。Veronis 认为,没有大规模的词义标注语料

库,WSD 研究不会有本质的进步[5]。

词义标注语料库是指,根据某个词典对多义词各个义项的定义,在真实语料上标注多义词的正确义项。理想中的词义标注语料库应该具有规模大、覆盖广和准确度高等特点。语料的规模是指已经标注所有多义词的出现总次数(token ),所选语料库本身的规模也有一定的参考价值。语料的覆盖是指标注的单词词形(word type )的个数,也即词典中列举的多义词被标注的比例或个数。标注的质量通常用标注一致程度(Inter Annotator Agreement ,IAA )①来衡

3期金澎等:词义标注语料库建设综述

量。IAA 的简单计算如下:

IA A ≡A/N

(1)

其中N 是该词已标注的总次数;A 是各个标注者(通常是两个)相互认同的次数。这样计算的缺点是没有考虑到不同标注者偶然一致的情况。根据Kappa 统计量来计算的k 值定义如下[6]:

k =p a -p e 1-p e

(2)

p e =

∑

j =1

C j /2N

(3)p a =IA A

(4)

其中M 是目标词w 的义项个数;C j 是两个标注者标注为义项j 的次数之和。通常认为k 值超过80%就是高质量的标注

[7]

。

另外,词典的选择也是衡量词义标注语料库质量的一个重要指标。本文将从词义标注语料库建设的时间、机构、词典、语料库来源、标注方法、标注规模和质量等方面介绍目前已建成和正在建设的词义标注语料库。

2　人工构建的词义标注语料库

采用人工方法进行大规模词义标注语料库建设是目前通行的方法。本部分重点介绍英文和中文的词义标注语料库,对其他语种仅做简单介绍。2.1　英语词义标注语料库2.1.1　Semcor 语料库

该语料库由普林斯顿大学于1993年由Miller 负责完成[8]。所用语义标注体系是WordNet1.6。而WordNet 也正是由其负责完成的。在WordNet 中,用同义词集合(Synset )来表示概念。一个多义词,将在多个不同的Synset 中出现。根据WordNet 对义项的区分在完成词性标注后的Brown 语料库上进行标注。共标注词次(token )超过200000个。分布于Brown 语料库中的352个文件,其中186个文件(共359732词次)的所有实词(名词、动词、形容词和副词)全部被标注(192639词次)。另外的166个文件(316814词次),只标注了其中的动词(41497词次)。该语料库可以免费下载,并提供了

相应的查询工具,但是并未见到关于IAA 的报告。

该语料库是目前最大的英语词义标注语料库。尽管如此,Miller 认为该语料库规模太小,仍不足以据此设计一个健壮的、高准确率的词义消歧系统。

在Semcor 上开展的研究很多,几乎所有的针对所有词(all 2words )的英文WSD 研究都会基于该语料进行[9～13]。2.1.2　DSO 语料库

词义标注(Defence Science Organisation ,DSO )语料库由新加坡国立大学于1996年由Ng 负责完成[14]。所用词典是WordNet 1.5,语料来自100万词Brown 语料库和250万词华尔街时报(WSJ )。由该大学12个语言学专业的本科生,用一年时间标注完成。覆盖英语中最常见且歧义性最大的191个词(其中名词121个,平均7.8个义项;动词70个,平均12个义项)。这191个词各覆盖所有多义名词和动词出现的20%。

共计标注192800词次(分别是Brown 语料库的50个文件共7119词次;WSJ 的6个文件共14139词次)。其中名词113000词次,动词79800词次。每个多义词最多达1500个例句。其负责人估计标注的错误率大约在10～20%。随机抽取和Semcor 中相同的5317词次,两者的标注相同率为57%。随机选择30315句,用Kappa 统计量得到的

k 值是57%[6]

。该语料库已经加入LDC (编号:LDC97T12)。

基于该语料库的研究表明[15],这191个多义词,都不符合“一文一义”的假设[16]。另外,在包含多义词出现超过2次的文件中,有39%的文件不符合这个规律。本文认为,这和高频、歧义性大的选词策略密切相关。

2.1.3　SENSEVAL 21语料库

1998年在英国的Sussex 大学举办了首次词义消歧国际评测(SENSEVAL 21)。该评测由ACL 的SIG L EX 负责。其英语语料是从牛津大学于1993

年建成的H EC TOR 语料库中抽取部分语料组成的。抽取后用H ECTOR 词典重新标注,标注者均为词典编纂专家。选择35个多义词,涉及名词、动词、形容词和5个词性不确定的词。标注的总词次为8448个。

作为国际上首次开展的词义消歧评测(2007年更名为SemEval 22007),该语料的意义在于提供了公开评测数据,并且可以免费下载。标注者把H EC TOR 中的义项标注映射到WordNet 且标注质量较高(k 值超过80%),在此后的研究中多次使用[6,17,18]。自此以后的历届评测中,绝大部分的评测语料都可以免费下载,极大地推动了词义消歧相关研究。

中文信息学报2008年

2.1.4　SENSEVAL22语料库

K ilgarriff组织了于2001年进行的第二次评测中的英语采样词任务[19]。词典是WordNet1.7,语料选自BNC22和Penn TreeBank。标注的方法是先由两个标注者进行平行标注,他们标注不一致的交给第三方审查,如果第三方同意其中某个初始标注者的标注则赋予该义项;否则再交给另一个人审查,直到有两个以上标注者意见统一为止(这种标注方法为绝大多数手工标注者采用)。共选取71个多义词(27个动词,15个形容词,29个名词),平均每个词7.8个义项。标注7957词次,IAA为85.5%。其中形容词的IAA是83.4%,名词的IAA是86.3%。该任务共27支队伍参加,提交系统27个。需要注意的是,动词部分的语料是和“所有词”任务在一起的。基于其上的研究有文献[17,20]等。

Palmer负责组织英语所有词任务[21]。所用词典是WordNet1.7。语料来自Penn TreeBank,共标注2387个词次,其中动词554个、名词1067个、形容词465个、副词301个。比赛中不提供训练语料。共21支队伍参加,提交系统21个。与Semcor一样,几乎所有的进行所有词消歧研究的实验,都会用到该数据集[10～13]。

2.1.5　SENSEVAL23语料库

Mihalcea组织了2004年进行的第三次评测英语采样词任务[22]。词典选择:名词和形容词义项来自WordNet1.7.1,动词义项根据WordSmyt h确定。之所以这样做,是因为WordNet中动词的义项区分过细。选用的语料是BNC。为增大语料库规模,组织者在网上募集自愿者来进行词义标注。

所选多义词分别是20个名词,5个形容词和32个动词,共计57个,每词平均6.47个义项。共标注11804词次,其中7860个作为训练样例,3944个作为测试样例。语料的IAA是67.3%,根据Kappa 统计量得到的k值分别是0.58(micro2K)和0.35 (macro2K)。共27支队伍参加,提交系统47个。因标注质量并不高,后续相关研究并不多[23]。

本次评测中的所有词语料,由宾州大学提供[24]。所用词典是WordNet1.7.1。语料选自两篇华尔街时报和一个Brown语料库的文件,题材分别为社论、新闻报道和科幻文章,共计约5000个单词。共标注2212个词次。语料的IAA是72.5% (其中动词为67.8%,名词为74.9%,形容词为78.5%)。16支队伍参加,提交系统26个。相关研究见文献[13,23]。

2.2　汉语词义标注语料库

2.2.1　北京大学词义标注语料库

Wu详细描述了北京大学计算语言学研究所建设的词义标注语料库[25]。所选语料是2000年1～3月和1998年1月1～10日的《人民日报》(共计642万字)。在词义标注前已经完成切词和词性标注。所用词典是北大计算语言学研究所研制的现代汉语语义词典(Chinese Semantic Dictionary,CSD)。该词典基于《现代汉语语法信息词典》[26]开发,从词的组合关系出发,进行词义区分和描述。词典采用“属性—值”的描述方法,如表1所示。

表1　现代汉语语义词典关于词条“想”的描述

词语词类拼音义项同形释义语义类子类框架配价数主体客体ECA T WORD例句

想v xiang31思考心理活动NP2人类抽象

事物

V think～办法

想v xiang32推测,认为心理活动VP1人类V suppose我～他今天不会来想v xiang33希望;打算心理活动VP1人类V want我～去杭州一趟想v xiang34想念心理活动NP2人类人V miss我～妈妈了

义项标注由中文系的1名博士和1名博士生,1名计算语言学方向的博士生和1名有多年语料库标注经验的工作人员负责,已完成情况如表2所示。IAA为84.8%。目前标注工作仍在进行之中。

其中1998年1月1～10日的《人民日报》词义标注语料可以免费下载(http://www.icl.p ku. https://www.wendangku.net/doc/7316442023.html,)。

该语料库将在北京大学正在研制的“综合性语言知识库”中扮演重要角色:把现有语言数据资源无缝整合,填补其各构成成分之间的“缝隙(gap)”。粗粒度的词义标注语料库以“词语”+“词类”+“同形”为轴连接了标注语料库和语义词典;细粒度的词义标注语料库以“词语”+“词类”+“同形”+“义项”为轴连接了标注语料库和语义词典。这就是以词义

3期金澎等:词义标注语料库建设综述

为主轴把标注语料库与词典知识库连接起来的基本构思。进一步还可以把中文概念词典(Chinese Concept Dictio nary ,CCD )集成进来[27]。

表2　北大词义标注语料库情况说明表

CSD

词义标注语料库词性多义词(个)

平均义项(个)

标注词次(个)

名词794 2.1420664动词168 3.4145538合计

962

2.36

66202

2.2.2　台北“中研院”语料库

该语料库由台北“中研院”的黄居仁教授负责。语料选自台北“中研院”语料库。选择“中频”多义

词,且词的义项在3～5个。截至2004年9月,历时3年共标注107078词次,IAA 接近92.6%。

另外,台北“中研院”、哈尔滨工业大学分别为SENSEVAL 22和SENSEVAL 23提供了中文评测语料,复旦、清华和山西大学等都进行过词义标注语料库建设,囿于篇幅,本文不多做介绍。2.3　其他语种词义标注语料库

除上面介绍的英语和汉语词义标注语料库外,还有捷克语、罗马尼亚语、韩语、日语、土耳其语、巴斯克语、西班牙语等等。本文仅对日语语料库做简单介绍。EDR 语料库由日本电子辞书研究院

(Japan Electric Dictionary Research Institute ,EDR )负

责。语料全部是新闻报道,约200000个日语句子。

词义来源于EDR 概念词典,对所有的实词(约20万)进行标注。没有看到标注总词次和标注一致率的报道。除此以外,还标注了语义角色。基于该语料库所做的研究见文献[28,29]等。

另一个日语词义标注语料库是N T T 的Hino 2ki [30]。该语料库既标注了词义也标注了语义角色。所用的词典是N T T 的日语语义词典Lexeed 。该词典按照熟悉程度把日语单词分为7级,只选择熟悉程度大于等于5的词入选该词典,共计28000个。对该词典的统计表明,越不熟悉的词越倾向于单义。需要说明的是这里的熟悉程度(familiarity )并不是使用频次,而是来自一个心理测试。

标注的语料有两方面的来源:一个是词典Lexeed 中本身的定义和例句(定义和例句中所用的词也仅限于该词典中出现的词);一个是新闻(Ma 2inichi )。标注前都作了词性标注。标注时,每5个人一组,共有3组。涉及多义词9835个,平均每个词有2.88个义项。共标注818814词次,其标注一致率IAA 为78.7%。

最后对上面介绍的词义标注语料库,总结为表3。

表中学术影响部分,为本文根据语料库在目前WSD 研究中被引用的情况、是否免费等因素所给出的个人评价。

表3　词义标注语料库一览表

语料库名称

规模

覆盖

标注一致性(IAA )

IAAraw

词典

影响Semcor 234136所有实词

—

WordNet1.6★★★★☆DSO

192800191个名词和动词80%

57%WordNet 1.5★★★☆SENSEVAL 21

844835个实词—80%H ECTOR ★★★★☆SENSEVAL 22(采样词)795773个实词—

85.5%WordNet1.7★★★★☆SENSEVAL 23(采样词)1180457个

67.3%

58%WordNet1.7WordSmyth ★★★★SENSEVAL 23(所有词)

2212名词、动词、形容词

—

72.5%

WordNet1.7★★★★北大计算语言所

66202942个名词、动词84.8%—CSD ★★★Hinoki

818814

9835个

78.7%

—

Lexeed

★★★

中文信息学报2008年

3　自动构建词义标注语料库研究

人工建设一个大规模、高质量的词义标注语料库是一个耗时耗力的语言工程。一直以来,都有研究者尝试用自动或半自动的方法进行建设。本文主要介绍boot st rapping方法和基于双语对齐语料库所做的研究。

3.1　Bootstrapping方法

该方法的基本思想是,人工标注的语料作为种子,以此为基础,利用一个或多个监督分类器,自动地迭代扩大标注语料库。较早的研究是Yarowsky 采用决策表分类器,利用“一文一义”[16]的规则[L U1],针对同形词(Homograp h)进行词义消歧实验[31]。

Mihalcea在多义(Polysemous)的层面上,利用互联网,基于boot strapping的思想,设计一个生成算法[32]。该生成算法由下面三步组成:

第一步:用人工标注的语料创建一个种子集合。包括以下人工标注语料:SemCor,从WordNet 中提取的语料等。

第二步:用这些种子语料作为查询请求,搜索互联网。获得包含这些请求的前N个网页。

第三步:对包含该查询的网页片段进行消歧。把消歧后的网页片段加入种子集合,返回第二步。

具体实现时,要求第一步中的种子语料满足以下限制:1)至少包含两个开放词类的单词;2)两个开放词类中至少一个已经标注义项;3)目标词是名词短语的一部分或者有动宾、主谓关系。例如,对于多义名词“channel”,初始种子集合为{“fiber optic channel”、“river channel”、“channels in t he sur2 face”、“water channel”、“channel of exp ression”、“calcium channel”、“sport s channel”}。同时,要求第三步中,进行消歧的词应该和查询中已经标注词义的词具有以下关系之一:词形相同;同义关系;上下位或兄弟关系。如果只是为了针对某一个特定的词进行消歧,则只需要使用“词形相同”这一关系即可。

针对上面提到的“channel”的例子,利用相同的消歧程序和SENSEVAL22的测试集合,用基于boot st rapping方法建成的标注语料库作为训练集合达到的性能,要优于利用SENSEVAL22提供的训练数据达到的性能。3.2　基于双语对齐语料的自动构建

究竟什么是“词义”,一个词应该有几个义项,这几个义项分别是什么,应该如何刻画等等,这些词汇语义学的问题在语言学界也没有一致意见[33～35]。上面介绍的英语词义标注语料库绝大多数使用WordNet,但是WordNet被人诟病其义项区分的颗粒度太小,以至于人工标注时,标注者有时都不能达成一致[31]。在自然语言处理的应用中,也不容易把握词义区分的颗粒度(WSD因此被批评为一个孤立的自然语言处理问题)。而一个词对齐(word a2 ligned)的双语平行语料库,就是一个词义标注语料库:不同的翻译对应着不同的“义项标注”。这样不仅避免了词义区分(word sense discrimination)的纷争,而且可以直接为机器翻译服务。文献[36]较早建议使用双语平行语料库来进行词义消歧研究。

Ng利用GIZA++对6个中英平行语料库进行词对齐[4]。接下来,手工完成翻译对到目标语义项的映射(也可通过双语词典自动完成)。仍以“chan2 nel”为例,如果对应的中文翻译是“水渠”或者“排水渠”,则都对应到WordNet1.7的同一个Synset(描述为:“A passage for water”)。在SENSEVAL22的29个名词上进行实验,义项个数由WordNet中的5.07个减少到3.52个。其中7个词变成了单义词,实际只有22个多义词。在消歧程序和测试集合不变的情况下,初步的实验结果表明对于绝大多数歧义词,用人工标注的训练集要好于双语对齐语料库的结果。Ng进一步分析认为领域相关和某些义项的训练语料过少(有些义项甚至在平行语料库中没有出现)是导致这一结果的两大原因。通过把训练语料和测试语料重新分组以消除领域因素的影响,两者的差距由0.189降至0.14。进一步去掉测试集在平行语料库中出现过少的语料后,两者的差距降至0.065。由此可见,词对齐的双语语料库可以作为建设词义标注语料库的一条有效途径。

该方法面临的主要问题是缺乏大规模的词对齐平行语料库。由此引起的问题是某些义项对应的翻译在对齐语料中根本没有出现。为缓解这一问题,文献[20]提出使用汉语单语语料库和一个汉—英双语词典来构建词义标注样例(注:这些样例只是和特定义项密切相关的实词的集合,并非真实语料)。另外,由于多个义项对应同一个翻译词,必将导致比单语消歧的粒度更粗,从而实验结果不具备可比性。进一步在大规模的Brown语料库上对800个常用

3期

金澎等:词义标注语料库建设综述

多义名词进行实验。要求和SENSEVAL 22中采用完全相同的义项区分,对没有出现的翻译对,采用“加权替换”策略。结果表明,消歧准确率非常接近最好的系统(相差0.8%)[37]。

Tufis 同时利用了词聚类和多语言的WordNet (BalkaNet ,Euro WordNet )在一部被译成6种语言的小说上进行实验[38]。利用平行语料库进行WSD 研究见文献[39,40]等。

双语对齐语料库造成多义词的义项减少,会给诸如信息检索等应用带来问题。比如“病毒”,在汉语中分别指“比病菌更小的病原体”和“有害的计算机程序”,而两种义项对应的英语翻译都是“virus ”。这也是基于双语对齐语料库进行词义标注语料库建设面对的一个难题。

4　分析与思考

目前几乎所有的词义标注语料库都是采用人工

标注。尽管已经开展了自动或半自动标注方法的研究,但由于各种原因,研究成果并不尽如人意。以下针对词义标注语料库建设和应用中存在的问题,做简单讨论。4.1　语料库规模小

采用人工标注进行词义标注语料库建设的缺点是耗时和一致性差,并且很难做到大规模。英语词

义标注语料库中标注最多的Semcor 语料库也仅有20万词次。如何引入半自动,甚至是全自动的方法来加速词义标注语料库的建设已经成为一个重要的研究课题。

在保证高标注准确率的前提下,让机器自动完成尽可能多的标注词次,是目前比较可行的半自动建设大规模词义标注语料库的途径。

Jin 利用决策表具有消歧准确率高的优点[41,42],根据大量的无标注语料上的词聚类结果,进行决策表扩展。实验结果表明在几乎不降低准确率的前提下,召回率得到大幅度提高(从37%提高到57%)。这种方法可以有效地加速词义标注语料库的建设[43]。4.2　语料分布不平衡

除了标注规模小外,另外一个问题是语料分布

不平衡。即便在一个规模较大的语料库中,也会有一些低频的多义词从未出现,或者是高频多义词的

某些低频义项从未出现。在2.2.1节介绍的北京大学词义标注语料库中,其词典描述的794个多义名词中,仅485个(60.93%)在该语料库中出现。在这485个名词中,只以一个义项出现的有237个。只有248个(占31.16%)多义词在这三个月的《人民日报》中表现为真正的多义词。

为平衡标注语料库的分布,在不增加人工标注工作量的前提下,可采用主动学习(active learning )的方法,自动选择信息量更为丰富的或可能是低频义项的未标注语料提供给标注者。Dang 和Chen 分别在细粒度和粗粒度的英文语料上进行了实验,后者的结果更为乐观[44,45]。

最后,标注的一致性校对仍然采用人工方法。如何利用机器学习来自动发现语料标注中的不一致,从而改善标注的质量,也是亟待解决的一个难题。目前这方面的研究尚未看到相关报道。4.3　词义标注语料库的应用

由于目前的标注语料库规模较小,只能用于词

义消歧算法的评测研究。利用已有词义标注语料库训练得到的标注器,尚未在应用系统中使用。但文献[1]利用在SENSEVAL3词义标注语料库上证明性能很高的消歧模型,集成到统计机器翻译系统Hiero 的解码过程中。实验用的语料N IST M T 2002的汉英语料,系统的BL EU 24值从原来的29.73提高到30.30。该词义消歧模块从输出额外的

翻译词和纠正已有翻译中的错误两方面改善翻译结

果。

如何更好地把WSD 集成到相关的自然语言处理应用系统中,是WSD 研究者亟待解决的难题。

5　结论

词义标注语料库作为词义消歧研究的基础性资源,已经经过了十几年的建设。无论英语、汉语还是日语等都有了自己的词义标注语料库。特别是从1998年以来开展的国际评测,大大促进了词义消歧

研究和词义标注语料库建设。但是建设一个大规模、高质量的词义标注语料库是一个耗时耗力的语言工程。而传统的手工标注由于其固有的耗时、耗力和不一致等缺点,以致目前的词义标注语料库规模和质量都不足以训练得到一个可以应用的词义消歧系统。

探求半自动、甚至自动地建设大规模词义标注

中文信息学报2008年

语料库的策略、模型、算法,显得极为迫切。本文认为,boot strapping的方法是半自动建设大规模词义标注语料库的有效方法,而利用互联网资源对于获取多义词的低频义项出现具有现实意义。

最后,如何利用大量的无标注语料以改善消歧效果,虽然很早就开始研究[31],但并没有本质进展。随着半监督学习研究的深入,我们期望词义标注语料库建设的研究能从中受益。

参考文献:

[1]　Y.S.Chan,H.T.Ng and D.Chiang,Word Sense

Disambiguation Improves Statistical Machine Transla2

tion[A].In:Proceedings of the ACL22007[C].332

40.

[2]　C.,Stokoe,M.P.,Oakes,J.Tait,Word Sense Dis2

ambiguation in Information Retrieval Revisited[A].

In:Proceeding of the ACM SIGIR2003[C].1592166.

[3]　闵金明,孙乐,张俊林.重新审视跨语言信息检索

[J].中文信息学报,2006,20(4):33240.

[4]　H.T.Ng,B.Wang and Y.S.Chan,Exploiting Par2

allel Texts for Word Sense Disambiguation:An Empir2

ical Study[A].In:Proceedings of the ACL22003

[C].4552462.

[5]　J.Veronis,Sense tagging:Does it Make Sense?[A].

In:The Corpus Linguistics’2001Conference[C].

2001.

[6]　H.T.Ng,C.Y.Lim and S.K.Foo,A Case Study

on Inter2Annotator Agreement for Word Sense Disam2

biguation[A].In:Proceedings of the ACL SIG L EX

Workshop on Standardizing Lexical Resources[C].

1999.9213.

[7]　J.Carletta,Assessing Agreement on Classification

Tasks:The kappa statistics[J].Computational Lin2

guistics,1996,22(2):2492254

[8]　https://www.wendangku.net/doc/7316442023.html,ler,C.Leacock,R.Tengi and T.Bunker,A

Semantic Concordance[A].In:Proceedings of ARPA

Workshop on Human Language Technology[C].

1993.

[9]　M.Stevenson and Y.Wilks,The Interaction of

Knowledge Sources in Word Sense Disambiguation

[J].Computational Linguistics,2001,27(3):3212

349.

[10]　D.McCarthy and J.Carroll,Disambiguating Nouns,

Verbs,and Adjectives Using Automatically Acquired

Selectional Preferences[J].Computational Linguis2

tics,2003,(29):4,6412654.

[11]　D.McCarthy,R.K oeling,J.Weeds and J.Carroll,

Finding Predominant Word Senses in Untagged Text

[A].In:Proceedings of ACL[C].2004.

[12]　U.K ohomban and W.S.Lee,Learning Semantic

Classes for Word Sense Disambiguation[A].In:

Proceedings of ACL[C].2005.34241.

[13]　S.Brody,R.Navigli and https://www.wendangku.net/doc/7316442023.html,pata,Ensemble

Methods for Unsupervised WSD[A].Proceedings of

ACL[C].2006.

[14]　H.T.Ng and H. B.Lee,Integrating Multiple

Knowledge S ources to Disambiguate Word Sense:An

Exemplar2Based Approach[A].In:Proceedings of ACL

[C].1996.40247.

[15]　R.Krovetz,More Than One Sense Per Discourse

[A].In:Proceedings of the ACL2SIG L EX

SENSEVAL Worshop[C].1998.

[16]　W.G ale,K.Church and D.Yarowsky.One Sense

per Discourse[A].In:Proceedings of the DARPA

Speech and Natural Language Workshop[C].1992.

[17]　D.Wu,W.Su and M.Carpuat,A Kernel PCA

Method for Superior Word Sense Disambiguation

[A].In:Proceedings of ACL[C].2004.

[18]　M.Palmer and H.T.Dang,Making Fine2grained

and Coarse2grained Sense Distinctions,Both Manual2

ly and Automatically[J].Natural Language Engi2

neering,2007,(13):1372163.

[19]　A.K ilgarriff,English Lexical Sample T ask Description

[A].In:Proceedings of ACL2SIG L EX SENSEVAL22

workshop[C].2001.17220.

[20]　X.Wang and J.Carroll,Word Sense Disambiguation

Using Sense Examples Automatically Acquired f rom a

Second Language[A].In:Proceedings of EMNL P

[C].2005.

[21]　M.Palmer,C.Fellbaum,S.Cotton,L.Delf s,and

H.T.Dang.English tasks:All2words and verb lexi2

cal sample[A].In:Proceedings of the SENSEVAL2

2workshop[C].2001.21224.

[22]　R.Mihalcea,Timothy Chklovski and Adam Kilgar2

riff,The SENSEVAL3English Lexical Sample Task

[A].In:Proceedings of ACL2SIG L EX SENSEVAL2

3workshop[C].2004.25228.

[23]　R.Mihalcea,Unsupervised Large2Vocabulary Word

Sense Disambiguation with Graph2based Algorithms

for Sequence Data Labeling[A].In:Proceeding of

HL T/EMNL P[C].2005.4112418.

[24]　B.Snyder and M.Palmer,The English All2W ords T ask

[A].In:Proceedings of AC L2SIG L EX SENSEV AL23

workshop[C].2004.41243.

[25]　Y.Wu,P.Jin,Y.Zhang and S.Yu.2006.A Chi2

nese Corpus with Word Sense Annotation[A].In:

Proceeding of ICCPOL’06[C].2006.4142421. [26]　俞士汶,等.现代汉语语法信息词典详解(第二版)

[M].北京:清华大学出版社,2003.

[27]　俞士汶,等.汉语词汇语义研究及词汇知识库建设

[A].第七届汉语词汇语义学研讨会[C].2006.

[28]　A.Fujii,Corpus2Based Word Sense Disambiguation

[D].Tokyo Institute of Technology,1998.

[29]　K.Shirai and T.Yagi.Learning a Robust Word

Sense Disambiguation Model Using Hypernyms in

Definition Sentences[A].In:Proceeding of COL IN G

3期金澎等:词义标注语料库建设综述

[C].2004.

[30]　T.T anaka,F.Bond and S.Fujita,The Hinoki Sense2

bank2A Large2Scale Word Sense Tagged Corpus of

J apanese[A].In:Proceedings of the Workshop on

Frontiers in Linguistically Annotated Corpora[C].

2006.62269.

[31]　D.Yarowsky,Un2supervised Word Sense Disambig2

uation Rivaling Supervised Methods[A].In:Pro2

ceedings of ACL[C].1995.1892196.

[32]　R.Mihalcea,Boostrapping Large Sense Tagged Cor2

pora[A].In:Proceedings of the3rd International

Conference on Languages Resources and Evaluations

[C].2002.

[33]　A.K ilgarriff,I don’t believe in word senses[J].

Computers and the Humanities,1997,(31):912113.

[34]　符淮青.现代汉语词汇(增订本)[M].北京:北京大

学出版社,2004.

[35]　徐国庆.现代汉语词汇系统论[M].北京:北京大学

出版社,1999.

[36]　P.Resnik and D.Yarowsky,A Perspective on Word

Sense Disambiguation Methods and Their Evaluation

[A].In:Proceedings of The ACL2SIG L EX Work2

shop Tagging Text with Lexical Semantics[C].

1997.79286.

[37]　Y.S.Chan and H.T.Ng,Scaling Up Word Sense

Disambiguation via Parallel Texts[A].In:Proceed2

ings of the20th National Conference on Artificial In2

telligence(AAAI2005)[C].103721042.[38]　D.Tufis,R.Ion and N.Ide,Fine2Grained Word

Sense Disambiguation Based on Parallel Corpora,

Word Alignment,Word Clustering[A].In:Pro2

ceedings of COL IN G[C].2004.

[39]　C.Li and H.Li,Word Translation Disambiguation

Using Bilingual Bootstrapping[A].In:Proceedings

of ACL[C].2002.3432351.

[40]　M.Diab and P.Resnik,An Unsupervised Method

for Word Sense Tagging using Parallel Corpora[A].

In:Proceedings of ACL22002[C].2552262.

[41]　D.Yarowsky,One Sense Per Collocation[A].In:

Proceeding of ARPA Human Language Technology

workshop[C].1993.

[42]　D.Yarowsky,Hierarchical Decision Lists for Word

Sense Disambiguation[J].Computers and the Hu2

manities.2000,(1):1792186.

[43]　P.Jin,X.Sun,Y.Wu and S.Yu.Word Clustering

for Collocation2Based Word Sense Disambiguation

[A].In:Proceedings of the8th International Confer2

ence on Intelligent Text Processing and Computation2

al Linguistics[C].2007,2672274.

[44]　H.T.Dang,Investigations into the Role of Lexical

Semantics in Word Sense Disambiguation[D].Uni2

versity of Pennsylvania,2004.

[45]　J.Chen,Towards High2Performance Word Sense

Disambiguation by Combining Rich Linguistic Knowl2

edge and Machine Learning Approaches[D].Univer2

sity of Pennsylvania,2006.

书讯(合订本)

2007年《中文信息学报》合订本已出,还有少量过刊合订本,详细定价如下:

出版年份定价(元)出版年份定价(元)

199730200355

199830200465

199955200570

200055200685

2001552007100

200255——

愿购者(邮购需加15%的邮资费),请按以下地址汇款:

邮编:100190 通信地址:北京8718信箱《中文信息学报》编辑部

电话:010*********E2mail:cips@https://www.wendangku.net/doc/7316442023.html,

语料库语言学综述

语料库语言学综述作者：刘美良作者单位：柳州铁道职业技术学院,广西,柳州,545001 刊名：科技信息英文刊名：SCIENCE & TECHNOLOGY INFORMATION 年，卷(期)：2010，""(21) 被引用次数：0次参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全（学术版）2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报（社会科学版）2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国，旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此，旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题，近年来主要是结合最新语言学

语料库的类型

语料库的类型［作者：李文中转贴自：Corpora and the ELT点击数：97 文章录入：neilruan ］语料库来自拉丁词corpus，原意为“汇总”、“文集”等，复数形式为corpora或corpuses。语料库是“作品汇集，以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集，为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”(Sinclair，1986:185-203)。语料库是按照明确的设计标准，为某一具体目的而集成的大型文本库（Atkins and Clear，1992:1-16）。 Renouf认为，语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”（Renouf, 1987:1）。 Leech指出，大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础，“为获得必需的频率数据，我们必须分析足量的自然英语（或其它语言）文本，以便基于观测频率（observed frequency）进行合乎实际的预测。因此，就需要依靠可机读的电子文本集，即可机读的语料库”(Leech, 1987:2)。综上所述，语料库具有以下基本特征： 1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的，语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析，而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语，目的是进行美国英语和英国英语的对比分析和语法分析。 2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的，而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料（naturally-occurred data）。 3）语料库作为自然语言运用的样本，就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性，“自然语料库存在如此严重的偏差，以至于对其所进行的描述将不过是一个词表而已”（Chomsky, 1962:159）。这种批评对任何以概率统计为基础手段的研究都是有价值的（McEnery, 1996:5）。但是，目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围，如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i]；再就是确定语料的分层结构，进行分层抽样，如把语料按文类（genre）和信道（channel, 如书面语和口语等）进行分层，如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’（balanced）和‘塔式抽样’（pyramidal）。前者对各种语料按平均比例抽取，而后者对不同的语料进行不等比例抽取。 4）语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上，以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本（htm 或html）格式转换为纯文本。另外，语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求，以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互，这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式：（1）‘数据检索模式’。计算机以便利的形式提供数据，人进行分析。（2）‘共生模式’。计算机提供部分经过分析的数据，人不断改善其分析系统。（3）‘自我组织模式’。计算机分析数据并不断改善其分析系统，人提供分析系统参数及软件。（4）‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析，人提供软件（Leech，1991：19）。计算机自动处理包括自动词性附码（tagging）、自动句法分析（parsing）等。其基本处理和分析过程包括以下几个步骤：语音分析（phonetic analysis）指音段分析，主要用于语音识别和语音合成。正字分析（orthographic analysis）指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。形态分析（morphological analysis）即词性指定和附码。语料库自动附码软件通过概率统计和分析，对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。句法分析（syntactic analysis）是指句子成分切分、句法关系识别、以及句法分析。语义分析（semantic analysis）和语用分析对语篇进行语义指定和意义解释。 5）基于语料库的研究以量化研究为基石，以概率统计为基本手段，以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样，确定其对语言整体的代表性，通过对样本特征的描述概括整体特征。在量化分析中，首先对特征进行分类，并统计各个特征的频率，通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征，那些现象仅属于偶然的个例。针对某一语言变体而言，我们还可以确切地知道某一语言现象的显著性，从而确认该现象是规范的还是异常的（McEnery，1997:3）。 6）语料库既是一种研究方法，又代表着一种新的研究思维，并以当代先进的计算机技术为技术手段。 7）语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse)，而不是孤立的句子和词汇。在语料库研究中，对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境（context）进行的。语料库索引提供的语境可分为以下几种：（1）指定跨距，即使用者指定以搜索词为中心左右相邻的词数；（2）意元语境，即以某一意义单元结束为一微型语境，在语料库索引中意元的确定是以意义结束符号如“，；”等为标识的；（3）句子语境，即以句子终结符号如“. !”等为标识；（4）可扩展语境，即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛（word cluster）、词汇在连续语篇中呈现的范型（pattern）、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式，定义为“必定，必然”；Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条，给出的定义为“adv as a necessary result; inevitably”；各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库（以下简称JDEST）中搜索“necessarily”这个词，发现该词在全库中出现264次，频率最大的搭配词“not”出现在该词左边第一个位置，观察搭配频数为136。全库中出现5次以上的三词词丛有20组，同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出（见图2.4示例），“necessarily”一词最典型的用法是与“not”

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要：文章从基于语料库的话语研究领域出发，通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析，发现这些研究在研究领域取得了很大的进步，涉及到话语各个方向，对于实践有重大指导作用，但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则，运用随即抽样的方法，收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视，并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚，但是成果仍然颇丰。 1. 研究样本由于近几年运用语料库来做话语研究已经成为语言研究的热点，笔者通过检索主题与关键词，将文献定在2002年至2011年这十年期间，研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始，但是早在这以前很多人已经提出了相应的想法，甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。在1946年，美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时，英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时，就提出了利用计算机实现语言的自动翻译的想法。在1949年，韦弗发表了一份名为《翻译》的备忘录，正式提出了机器翻译问题。他提出了两个主要观点：第一，他认为翻译类似于解读密码的过程。第二，他认为原文与译文“说的是同样的事情”，因此，当把语言A翻译为语言B时，就意味着从语言A出发，经过某一“通用语言”或“中间语言”，可以假定是全人类共同的。在这一段时间由于学者的热心倡导，实业界的大力支持，美国的机器翻译研究一时兴盛起来。 1964年，美国科学院成立语言自动处理咨询委员会，调查机器翻译的研究情况，给出了“在目前给机器翻译以大力支持还没有多少理由”的结论，随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期，随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容经过50多年的发展，在机器翻译领域中出现了很多的研究方法，总结如下：●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法基于实例的方法（含模板、翻译记忆方法）基于统计的方法在当前的研究中，更多的是基于统计的方法进行的，因为基于统计的方法可以充分的利用计算机的计算能力，并且并不需要过多的语言学知识作为支撑，可以让更多的计算机科学家投入到实用系统的研究中，极大的促进了统计机器翻译的发展。下面对各个方法逐一的进行介绍。

基于语料库的词汇自主学习

首都医科大学学报社会科学版增刊（2010年）一、语料库的定义语料库是按照一定的语言原则，运用随机抽样方法，收集自然出现的连续的语言，运用文本或话语片断而建成的具有一定容量的大型电子文本库。从其本质上来说，语料库是一个通过对自然语言运用的随机抽样，以一定大小的语言样本代表某一研究中所确定的语言运用总体。经过科学选择和标注、具有适当规模的语料库能够放映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。语料库已经成为外语教学和研究良好的基础资源。二、自主学习的内涵自主学习（Autonomous Learning）的概念是在20世纪60年代，以建构主义理论为依据，针对如何培养终生学习能力的问题提出来的。强调的是“学”，要求学生由外部的被动接受者和知识的灌输对象转变为信息加工的主体和知识意义的主动建构者。建构主义认为，学习者要想完成对所学知识的意义建构，即达到对该知识所反映事物的性质、规律以及该事物与其它事物之间联系的深刻理解，最好的办法是让学习者到现实世界的真实环境中去感受、去体验（即通过获取直接经验来学习），而不是仅仅聆听别人（例如教师）关于这种经验的介绍和讲解。自主学习通常包括以下主要特征：学习者应为自己的学习负责，例如决定学习目标，选择学习方法及评估进展情况。环境通常是促进学习者自主学习的重要因素之一，而网络语料库所具有的虚拟性、开放性、交互性和多元性正是为学习者自主学习提供了有利的环境。三、基于语料库的词汇自主学习（一）词汇学习的传统方法传统的语言学把词汇分成两大部分，即：可以借助语法规则进行自由组合的单词和不能用语法规则解释的固定短语（例如习语），词汇教学即单词教学。传统的词汇教学以“词义驱动”（mean-ing-driven）为主，学生往往只通过机械记忆单词或固定短语的形式及中文对应意思来扩大词汇量。然而，词汇学习并不是简单的词表背诵，它还涉及到词汇意义的不同层面以及词汇的语体意识、搭配使用等产出性词汇能力的培养和形成。在教学实践过程中，教师往往只注重词汇的音、形、义，而忽略了词汇的搭配、类连接形式和词汇的语义选择取向等，也很少涉及词块、搭配、语用和语境等较深层次的内容。学生所输入的只是一些零散的词汇块，而非词块，因此，即使学生的词汇量很大，当把这些单词放进语境中时，理解和应用也经常出错。近年来，虽然教师在教学中对词汇的搭配越来越予以重视，但往往是凭借其教学经验或直觉产出，教学语料属非真实输入或是一些理想化的语料，其教学效果往往不尽如人意。但是，语料库可以为英语学习者提供真实的语料和地道的词汇表达，有利于学生语用能力的提高。（二）基于语料库的词汇自主学习 1.基于语料库的词汇自主学习的必要性我国教育改革的目标是学生个性化学习方法的形成和学生自主学习能力的发展，即发现学习、探索学习、研究学习。大学英语教学要向个性化、协基于语料库的词汇自主学习闵楠（首都医科大学卫生管理与教育学院，北京100069）【摘要】当今社会信息化、网络化技术的发展为大学英语教学带来新的教学手段和方法。语料库的应用和网络自主学习都改变了传统大学英语教学模式。本文在实践的基础上，浅谈自主学习理念指导下的英语词汇学习的语料库方法。【关键词】语料库；词汇；自主学习【中图分类号】H03【文献标识码】J【文章编号】10-105 279

语料库研究与综述.

语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。语料库建设中涉及的主要问题包括：（1）设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。（3）语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。（4）语料管理系统的建设：包括数据维护（语料录入、校对、存储、修改、删除及语料描述信息项目管理）、语料自动加工（分词、标注、文本分割、合并、标记处理等）、用户功能（查询、检索、统计、打印等）。（5）语料库的应用：针对语言学理论和应用领域中的各种问题，研究和开发处理语料的算法和软件工具。我国语料库的建设始于80年代，当时的主要目标是汉语词汇统计研究。进入90年代以后，语料库方法在自然语言信息处理领域得到了广泛的应用，建立了各种类型的语料库，研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期，除了语言信息处理和言语工程领域以外，语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候，在自然语言理解和生成、机器翻译等研究中，分析语言的主要方法是基于规则的（Rule-based）。对于用规则无法表达或不能涵盖的语言事实，计算机就很难处理。语料库出现以后，人们利用它对大规模的自然语言进行调查和统计，建立统计语言模型，研究和应用基于统计的（Statistical-based）语言处理技术，在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面，语言信息处理技术的发展也为语料库的建设提供了支持。从字符

论人格词汇语料库的创建及应用

Advances in Psychology 心理学进展, 2019, 9(8), 1424-1428 Published Online August 2019 in Hans. https://www.wendangku.net/doc/7316442023.html,/journal/ap https://https://www.wendangku.net/doc/7316442023.html,/10.12677/ap.2019.98174 On the Construction and Application of Personality Vocabulary Corpus Ying Chang*, Chun Yong# School of Psychology, Inner Mongolia Normal University Hohhot, Hohhot Inner Mongolia Received: Jul. 24th, 2019; accepted: Aug. 8th, 2019; published: Aug. 15th, 2019 Abstract Healthy and sound personality education is an inevitable requirement to comprehensively promote psychological health education and realize students’ physical and mental development. This paper adopts document analysis, lexicology, semantics and database description to collect and encode personality words. The steps of building the corpus of personality vocabulary are as follows: corpus collection, corpus standardization, corpus labeling, updating and perfecting, and forming the corpus of personality vocabulary. Vocabulary is the basic material for the study of personality, including the language information base of personality description vocabulary, personality evaluation vocabulary, personality trait vocabulary and personality state vocabulary, which aims to promote the develop-ment of students’ positive personality and cultivate the personality characteristics needed by the development of modern society in the mental health education. Keywords Psychological Health Education, Personality Vocabulary, Corpus, Big Data, Information Processing 论人格词汇语料库的创建及应用常颖*，永春# 内蒙古师范大学心理学院，内蒙古呼和浩特收稿日期：2019年7月24日；录用日期：2019年8月8日；发布日期：2019年8月15日摘要健康健全的人格教育是全面推进心理健康教育，实现学生身心发展的必然要求。文章采用文献分析法、 *第一作者。 #通讯作者。

语料库语言学的发展

语料库语言学的发展语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展；二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要：语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源，它与自然语言处理有着相辅相成的关系，是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域，为进行大规模的真实性文本的语义分析提供了有利的支持，它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用，如今国内外对语料库和知识库的研究给与高度的重视，经过过去几十年的发展，各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理，重点介绍目前国内外在语料库和知识库方面的研究现状。关键词：语料库；知识库；研究现状 1前言语料库是指按照一定的语言学原则，运用随机抽样的方法，收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用，全面有组织的知识集群，是针对某一（或某些）领域问题求解的需要，采用某种（或若干）知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用，所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始，大批国内外的专家学者致力于语料库和知识库的研究，近年来国内外对于语料库知识库的研究取得了重大的突破，形成了规模不一的各种语料库和知识库，并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究，不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势，对今后语料库知识库的发展具有一定的指导作用，而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) （平行或对应）语料的对齐 Alphanumeric 字母数字类的 Annotate 标注（动词） Annotation 标注（名词） Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) （主题词的）联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词；搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引（行） Concordance plot （索引）词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库（复数） Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出，并由此泛化产生了基于模板的机器翻译方法。下面我们分别介绍几种典型的机器翻译方法：（1）基于规则的机器翻译方法

从Chomsky提出转换生成文法后，基于规则的方法一直是机器翻译研究的主流，Chomsky认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符例如“I see a cat and a dog”类符6个，形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法，可以辅助说明文本的词汇难度。但是，文本中有大量功能词出现，文本每增加一个词，形符就会增加一个，但类符却未必随之增加。这样文本越长，功能词重复次数越多，TTR会越低。因此用TTR衡量词汇密度不合理，于是，出现了标准化类符/形符比，即STTR。例如，计算每个文本1000词的TTR，均值处理，得出STTR。Frequency（频率）例如每百万词、十万词中，某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量，用卡方检验或对数似然率进行对比，来确定两个库中该单词的使用是否有差异。 Wordlist词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目，词元比如go是lemma，对应各种屈折变化形式（inflections），go,goes,went,going,gone共5种屈折变化形式。在分析语言时，需要将它们全部归到go名下，这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引（KWIC 语境中的关键词key words in context）运用索引软件在语料库中查询某词或短语的使用实例，然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境，可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)（平行或对应）语料的对齐Alphanumeric字母数字构成的 Annotate标注（动词） Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注（名词） Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)（主题词的）联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本（一句源语一句目标语对齐后的文本） Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion（新手）训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类（范畴）的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词；搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

中国语料库研究的历史与现状(一)

中国语料库研究的历史与现状(一) 语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpuslinguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub-language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从

而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注，正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。现在，国外的主要语料库还有： London-Lund口语语料库：收篇目87篇，每篇5000词，共为43.4万词，有详细的韵律标注(prosodicmarking)。 AHI语料库：美国Heritage出版社为编纂Heritage词典而建立，有400万词。 OTA牛津文本档案库（OxfordTextArchive）：英国牛津大学计算中心建立，