文档库 最新最全的文档下载
当前位置:文档库 › 教育部国家语委关于开展语言文字

教育部国家语委关于开展语言文字

教育部国家语委关于开展语言文字
教育部国家语委关于开展语言文字

教育部国家语委关于开展语言文字规范化示范校创建活动的意见

各省、自治区、直辖市教育厅(教委)、语委,新疆生产建设兵团教育局、语委,部属各高等学校:

为贯彻落实《中华人民共和国国家通用语言文字法》和《中共中央国务院关于深化教育改革全面推进素质教育的决定》,实施国务院批转的教育部《2003-2007年教育振兴行动计划》中关于加强语言文字规范化工作,优化国家通用语言文字应用环境的相关内容和要求,教育部、国家语委决定开展语言文字规范化示范校(以下简称“示范校”)创建活动。为使这项活动规范、有序、健康开展,特提出如下意见:

一、充分认识示范校创建活动的意义

1.普及国家通用语言文字,促进语言文字应用规范化,是保证社会高效运转和提高社会信息化水平的必要条件,符合我国先进生产力的发展要求、先进文化的前进方向和最广大人民的根本利益,是实现党的十六大提出的全面建设小康社会、推进中华民族伟大复兴宏伟目标的基础性工作之一。开展示范校创建活动,就是要进一步提升学校语言文字工作的整体水平,推动学校在全社会更好地发挥基础作用和积极影响。

2.普及普通话和语言文字规范化是素质教育的重要内容。充分发挥教育教学的主渠道作用,对学生进行国家通用语言文字教育,使学生具备良好的语言文字应用能力,是造就数以亿计高素质劳动者、数以千万计专门人才和一大批拔尖创新人才的需要。开展示范校创建活动,对于全面推进素质教育、提高青少年人文素养具有重要意义。

3.近年来,各地及各级各类学校不断加大工作力度,把普及普通话和语言文字规范化的要求纳入培养目标,纳入管理常规,纳入基本功训练,渗透到德智体美和社会实践等各项教育教学活动中,积累了大量经验,涌现出很多语言文字工作成绩突出的学校。开展示范校创建活动,有利于鼓励先进,推广经验,带动更多的学校共同推进和提高,以确保“2010年以前在全国范围内普通话初步普及、社会用字基本规范”的目标如期实现。

二、示范校创建活动的基本目标

示范校创建活动的基本目标是:在各级各类学校全面推行国家通用语言文字,以普通话和规范汉字作为教育教学的基本用语用字,城镇学校普遍实现普通话成为校园语言的基础上,用5年时间,建设一批国家级示范校和省级示范校。通过示范校创建活动,使《国家通用语言文字法》和国家语言文字方针政策、规范标准在教育系统广为知晓,各级各类学校形成与教育教学融为一体的语言文字工作机制,广大师生员工的语言文字规范意识普遍增强,学生的语言文字应用能力普遍提高。

三、国家级示范校的基本要求

国家级示范校应是普通话成为校园语言,教学和校园环境用字规范程度高,长期以来在“三纳入一渗透”方面取得显著成绩的学校。基本要求是:

1.学校领导班子在贯彻国家语言文字法律法规、方针政策和规范标准方面认识明确,学校有健全的语言文字工作机构、制度、机制,在语言文字工作制度化、规范化、科学化方面成绩突出。

2.干部和教师了解国家语言文字法律法规、方针政策、规范标准,师生员工有较高的语言文字规范意识。

3.高度重视教师语言文字基本功训练,教师和行政人员普通话水平全面达标且整体水平明显高于一般学校;学生能说标准或比较标准的普通话,熟练掌握和使用应知应会的规范汉字,熟练运用汉语拼音。

4.各科教学均重视培养学生的语言文字规范意识和应用能力,语文教学注重听说读写能力全面培养,在口语教学、写字教学及考查和把语言文字规范化教育同现代信息技术教育相

结合方面有探索、有特色、有经验。师范专业及其他与口语表达密切相关专业重视学生语言文字基本功训练,坚持把普通话水平达标列入学生毕业条件,学生普通话水平在普遍达标的基础上有较高的一级达标率。高等学校相关专业在语言文字应用研究方面有高水平研究成果。

5.校园有良好的语言文字环境,师生员工在教育教学、会议和集体活动中均能自觉使用普通话和规范汉字,公文、印章、自编教材、教辅读物、教学软件以及标牌、橱窗、墙报等环境用字规范贯校办报刊、广播、电视、网络用语用字规范程度高。

6.普及普通话和语言文字规范化宣传教育经常化并融入校园文化建设中,形式多样,内容丰富,有较强的吸引力和教育效果。积极参与全国推广普通话宣传周等社会宣传活动,对社会普及普通话和语言文字规范化工作做出贡献。

7.以少数民族语言为主要教学语言的学校依法教学国家通用语言文字,在推广普通话、加强汉语教学、汉语师资培训等方面成绩显著,以汉语为教学语言的教师全部达到省级教育行政部门规定的普通话达标要求,师生员工在校内应使用汉语的场合使用普通话。

四、示范校的产生

1.示范校分为国家级示范校和省级示范校。国家级示范校在省级示范校中产生。是否评定市级示范校,由省级教育行政部门、语言文字工作部门决定。

2.省级教育行政部门、语言文字工作部门根据本通知精神,参照教育部、国家语委近年来制定的有关学校语言文字工作的文件和评估标准(目录见附件),结合本省(自治区、直辖市)具体情况制定省级示范校的评估标准、操作办法和审批程序。尚未进行过示范校评定工作的省、自治区、直辖市可以先行试点,逐步推开。

3.示范校应具有多方面代表性,既有普通中小学、幼儿园、中等职业学校、师范院校,也应有普通高等学校,既有全日制学校,也应有成人教育学校及其他教育单位,应当特别注重加强农村和少数民族地区的示范校创建工作。

4.教育行政部门、语言文字工作部门按照标准评估认定示范校,并进行表彰奖励。

5.省级示范校原则上2-3年命名一次。

6.教育部直属高校的语言文字工作实行属地管理,参加所在省份的示范校创建和评选活动。

7.国家级示范校由省级教育行政部门、语言文字工作部门从本省(自治区、直辖市)的省级示范校中选拔,并向教育部、国家语委申报。国家级示范校的申报名额和批准程序由教育部语言文字应用管理司另发。

五、加强领导,落实措施,推动示范校创建活动健康发展

1.各级教育行政部门要将这项工作列入工作规划和议事日程,把开展示范校创建活动作为全面实施素质教育,不断提高教育教学质量的重要抓手。具体实施由语言文字工作部门牵头,政策法规、教育督导、师资培训、师范教育、基础教育、高等教育、职业教育、学前教育、成人教育等有关部门积极协作,督促各级各类学校做到语言文字工作有机构、有目标、有计划、有措施、有检查、有奖罚,积极开展示范校创建活动。

2.为有效推动示范校创建活动,要求各级各类学校将普及普通话和语言文字规范化的要求纳入培养目标和常规管理之中;各级教育督导部门要将此要求列入督导指标,作为一项常规工作加强对学校的督促检查。各级教育行政部门要坚持将普通话水平达标作为教师资格认定和聘用条件之一,将教师普通话培训成绩与在教学中使用普通话和规范汉字的情况作为业务考核、职务晋级、评优评先的条件。对已取得普通话达标等级证书但普通话水平下降的教师,要进行再培训;对普通话达标后仍用方言进行教学的教师,要批评教育,拒不改正的,要做出相应处理。有条件的省市,应逐步提高青年教师的普通话等级达标要求。

3.加强中小学普通话口语教学和汉字书写教学。按照新颁布的中小学课程标准要求,切

实加强口语教学和写字训练。要组织力量,研制中小学口语和书写教学标准及考核办法,并认真进行试点和推广工作。省、市级教研部门的语文教研人员原则上应具备普通话水平测试员资格。

4.加大宣传力度,动员所有学校积极参加示范校创建活动。要大力宣传开展示范校创建活动的意义和示范校先进经验。示范校创建活动要重在建设,重在过程,重在实效,切忌形式主义。命名的示范校应是公认的先进典型。命名后明显退步的,应撤销其示范校称号。

5.各级教育行政部门和语言文字工作部门要做好自身的语言文字规范化工作,为学校师生作出表率。公务人员特别是各级领导干部要带头依法在公务活动中坚持说普通话,用规范字。机关公文、印章、标牌、橱窗、个人名片等要做到用字规范。1954年1月1日以后出生的机关人员应接受普通话水平测试并达到三级甲等以上水平。

中华人民共和国教育部国家语言文字工作委员会

二○○四年四月七日

大规模英语语料库的英文句子检索系统

哈尔滨工业大学毕业设计(论文) 摘要 世界上许多国家长期以来都一直在从事对机器翻译的研究,但目前机器翻译的结果很难达到人们满意的程度。同时,基于双语语料库的句子检索系统由于语料库规模较小而受到很大限制。在这一背景下,我们设计并实现了基于大规模英语语料库的英文句子检索系统(CESRS)。它响应用户输入的汉语句子或短语,依次经过汉语分词转换,句子检索,相似度计算和分类排序等处理模块将与输入相匹配的英文句子返回给用户,为用户提供参考。 本文在对系统进行分析之后,对系统中各模块实现时所用的算法及数据结构进行了简要的介绍。例如,分词模块所采用的改进最大匹配算法,句子检索模块中索引所采用的倒排表结构。另外,本文采用基于词的计算相似度的方法,并着重介绍了词语距离的概念,编辑距离的概念以及如何引入编辑距离计算句子相似度。在此基础上,详细介绍了动态规划算法的思想以及动态规划算法在本系统中的应用。同时,还根据分类排序模块中数据结构的转换过程,详细地介绍了此模块所用算法的设计过程及算法执行流程。最后,描述了对系统进行测试的方法及结果,并指出了系统的不足之处和可能的改进措施。 关键词大规模英语语料库句子检索相似度编辑距离动态规划 分类排序; - -I

哈尔滨工业大学毕业设计(论文) - - II Abstract Many countries in the world have been studying with Machine Translation for a long time. But the current efficiency of MT is difficult to cater to people’s need. At the same time, The Sentence Retrieval System, based on bilingual corpus, is restricted greatly because of the small size of this kind of corpus. So, we make a Chinese to English Sentence Retrieval System (CESRS) which is based on large comparable corpus. After the segment and translation module, the sentence retrieval module, the similarity measuring module and the sorting module, the system will find in corpus sentences which are the most similar to the client’s input, and provides reference to clients. After giving an analysis to CESRS, the article sketches the algorithm and the data structure which will be used in the system. Such as, the maximum matching algorithm used in segment module. The other example is the inverted data structure. In addition, the article adopts a method which is based on words to measure the similarity between two sentences. It illustrates the concept of the word distance in detail, also the concept of edit distance and how to use edit distance to measure the similarity between sentences. The article also introduces the spirit of Dynamic Programming and how to use this algorithm to measure similarity between sentences. Meanwhile, it gets use of the transparent of the data structure of the sorting module to illustrate what algorithm has been used to fulfill this module. At last, it tells a method to evaluate the system and points out some faults of the system and some means to do with these faults. Key words very large English comparable corpus, sentence retrieval, similarity, edit distance, dynamic programming, sorting ;

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

外来词使用状况的语料库考察

外来词使用状况的语料库考察 研究一种语言面对外来词时如何反应――拒绝它们,翻译它们,或是任意接受它们-- 对看清这种语言内在的形式趋势很有 价值。研究现代汉语对外来词的接受和使用状况有助于了解现代汉语的发展趋势;也只有摸清外来词在汉语中的生存和发展状况,才有可能给“外来词”一个符合实际的定义,并对其进行科学分类,为进一步的深入研究奠定基础。 一、研究目的与方法 本研究通过语料库考察和统计分析,定量研究人们对外来词的接受度及使用现状,探索和总结当前汉语外来词的使用特点和表现趋势。 为此,笔者通过分层随机抽样的方法选取了99 条外来词作为研究样本,按照引人方式对样本进行分类,然后进行语料库检索,并运用相关的统计方法对数据进行分析,最后对提出的原假设进行检验和分析。 本研究使用了国家语委语料库和中国传媒大学的生语料库。前者是大型的、通用的现代汉语平衡语料库,反映汉语笔语的总体使用情况;中国传媒大学的生语料库则包含2000 篇电视节目文字稿,基本反映较为正式的汉语口语使用情况。两者参照,能够较好地体现当前汉语对外来词吸收和使用的一般状况。 研究中引入了外来词的“出现率”、“出现频次”和“平均频

次”三个测度指标,并将其分别设定为变量r、f 。设外来词 分别属于八个类型组G1, G2……G8任意一组中有外来词W 个;其中在语料库中出现n 个。 r 可以显示某类型外来词中有多少个在语料库中出现f 为某个外来词在语料库中出现的次数f 则说明某类型外来词在语料库中出现的平均密度。 二、研究假设 假设1 :外来词的使用相当普遍 目前学术界和相关人士普遍认为:汉语对通过不同翻译方法引入的外来词接受度不同,最易接受符合汉语构词习惯的纯意译词,其次是含音译成份的词,最后是近年来似乎有些泛滥的字母词。该假设是对当前流行的学术界普遍看法进行定量检验。 假设2:外来词在现代汉语中处于上升状态该假设认为不同类型的外来词在汉语中的发展状况并不平衡,但整体而言,外来词在现代汉语中是处于上升状态的,无论从规模还是速度上看都是如此。 假设3:外来词的使用频率高 该假设认为外来词的使用频率较高,甚至有可能高于某些较为常用的汉语词汇。对该假设的进一步研究将会对外来词的科学划分提供理论依据。 三、研究结果 (一)外来词的出现率和平均频次 两个通用语料库的检索结果均表明,以往的定性研究虽然没有

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

语料库简单dye 第二讲

2008/7/31 语料库简单DIY 第二讲语料库软件初探-- 语料库软件初探--MonoConcPro 2.2 本软件是Athelstan开发小组https://www.wendangku.net/doc/0f18688207.html,/ ,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2. 2.rar (本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!!!) 功能介绍: 软件主界 面 基本功能: MonoConc Pro 2.2 的软件界面比较简单。适合语料库初学者和初级研究人员使用。 本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省

事!用了都说好!(谁用谁知道) 我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConc Pro 强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。 之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。指定的TXT文件就被全部导入进MonoConc Pro中了。 如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。 *这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!) 当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

商务英语语料库的建设及应用

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(business english)是指商务场景下所应用到的英语,作为特殊目的英语(english for specific purpose)具有很强的专业性。商务英语跟普通英语(english for general purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有

一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的brown corpus以及lob corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的birmingham collection of english language text以及longman/lancaster english为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

语言文字应用研究“十五”科研规划及项目指南

语言文字应用研究“十五”科研规划及项目指南 一、语言文字应用研究的回顾与展望 (一)“九五”期间语言文字应用研究回顾 “九五”期间,我国语言文字应用研究取得多方面的进展:(1)语言文字法制建设研究和立法工作实现了历史性的突破;(2)语言文字规范、标准研制和基础工程建设进一步加强,取得了新的成果;(3)推广普通话、汉字规范化标准化的理论与政策研究逐步深入;(4)中小学语文教学、双语教学、扫盲等引起社会广泛关注;(5)随着对外汉语教学的蓬勃发展,“对外汉语教学”逐步发展成为应用语言学的一个分支学科;(6)语言文字信息处理,由于计算机学界和语言学界的共同努力,取得了可喜的成绩,基本解决了“字处理”(汉字的计算机输入和显示等)的问题,“词处理”(中文自动分词、词性标注等)以及语音识别、语音合成等方面的研究获得了重大进展;(7)领域语言研究、专名术语研究相继展开,发表、出版了一批研究论著;(8)语言习得研究、语言认知研究和病理语言研究等也开始起步;(9)在辞书编纂方面,出版了一批质量较高的辞书,对提高全民族语言文字生活的质量发挥了重要作用;(10)语言文字国情调查即将完成。 “九五”期间,我国语言文字应用研究虽然取得了较大进展,但与社会主义现代化建设、社会语言生活发展的要求和广大人民群众的愿望相比,还存在一些不足和问题,例如:(1)专业人才短缺,经费投入不足;(2)定性研究较多,定量研究较少;(3)采用人工、传统

的研究手段较多,借助现代化手段较少;(4)面向人的研究较多,面向计算机和网络的研究较少;(5)语言规划研究、语言文字规范标准建设等,还存在着明显不足。语言文字应用研究既面临着前所未有的发展机遇,也面临着严峻的挑战。 (二)“十五”期间语言文字应用研究面临的形势与任务 随着改革开放的不断深入,社会主义市场经济体制逐步完善,国际国内的交流日益频繁,社会语言生活空前活跃。语言文字作为人们交际的基本工具,社会对其规范化、标准化的要求越来越高,语言文字工作的基础性地位和作用更加突出,工作任务和工作内容也具有了更加丰富的时代内涵。语言文字工作者和研究人员对此要有充分认识,对新的语言现象要进行跟踪记录和研究,并及时加以引导,使语言生活既规范有序,又充满活力。 《中华人民共和国国家通用语言文字法》已于2000年10月31日经第九届全国人大常委会第十八次会议审议通过,并于2001年1月1日起实行。它的诞生确立了普通话和规范汉字作为国家通用语言文字的法律地位,确定了普通话和规范汉字使用范围,是我国社会主义现代化建设的一件大事,标志着我国语言文字规范化、标准化工作开始走上法制化的轨道。语言文字应用研究要全面贯彻落实《中华人民共和国国家通用语言文字法》,积极、主动地为语言文字规范化、标准化建设服务。 今后五年,是贯彻《中华人民共和国国家通用语言文字法》、加强语言文字基础建设的关键时期,也是为国家信息化发展、现代化建

语言学常用术语

语言学常用术语

A List of Commonly-used Linguistic Terminology 语言学常用术语表 Part I General Terms 通用术语 Acquisition 习得 Agglutinative language 粘着语Anthropology 人类学 Applied linguistics 应用语言学Arbitrariness 任意性 Artificial intelligence (AI)人工智能Behaviorism 行为主义Behaviorist psychology 行为主义心理学 Bilingualism 双语现象 Cognition 认知 Cognitive linguistics 认知语言学Cognitive science 认知科学Comparative linguistics 比较语言学Computational linguistics 计算语言学 Corpus-linguistics 语料库语言学Creole 克里奥耳语;混合语 Culture 文化 Descriptive linguistics 描写语言学Design features 识别特征Developmental psycholinguistics 发展心理语言学 Diachronic/historical linguistics历时语言学 Dialect 方言 Dialectology 方言学 Displacement 不受时空限制的特性Dualism 二元论 Duality 二重性 Epistemology认识论 Etymology 辞源学 Experimental psycholinguistics 实验心理语言学 Formalization 形式化 Formal linguistics 形式语言学Forensic linguistics 法律语言学Functionalism 功能主义General linguistics 普通语言学Grammaticality 符合语法性Ideography 表意法 Inflectional language 屈折语 Inter-disciplinary 交叉性学科的Isolating language 孤立语 Langue 语言 Macro-sociolinguistics 宏观社会语言学 Mentalism 心智主义 Micro-sociolinguistics 微观社会语言学 Montague grammar蒙太古语法Neuro-linguistics 神经语言学Orthography 正字法 Orthoepic 正音法的 Paradigmatic 聚合关系 Parole 言语 Pedagogy 教育学;教授法Philology 语文学 Philosophy 哲学 Phonography 表音法 Pidgin 皮钦语;洋泾浜语Polysynthetic language 多式综合语Prescriptive linguistics 规定语言学Psycholinguistics心理语言学Psychology 心理学 Semeiology 符号学 Sociology 社会学 Speech 言语 Sociolinguistics社会语言学Structuralism 结构主义 Synchronic linguistics 共时语言学Syntagmatic 组合关系 Theoretic linguistics 理论语言学Universal grammar 普遍语法Universality 普遍性 Part II Phonology 音位学 Ablaut 元音变化 Acoustic phonetics 声学语音学Affricate 塞擦音 Allophone 音位变体

国内语料库建设一览表

国内语料库建设一览表 类型语料库名称及大小建设单位 英语学习者语料库(书面语及 口语) 中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学 平行语料库 汉英平行语料库PCCE 北外 南大-国关平行语料库南京大学 英汉文学作品语料库; 外研社冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研 究所柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所

英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语 料31万句子对 中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 英汉双语语料库(40-50万句子对) 哈尔滨工业大学 双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 特殊英语语料 库 中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学 汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学 中学语文教材语料库(1983年,106万8000字) 北京师范大学 现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学

相关文档