文档库 最新最全的文档下载
当前位置:文档库 › 北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范
北京大学现代汉语语料库基本加工规范

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

现代汉语常用词表

现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残 秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181 个,双音节词语40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

《现代汉语》北大汉语教研室 北大版(语音部分详解)

现代汉语语音部分笔记 现代汉语语音部分主要参考书目 北京大学中文系现代汉语教研室编,《现代汉语》,商务印书馆,1993年 黄伯荣、廖序东主编,《现代汉语》(第二版增订本),高等教育出版社,1997年 胡裕树主编,《现代汉语》(重订本),上海教育出版社,1995年 林焘、王理嘉,《语音学教程》,北京大学出版社,1992年 现代汉语界定·汉语共同语发展简况 现代汉语广义上指“五四”以来汉民族的交际语言,包括共同语和各种方言;狭义则专指现代汉民族的共同语——普通话。普通话是在汉族内部通过长期的互相交往在方言的基础上逐渐自然形成的。汉语的书面形式和口头形式形成共同语的历史过程不同,分述如下: 我国很早就有共同书面语,汉代所谓“通语”(见扬雄《方言》)就是全国通行的语言。古代正统书面语文言文最初基于口语产生,但这种书面语传统一旦形成,就逐渐与口语脱节,最终成为大众难以读懂的语言。唐末(公元九世纪)以后,民间逐渐产生一种与口语直接联系的新的书面语言,后来称作“白话文”,是今天普通话书面形式的源头。白话文到了宋元之际(公元十二三世纪)已经相当成熟,明清以来又涌现了大量白话文学作品。这种书面语是在北方话的基础上形成的,它通行于全国,在相当大的程度上带有民族共同语的性质。书面语中向来是文言文占统治地位,直到“五四”运动以后“白话文运动”的兴起,才使白话文取得正式书面语言的地位。 汉语共同语的口语形式出现得比书面形式晚。至迟在十四世纪,一种后来被称为“官话”的共同口语已经在北方话的基础上形成,而这种口语至少到清代就已经相当通行。

因为北京长久以来的政治、经济、文化中心的地位,北京话在官话的形成过程中成为最有影响的方言。到了“五四”时期,“国语运动”与“白话文运动”同时兴起,“国语”这一名称取代了“官话”的提法。两种运动互相推动,互相影响,使民族共同语的书面形式和口头形式得到前所未有的发展。新中国成立后,开始用“普通话”称呼现代汉民族共同语。 煜按:北大版《现代汉语》未提“雅言”一说,大概是不认可它的共同语地位;把“通语”处理成书面形式的共同语,而非共同口语形式。并且“通语”只是就文言 文的发展而言,并非“现代汉语”所着重追溯的源头,现代汉语书面语的源头是早 期白话文。所以那种“雅言-通语-官话-国语-普通话”的发展脉络不为所用, 是因为雅言的共同语特征不明显,通语不是完全的口语形式;雅言和通语不是现代 汉语的直接源头。所以要注意两点:一、着重的是现代汉语的直接来源;二、分为 口语(官话…)和书面语(白话文)两种形式。 汉语方言分歧很大,非常复杂,根据方言的主要特点,大致可以分为七大方言:一、北方方言:以北京话为代表使用人口:约占汉族总人口百分之七十 分布区域:长江以北汉族居住区,长江以南镇江以上、九江以下的沿江地带,湖北(东南一带除外)、四川、云南、贵州四省、湖南省西北一带 说明:北方方言是普通话的基础方言,分布地域最广,使用人口最多,内部一致性较强。包括四个次方言区:

现代汉语课后习题答案(全)

第一章绪论”习题答案 “绪论”思考和练习一 一、什么是现代汉民族共同语?它是怎样形成的? 现代汉民族的共同语就是“以北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范的普通话”。 现代汉民族共同语是在北方话基础上形成的。在形成的过程中,北京话占有特殊的地位。早在唐代,北京已是北方军事要镇。北京是辽、金、元、明、清各代的都城。近千年来,北京一直是我国政治、经济、文化的中心,北京话的影响越来越大。一方面,它作为官府的通用语言传播到了全国各地,发展成为“官话”,另一方面,白话文学作品更多地接受了北京话的影响。 本世纪初,特别是“五四”运动以后,掀起了“白话文运动”,动摇了文言文的统治地位;另一方面,“国语运动”的开展促使北京语音成为全民族共同语的标准音。两个运动互相推动和影响,这就使得书面语和口语接近起来,形成了现代汉民族共同语。 二、共同语和方言的关系是怎样的? 方言是一种民族语言的地方分支或变体,是局部地区的人们所使用的语言。一民族语言的共同语,则是通用于这个民族全体成员的语言。对于各地方言来说,规范化的共同语是民族语言的高级形式,它比任何方言都富有表现力。共同语形成后,对于方言的语音、词汇、语法都有一定的影响。它的词语经常传播到各方言中去。规范化的共同语,往往促使地域方言向它靠拢,对方言的发展起一种制约的作用。与此同时,共同语也要从方言中吸收种种语言成分,以丰富和发展自己。但是,地域方言间差异的缩小,以至于消失,则须经过一个长期而复杂的过程。 “第二章语音”习题答案 “语音”思考和练习一 四、语音具有物理属性、生理属性、社会属性。 “语音”思考和练习二 二、普通话声母的发音部位和发音方法各包括哪几种?请画成一个总表把声母填上。 普通话声母的发音部位包括双唇、唇齿、舌尖前、舌尖中、舌尖后、舌面、舌根七种。发音方法,从阻碍的方式看,包括塞音、擦音、塞擦音、鼻音、边音五种;从声带是否颤动看,包括清音、浊音两种;从气流的强弱看,包括送气音、不送气音两种。声母总表(略)。 三、根据所提供的发音部位和发音方法,在下面横杠上填上相应的声母。 1.双唇送气清塞音是p。

【最新试题库含答案】北大现代汉语练习题及答案_0

北大现代汉语练习题及答案 : 篇一:北大现代汉语练习题附答案 绪论 一、填空题 1.语言是一定__语音_和一定__语义_的结合体,是作为人类最重要的交际工具的符号体系。 2.按照信息论的观点,运用语言进行交际的过程就是信息交流的过程,也就是通过信息的编码、发出、传递、接收、解码的过程。 3.恩格斯曾经说过,语言是从______劳动_______中并和__劳动_____一起产生出来的。 4.从语言自身的特点看,语言是以语音为物质外壳,以语汇建筑材料,以语法为结构规律而构成的一种符号体系。 5.语言学是研究________语言_____的科学,其研究对象就是_______人类的语言______。 6.现代汉语有广义和狭义的区别,狭义的语言学是指_研究普通话的科学,而广义的语言学在此基础上还包括__方言的研究________。 7.现代汉民族共同语又叫__普通话,它是以___北京语音___为___标准音_,以____北方话_为___基础方言_,以_典范的现代白话文著作_为_语法规范_的_____普通话___。 8.现代汉语有口语和书面语两种形式,其中书面语依赖口语而存在,口语是书面语的存在基础,先有口语而后才有书面语。 9.―五四‖以来开展的―白话文运动‖和―国语运动‖,促进了书面语和口语的结合。

10.方言是某一地区内的人们所使用的语言,它是全民语言的_分支,是语言的地方变体。 11.北方方言是以北京为中心的,是现代汉民族共同语的基础,它又分为四个次方言区,分别是_华北东北、西北、西南、江淮。 12.现代汉语规范化就是确立现代汉民族共同语的明确的、一致的标准,并且_使之消除各个方面存在的一些差异。 13.1973年12月8日,联合国大会第28届会议一致通过,把汉语列为联合国和安理会的六 种工作语言之一,其余的是英语、俄语、法语、西班牙语、阿拉伯语等。 14.普通话的―四用语‖是教学用语、工作用语、宣传用语、交际用语。 15.普通话的三级标准是相当标准的普通话,语音、词汇、语法很少差错;比较标准的普通话,方言不太重,词汇、语法较少差错;一般普通话,不同方言区的人能够听懂。 16.现代汉语课的内容包括六个部分,有_绪论、语音、文字、词汇、语法、修辞。 17.现代汉语的方言按照历史渊源和目前的特点分为北方方言、吴方言、赣方言、客家方言、湘方言、闽方言和粤方言共七种方言。 18.与印欧语和古代汉语比较,现代汉语总的特点是:语音元音占优势,每个音节都有声调,词汇双音节词多,词汇丰富;有丰富的量词、语气词,语法语序和虚词是最重要的语法手段。 19..语言是人类独有的交际工具,这主要从单位的明晰性、表义的任意性以及传授性就可以论证出来。 20.按现代汉语方言分区,江西南昌话属于赣方言区,南京话属江淮方言方言。

北京大学中文系现代汉语教研室《现代汉语》配套题库【课后习题】(绪论)

第1章绪论 复习和思考一 一、语言和文字对促进人类社会的发展有什么作用? 答:语言和文字都是人类在漫长的进化过程中,世代积累,逐渐形成的,它使人类社会的发展产生了质的飞跃。 (1)语言是人类最重要的思维工具,利用语言人类认知世界,积累经验,交流信息,发展文化,协调社会生产和社会生活。有了语言,人类才能成为万物之灵。 (2)记录语言的书面符号是文字,有了文字,社会群体在长期历史发展中积累形成的文化技术和精神文明才能继承传播,绵延不绝发扬光大。语言和文字相辅相成,使人类进入了科学文化飞速发展的文明时代。 二、简单说说与其他语言(例如英语)相比,汉语和汉字有什么特点。 答:汉字是根据汉语自身的特点而创制的: (1)汉字是一种以方块结构形体,表示汉语中最小的音义结合体的语素文字。汉字和汉语的内在联系表现在作为书写单位的汉字,在语义上是与最小的表义单位——语素相对应的,在语音上是与言语中最自然的发音单位——音节相对应的。汉字、音节、语素,在汉语中总体上是一一对应的。而英语中的拉丁文字是表音不表意的拼音文字。 (2)汉字与世界上广泛通行的拉丁化拼音文字最本质的不同是汉字是由形、音、义三方面组成的,学习汉字的同时,也就是在掌握言语中可以构词造句的最小的语言单位。

三、为什么说汉语在相当长的历史时期内,曾经同时并存着两种书面语言系统? 答:从书面语言资料看,汉语在长期的历史发展中,曾经在相当长的一个历史时期内,同时并存着两种文学语言,即两种书面语言系统: 一种是“文言文”,即在先秦口语基础上形成的上古书面语言以及后代采用和模仿这种书面语言写作的各类文献著作。它与现代汉语差别很大,占有书面语言的正统地位。 另一种是“古白话”,即魏晋六朝以来在北方话口语基础上逐渐发展形成的书面语言,它与当时的口语十分接近,大都用于通俗文学和笔记语录。它与现代汉语比较接近,是现代汉语的直接源头。 四、现代汉民族共同语发展的两个历史阶段有什么不同? 答:现代汉语民族共同语的发展通常分为两个阶段:第一个是初级阶段,它是在社会地区交流中自发形成的,没有固定语音标准,如明末清初逐渐形成的由官场共同语发展成为公众语言的官话;第二种是高级阶段,它是人为推广的有明确规范的语言,民族共同语由自发走向自觉,并借助政府、社会的力量积极地加以推广,如民国初期的国语。经过加工规范的共同语是民族共同语的最高形式,也就是汉民族共同语的标准语。 五、简单说说,汉语史的科学分期对汉语的研究有什么意义。 答:汉语史科学分期的探讨有助于深入研究汉语的发展变化以及各时期的语言特点及其相互之间的渊源关系,有很重要的意义。 具体来说,语言的发展是渐变的、缓慢的,各时期各阶段很难划出一条绝对的界限。另外,从不同的角度根据不同的标准也可以做出不同的划分。就语言本体说,语言三要素中的

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

北京大学现代汉语考研真题回忆

北京大学现代汉语考研真题回忆 ——整理者:黎建军 语音部分 1、下列各词语中普通话读音有哪些语流音变现象?按组加以说明。(1)语言海水电视 (2)电报面食辛苦 (3)五个哑巴看见 (4)芝麻热闹头发 (5)意思豆腐客气 2、从语音和词汇两方面说明普通话和北京话的异同。 3、用严式音标标写下列汉字的读音,然后考察主要元音的分布状况,作出音位归纳。 割遏煤接学灯根二什么 4、举例说明儿化韵中包括哪些语流音变现象? 5、介音对普通话的音节结构以及语音的系统性有什么作用? 6、用音位学的观点说明汉语拼音方案哪三个字母代表的语音可以兼用其他一组字母来代替的? 7、为什么平上去入四声中,一般方言都保存有平上去三声而入声却在很多方言中年消失? 8、普通话“以北京音为标准音”,是否指普通话音跟北京话语音是完全一致? 9、以普通话为例,说明声调对韵母读音的影响以及韵尾对韵腹读音

10、以“小组长”和“党小组”为例,说明在三字词中,为什么连上变调有12种不同的标调格式? 11、普通话的前高不圆唇元音和舌尖元音,拼音方案里为什么只用一个字母去表示,这对舌面辅音跟舌根辅音、舌尖前辅音、舌尖后辅音的音位归纳有什么影响? 12、举例说明汉语拼音方案中iou、uei、uen在跟声母相拼时省写主要元音的根据。 13、从组合关系和聚合关系说明普通话音节结构特点。 14、列举出现在普通话儿化韵中的卷舌元音,并发表你对儿化韵音位分析的意见。 15、汉语方言中哪些地区有入声?这些地区的入声有哪些不同的表现? 16、用国际音标描写普通话语气词“啊”在音节连续中的语音变化,并说明原因。 17、举例说明下列各组概念: (1)声母和辅音 (2)央元音和中元音 (3)声调和轻声 18、现代汉语普通话中元音实际读音情况很复杂,但汉语拼音方案只用了不多的元音字母就可以加以区别,这是为什么? 19、下面书面形式相同的述宾短语可以有两种切分,它们在语音上有

现代汉语常用词表

现代汉语常用词表(草案) 现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则

本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

北大现代汉语练习题及答案

绪论 一、填空题 1.语言是一定____和一定____的结合体,是________________的符号体系。 2.按照信息论的观点,运用语言进行交际的过程就是信息交流的过程,也就是通过信息的____、____、____、____、____的过程。 3.恩格斯曾经说过,语言是从______中并和______一起产生出来的。 4.从语言自身的特点看,语言是以____为物质外壳,以____建筑材料,以____为结构规律而构成的一种符号体系。 5.语言学是研究________的科学,其研究对象就是_______。 6.现代汉语有广义和狭义的区别,狭义的语言学是指______________,而广义的语言学在此基础上还包括_________。 7.现代汉民族共同语又叫____,它是以________为______,以______为________,以______________为_____的_______。 8.现代汉语有口语和书面语两种形式,其中______依赖____而存在,____是____的存在基础,先有____而后才有_____。 9.“五四”以来开展的“______运动”和“____运动”,促进了书面语和口语的结合。 10.方言是___________所使用的语言,它是全民语言的____,是语言的_____。 11.北方方言是以____为中心的,是__________的基础,它又分为四个次方言区,分别是_________________________。 12.现代汉语规范化就是确立______________的明确的、一致的________,并且________________________。 13.____年12月8日,联合国大会第__届会议一致通过,把汉语列为联合国和安理会的六种______之一,其余的是__、____、____、________、________等。 14.普通话的“四用语”是________、________、________、______语。 15.普通话的三级标准是_________________________________;_________________________________________;________________________________。 16.现代汉语课的内容包括六个部分,有____、____、____、____、____、____。 17.现代汉语的方言按照历史渊源和目前的特点分为北方方言、______、______、________、湘方言、闽方言和______共七种方言。 18.与印欧语和古代汉语比较,现代汉语总的特点是:语音__________,____________,词汇__________,_________;____________、________,语法______________________。 19..语言是人类独有的交际工具,这主要从____________、_____________以及_________就可以论证出来。 20.按现代汉语方言分区,江西南昌话属于__方言区,南京话属________方言。 二、判断题 1.语言是人类最重要的交际工具之一。 2.作为交际和交流思想的工具是语言最本质的特征。 3.文字、手势、表情、旗语、眼神、甚至是一定的时间和空间等也是人类的交际工具。 4.人类以外的其他动物中,有的经过一定的训练也可以具备掌握语言的能力。 5.语言的发展是渐变的,但是也不能排除其突变性,尤其在大动荡大变革的历史时期。 6.语言各个要素都是在不断发展的,但发展是不平衡的。 7.语言是伴随着社会的产生而产生,随着社会的发展而发展的。 8.语言是人类区别于其他动物的本质特征之一。 9.就汉语的情况而言,语言大约产生于原始社会后期。 10.人们的思想观念属于社会意识范畴,因此表达思想观念的工具—语言也属于这一范畴。 11.语言符号的任意性主要是指人们可以利用语言中的词和语去指称世界上的任何事物。 12.一种语言中的语言符号多得难以计算,并且还在不断地变化中,所以显得有点杂乱无章 13.思维的成果必须用语言来巩固、来表达,思维的过程却不一定需要语言的帮助。 14.内部语言是没有交际作用的,它往往是一种内心的思考。 15.语言单位存在于集体意识之中,是脱离于具体说话的思想和感情而存在的。 16.应用语言学主要研究语言中词、短语和句子的具体运用问题。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

现代汉语常用词表(2)

现代汉语常用词表(草案) 1 .范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如

以表示季节为根词的一些词,全部收录它的加缀词“初春” “初冬”“初

秋”“初夏”,但对于“‘晚‘+季节”的词语,只收录“晚春”“晚秋”,未收 录“晚冬”“晚夏”;对于“‘残‘+季节”的词语,只收录“残冬”未收录“残 “残秋”“残夏”。 库、 华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以 及Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分 词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注 语料和厦门大学的现当代文学作品语料库约 7 000万字的语料。总共2.5亿字。 4.3本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351 个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。 表内 条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音 序排列, 同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不 代表词语的读音规范。 春” 4. 《现代汉语常用词表》(草案)说明 4.1本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料 厦门 大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新

相关文档
相关文档 最新文档