文档库 最新最全的文档下载
当前位置:文档库 › 语块语料库的建设

语块语料库的建设

语块语料库的建设
语块语料库的建设

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

中介语演讲稿

3.1中介语理论产生的历史背景 60年代是对比分析的兴盛时期。70年代初开始衰落,反映了一种历史的必然,因为这种理论方法无论在理论上还是实践上都面临着严重的危机。 因此,语言学家们为语言教师勾画了这样一幅图景:首先,语言学家们通过两种语言系统(L1和L2)的对比,为语言教师提供一个详细的菜单。这个菜单包括两种语言的相同点与不同点。然后,语言教师便依据这些不同点来预测学习者的难点,并据此来编写教学大纲和教材。但是后来的教学研究和实践证明,语言学家的许诺仅仅是一幅理想的图画而已。70年代初,对比分析遭到激烈的批评。如果第二语言学习者产生的错误完全可以通过两种语言的对比来预测。由此推论,语言的差异等于学习的难点,学习的难点必然导致语言表达的错误。问题是,语言差异是语言学上的概念,学习的难点则是心理学上的概念。学习的难点无法直接从两种语言差异的程度来推测。教学实践也证明,依据对比分析确认的难点事实上并不完全导致错误的产生。对比分析的理论方法存在的致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法去解决复杂的心理学的问题。语言习得涉及到学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的学习过程。由于对比分析在理论与实践上的危机,人们呼吁一种新的理论的诞生,并要求这种新的理论把目光投向学习的主体和客体。早期的中介语理论正是在这种历史背景下产生的。 3.2中介语的概念 于根元、鲁健骥等是在中国应用语言学领域,最早进行了介绍、评述和研究中介语的意义、特点和研究方法。我们来看他们是怎么界定中介语的。于根元认为,所谓中介语就是介于习得语和目的语之间的独立的语言系统,他是第二语言习得者创造的语言系统。鲁健骥认为,中介语指的是由于学习外语的人在学习过程中对于目的语的规律所做的不正确的归纳与推论而产生的一个语言系统,这个语言系统既不同于学习者的母语,又区别于他所学的目的语。 3.3中介语出现的根源 我们着重重复一下鲁健骥对中介语的定义:中介语指的是由于学习外语的人在学习过程中对于目的语的规律所做的不正确的归纳与推论而产生的一个语言

中介语

中介语简介中介语理论是二语习得中的一个重要理论,它产生于20世纪70年代初并于80年代初被介绍到我国,对我国的外语教学产生了巨大的推动作用,人们也逐步认识到中介语在外语教学中的积极作用。Selinker在其论文Language Transfer (1969)中首次使用了“interlanguage”一词,并于1972发表了题为Interlanguage的研究论文。Selinker认为,中介语是第二语言学习者独立的语言系统,在结构上处于母语和目的语的中间状态(1972)。 中介语在英语学习中的干扰作用 一、中介语定义及特点 中介语(Interlanguage, 简称IL)一词是英国语言学家Selinker 1969 年首次提出. 现在又被译为过渡语、中间语、中继语、语际语等。它是指学习者在某一段时间内所创建的内在语言体系或学习者在整个学习过程中所构建的相互关联的语言体系。学习者在学习和使用第二语言时,不断接受和理解新的语音、语法知识,在此基础上逐渐形成自己的语言结构。并不断对其进行系统的预测调整,通过归纳和推论产生中介语。中介语的语言系统在结构上处于母语(Native Language)和目的语(Target Language)之间,具有独立性,并兼有两者的特点。综合国内外近来的研究,中介语有如下一些特征: 1.独立性 中介语是一个独立的语言系统,它既不同于母语, 又区别于外语, 也不能单纯的把它地看作外语学习过程中由于受母语的干扰而形成的混合体。中介语有其独特的语言规则,这些规则常常被学习者用来解释外语中固有而不规则的语言现象。 2.阶段性 中介语在逐渐进化的过程中,具有一定的阶段性。它是一个开放的体系,不是固定的一成不变的。这个体系在不断被新知识渗透的同时,修正原有知识,逐渐接近目的语。 3.动态性 在外语学习过程中,学习者的中介语在不断的发展变化。虽然它充满了错误,但由于新的语言规则有及强的扩展能力,它们处于不断的组合和变化中,因此中介语随着学习者的努力和交际需要而不断变化,由简而繁,由低而高,逐渐离开母语而接近目的语。如果我们设在母语与目的语之间的中介语为一个连续体,那么,在某一特定阶段,学习者的中介语可以用连续体上的某一点。中介语越接近目的语,说明学习者的外语水平越高。 4.系统性 中介语在每个阶段都表现出较强的系统性和内部一致性。它也是一个由内部要素构成的系统,就是说它有语音的、词汇的、语法的规则系统,而且自成体系。学习者对中介语的使

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国 的发展趋势 一、语料库语言学的兴起与发展 语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。 在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。1996年广州外国语学院开始建立中国学生交际英语语料库。此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势 语料库语言学研究的发展总是以语料库的建设为基础的。没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。 (一)英语学习者语料库。其中包括书面语和口语。有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士 写作语料库MWC,12万词次。 (二)平行语料库。有北京外国语大学建设的汉英平行语料库PCCE;南京大学建设的南大———国关平行语料库;外语 教学与研究出版社建设的英汉文学作品语料库,冯友兰《中国哲学史》汉英对照语料库,李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库;北京大学计算语言学研究所建设的双语语料库,5万多对;香港城市理工大学建设的对比语料库LIVAC;台湾建设的平衡语料库Sinica Corpus和树图语料库Sinica Treebank;国家语言文字工作委员会应用研究所建设的计算机专业的双语语料库,柏拉图(Plato)哲学名著《理想国》的双语语料库;中国科学院软件研究所建设的英汉双语语料库,15万对;中国科学院自动化研究所建设的英汉双语语料库,包含LDC香港新闻硬汉双语对齐语料36 294段以及香港法律英汉双语对齐

interlanguage-theory-中介语理论

Interlanguage theory Interlanguage theory 1. Behaviorist learning theory The dominant psychological theory of the 1950s and 1960a was behaviorist learning theory. According to this theory, language learning is like any other kind of learning in that it involves habit formation. Habits are formed when learners respond to stimuli in the environment and subsequently have their responses reinforced so that they are remembered. Thus, a habit is a stimulus—response connection. Learning took place when learners had the opportunity to practice making the correct respond to a given stimulus. It should be clear that behaviorist account of L2 acquisition emphasize only what can be directly observed and ignore what goes on in the‘black box’ of the learner’s mind. Learners frequently do not produce output that simply reproduces the input. In short, learning is not just a response to external stimuli. 2. A mentalist(精神第一性论者) theory of language learning

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究 什么是汉语中介语 早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲) 早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。 早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。 中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。 目前中介语研究在方法上存在的问题: (1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。 有关中介语的研究 王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。 王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。(中介语研究的理论和方法进行了探讨) 彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。 ----------------------------------- 中介语研究的现状与发展 自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。20多年来,这一领域的研究发生了很大的变化。 1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》 中介语研究引起了普遍的关注 由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。 近年来中介语研究的进展表现之一是研究的范围进一步扩大。从语篇的角度研究学习者的中介语系统,早在上世纪80年代初就引起了国外学者的关注。在汉语习得研究领域,中介语

中介语理论研究

中介语理论研究与第二语言教学 [摘要]中介语理论是第二语言习得研究领域中的一个认知理论。分析和研究中介语产生的根源和特点有助于了解第二语言习得机制,揭示第二语言习得的发展过程和规律。对提高教学效果有重大意义。[关键词]中介语;特点;教学 第二语言习得研究在近40年间取得了令人瞩目的成就。随着研究的不断深入和发展,人们越来越重视第二语言习得的心理过程。中介语理论把第二语言学习者的语言看作是一个内在的语言行为。因此,中介语的研究对外语教学方法论有着重要的意义。 一、中介语的概念 中介语(interlanguage),也有人译为"过渡语"或"语际语",指的是第二语言学习者特有的一种目的语系统。是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于其第一语言也不同于目的语,随着学习的进展向目的语逐渐过渡的动态的语言系统. 中介语理论认为,第二语言学习者在学习过程中所掌握和使用的目的语是一种特定的语言系统,这种语言系统在语音、词汇,语法、文化和交际等方面既不同于自己的第一语言,也不同于目的语,而是一种随着学习的进展向目的语的正确形式逐渐靠拢的动态的语言系统。由于这是一种介乎第一语言和目的语之间的语言系统,所以称之为“中介语”。 与lnterlanguage (中介语)相近的概念最早由Corder在论文《学习者错误的意义》中提出,他把学习者尚未达到的目的语语

言能力的外语能力称为过渡能力( transitional competence)。美国语言学Selinker于1969年在论文《语言迁移》中首先提出中介语假说(interlanguage)的概念。1971年,W. Nemsers在《外语学习者的相似系统》中提出了“approximative system”的概念。1972年Selinker在其著名论文《中介语》中提出的中介语假说, 对“中介语”这一概念进行较详细的阐述,是试图探索第二语言习得者在习得过程中的语言系统和习得规律的假说,在第二语言习得的研究史上有重大意义。从而确立了它在第二语言习得研究中的地位。Selinker指出:“中介语是一个独立的语言系统,它产生于学习者试图掌握第二语言所做的努力。”根据塞格林的定义,中介语既可是指第二语言学习者在学习过程中某一特定阶段中认知目标语的方式和结果的特征系统,即一种特定、具体的中介语言,也可以指反映所有学习者在第二语言习得整个过程中认知发生和发展的特征性系统,即一种普遍、抽象的中介语语言体系interlanguage continuum塞格林还指出中介语本身是一个阶段到过程的双重系统和庞大体系,即母语→中介语→目标语系统中的一个必然成分和过程。在这个系统中二语学习者从母语出发经过中介语到达目标语。并指出要到目标语必须经过中介语,中介语是第二语言认知中的必经之路。 二、中介语的产生 应用语言学领域中产生了对比分析方法(20世纪中期)。它通过对人们的母语以及所要学习的第二语言的语音、语法、词法、

语料库建设及使用专题研修班

语料库建设及使用专题研修班 时间:2014年11月8-9日 地点:上海海事大学2C305(计算机实验室) 主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金 一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的 Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照 一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。 3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包

商务英语语料库的建设及应用

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(business english)是指商务场景下所应用到的英语,作为特殊目的英语(english for specific purpose)具有很强的专业性。商务英语跟普通英语(english for general purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有

一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的brown corpus以及lob corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的birmingham collection of english language text以及longman/lancaster english为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。

中介语是指第二语言学习者特有的一种目的语系统

中介语是指第二语言学习者特有的一种目的语系统,这种语言系统在语音、词汇、语法、文化和交际等方面既不同于学习者自己的第一语言,也不同于目的语,而是一种随着学习的进展向目的语的正确形式逐渐靠拢的动态语言系统。(吕必松)自然界和人类社会中都存在着大量的中间状态,人类的语言也是如此。人们学习语言的过程中,以及语言接触融合的过程中,都有所谓的中间状态。现代应用语言学理论把语言中的这些中间状态称为中介现象。语言中存在着大量的“中介物”语音方面,词语方面,语法方面还有御用方面都存在着大量的中介语,在语言规范的过程中,也存在着中介状态。 中介语的特点 1.是一个独立的语言系统 中介语在其发展过程中的任何一个阶段都是学习者创造的一种介于第一语言和目的语之间的独特的语言系统。它有一套自身的规律,在语音、词汇、语法等系统方面都有表现。学习者有意识地使用这套规则去生成或理解他们从未接触过的话语。中介语具有人类其他语言所具有的特点和功能,可以用作交际的工具。 2,,是一个动态的语言系统,新知识和新规则不断注入;原有的尚未学好的规则和结构也在不断修正调整。随着学习者语言水平的提高和交际需要的增长,中介语不断发展,并呈一定的阶段性,由简单到复杂、由低级到高级、逐渐离开第一语言向目的语靠拢。 3.反复性。 在对目的语的学习过程中,随着水平的提高,中介语是在逐步地向目的语的规范运动的,但这并不是说,这种接近是直线前进的,而是有反复、有曲折的,这就是中介语的反复性。已经纠正了的偏误还可能有规律地重现。 .具有顽固性(“化石化”) 语言的某些具体形式上学到了一定程度就停滞不前了。比如在语音方面,有的学生学了很长时间,到了高年级,还是掌握不了某几个音。我们把这种现象也称作“化石化”。 中介语理论在对外汉语教学中的运用主要体现在以下方面: (一)研究不同母语的留学生的中介语情况及其特点 (二)对外汉语教师要善于发现留学生母语和汉语的相同和相异之处,运用迁移理论恰当引导 (三) 采用多种教学方法,运用适当的教学策略,使留学生的中介语不断接近目的语

语料库语言学综合

语料库语言学基础知识 2008-09-11 01:45:34| 分类:学术|举报|字号订阅 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、

中介语理论及其在二语教学过程中的应用-最新教育文档

中介语理论及其在二语教学过程中的应用 一、中介语概论 中介语( interlanguage) 是第二语言习得研究中的一个重要的理论, 这个概念最早是由赛林格在1969 年提出的。在之后 的几年里,他又详尽地阐述了中介语的概念, 他在研究中发现在学习第二语言的过程中第二语言学习者会自觉地建立一个既相近于目标语, 却又不同于目标语,也不同于母语的一种语言体系从而提出了“中介语”这一概念。中介语既可以指第二语言学习者在学习过程中某一特定阶段中认知目标语的方式和结果的特征系统, 也可以指反映所有学习者在第二语言习得整个过程中认知发生和发展的特征性系统。 二、中介语的特性 中介语作为一种语言的过渡体系, 有着其自身的特点, 笔者以近年来国内外中介语研究结果为依据, 归纳出其特点主要有以下几个方面: 1.动态性 中介语作为自然语言之一,并不是固定的,而是不断变化的,但是它的变化呈现一种渐变的形式,这种变化不是瞬间改变,而是随着学习者对目标语语言知识和文化知识积累的不断丰富, 其

语言逐渐向目的语渗透, 在这个过程中学习者会不断改变自己的语言系统以向目标语言靠近。因此也有人把中介语的这个特点称 为“渗透性”。中介语没有稳定的终极状态, 也没有抵御其他语言, 不受其侵扰的能力。 2. 系统性 中介语虽然容易受到外界因素的影响而改变,但是改变的倾向也是有规律可循的,这些规则虽在变化,但也形成了一个有系列性的,不同于目标语也不同于母语的独立语言体系。以中介语语法为例,中介语语法体系虽然不如第二语言语法体系完善,但是它是一个有着自己的一套独特的语言、语法和词汇规则的相对独立的过渡语言系统。如“正迁移”,“负迁移”均是由理论指导的。二语习得者正是按照这套规则体系,更加自如地运用中介语,而像目标语言逐渐过渡。如果学习者能早一些发现这个系统的规律,体会到它的系统性,就会以更快,更高效的速率靠近目标语。 3. 反复性 由于中介语在变化时的形式不是直接的,跳跃的,而是在想目标语靠近时呈现逐渐渗透的形式。所以中介语在向第二语言逐步靠近的过程中必然会出现曲折和反复的现象。二语学

中介语理论

中介语理论 中介语理论(InterlanguageKTheory)是由Selinker等人最先提出 来的。所谓中介语是指第二语言学习者建构起来的介于母语和目 的语之间的过渡性语言,它处于不断的发展变化过程中,并逐渐 向目的语靠近。Selinker的中介语理论重点强调了第二语言学习 中三个方面的问题,①什么样的认知过程负责中介语的建构?② 中介语知识系统的性质如何?③为什么多数第二语言学习者不能 完全获得目的语的语言能力? KKSelinker认为,负责中介语建构的认知过程有五种,它们是: 语言的迁移(language transfer);训练的迁移(transfer of training);第二语言学习的策略;第二语言交际的策略;目的语 材料的过度泛化(overgeneralzation)。Selinker认为,学习者形 成的中介语知识系统实际上是一系列心理语法,学习者利用这些 语法来解释和产生言语。这些心理语法是动态的、易于变化的, 随着学习的不断深入,中介语知识系统包含了越来越复杂的心理 语法。Selinker认为,在第二语言学习过程存在着语言僵化(fossilization)现象。它是指某些非目的语的语法、语音等长期存 在于中介语中,并且不易改变的现象。由于存在着语言僵化现象,使得多数学习者不能完全获得目的语的语言能力。

KK中介语理论后来有所的发展,但讨论的问题主要集中在中介 语的三个特征方面:①中介语具有可渗透性,即组成中介语的规 则并不是固定不变的,它可以受到来自学习者母语和目的语的规 则或形式的渗透。②中介语具有可变性,即中介语是不断变化的,这种变化不是从一个阶段突然跳到下一阶段,而是不断的借助 “假设-检验”手段,缓慢地修改已有的规则以适应目的语新规 则的过程。③中介语具有系统性,即中介语是相对独立的语言系统,它具有一套独特的语音、语法和词汇规则体系。 KK中介语理论是较早用认知观点解释第二语言学习的理论模型,其重要意义首先在于它把第二语言学习看作是一种心理过程,并 提供了一个理论框架来解释这种心理过程,而且这种理论为后来 人们采用实验的方法研究第二语言的学习提供了理论基础。其次,Selinker提出的中介语概念,从认知心理学的角度来看,它实际 是语言知识的一种表征。因此这一概念的提出为后来认知理论进 一步探讨这一表征的性质,及这种表征在第二言语学习中的作用 打下了理论基础。Selinker中介语理论的不足主要在于它并没有 明确说明中介语系统是如何发展变化的,也没有说明中介语系统 是怎样影响语言输出的。

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表 类型 语料库名称及大小 建设单位 英语学习者语料库(书面语及口语) 中国学习者语料库CLEC(100万) 广外、上海交大 大学英语学习者口语语料库 COLSEC (5万) 上海交大 香港科技大学学习者语料库 HKUST Learner Corpus

香港科技大学 中国英语专业语料库CEME (148万) 南京大学 中国英语学习者口语语料库 SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大 硕士写作语料库MWC (12万) 华中科技大学

平行语料库 汉英平行语料库PCCE 北外 南大-国关平行语料库 南京大学 英汉文学作品语料库; 外研社 冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;

国家语言文字工作委员会语言文字应用研究所 柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所 英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 中国科学院自动化研究所 英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 英汉双语语料库(40-50万句子对) 哈尔滨工业大学

双语语料库(5万多对) 北京大学计算语言学研究所 对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 特殊英语语料库 中国英语(China English)语料库 河南师范大学 军事英语语料库(Corpus of Military Texts)

中介语特点及其在语言学习中的应用

中介语特点及其在语言学习中的应用 摘要:中介语是二语习得中一个非常重要的学术概念和研究课题,具有系统性、可变性、可渗透性等特点。石化是中介语发展过程中一个不可避免的现象。了解中介语的基本特征,有助于我们把握语言习得的自然规律和过程,为外语教学方法、教学策略的确定提供理论依据。 关键词:中介语;石化;外语教学 一、中介语具备的特点 (一)系统性 系统性指中介语的规则是系统变化的。在语言学习者的动态学习过程中,其语言能力始终处在不断重组、矫正和不断向目的语规则接近的过程中。学习者利用已知的目的语规则,采用不同的语言策略对语言材料进行加工处理,从而重建其规则系统。这种变化并非毫无规律可循,而是呈现一定的系统变化性。这从语言习得顺序研究和错误分析研究结果可见一斑。如果学习者用自己在某一特定学习阶段的中介语系统来衡量自己的学习能力,其中介语就无所谓对错。 (二)可变性 中介语是一个动态的语言系统,随着语言学习者语言水平的提高和交际的需要,新的语言规则进入中介语系统后具有扩散能力,使得中介语系统处于不断的重组之中,并由简单到复杂,逐渐向目的语靠拢,即具有逐渐进化的特征,其发展具有一定的阶段性,是一个灵活的、不断变化的体系。可变性是中介语中复杂而又富有相当研究意义的概

念,主要包括系统可变性和非系统可变性。 (三)石化 对于存在于中介语中的石化现象,Selinker给出的定义是:它是存在于外语学习者的中介语中的一些语言项目、语法规则和系统性知识趋于固定下来的状态。年龄的增长和目的语知识的多少也无法改变这种固定状态。关于中介语石化现象的起因有许多观点,我们这里只涉及“外因说”。它的代表理论是Schumann提出的文化迁移模式。它是指由于学习者在社会和心理方面与目的语保持一定距离,于是在语言处理过程中记忆和输入的操作过程就受到了限制。在这种情形下,学习者往往只能依赖与其自身的母语和中介语进行语言处理。如果长期以不完善的中介语来处理语言,就会导致中介语的石化。 Ellis所提出的“相互作用论”更能解释石化现象产生的外在原因。它是指学习者在现象和交流过程中所得到的反馈怎样影响或作用于学习者。它包括两个观点:1. 学习者在第二语言学习的课堂内所获得的不正确的语言输入有时被当作或起到语言输入的作用,从而导致了学习者的语言错误的沉淀,即石化。2. 第二语言学习的课堂活动中的反馈对学习者可产生肯定的、中立的或负面的影响,而学习者对肯定的反馈特别容易引起石化。 (四)可渗透性 语言学习者的中介语系统是开放的,即每一个阶段学到的知识不是固定不变的,而是可以修正和增加,这可以通过语言学习者在学习过程中对语言知识的再加工和重组而实现。这种开放性决定了它的可渗透

相关文档