文档库 最新最全的文档下载
当前位置:文档库 › HSK 动态作文语料库

HSK 动态作文语料库

HSK 动态作文语料库
HSK 动态作文语料库

“HSK 动态作文语料库”简介张宝林

“HSK 动态作文语料库”是由国家汉办

立项、由北京语言大学崔希亮教授主持的一

个科研项目。项目编号为:HSK01 -05/023 。1.开发的原因

HSK 高等汉语水平考试自1993 年开始

正式实施,作文考试作为其中的主观性考试

之一,经过11 年的积累,已有2 万多篇考生

作文,而且还在逐年增加。这些考生作文对

对外汉语教学与研究来说是不可多得的宝贵

财富,具有多方面的价值,如果加以充分利

用,可以发挥十分重要的作用。然而,长期以

来这些作文并没有得到及时的整理和充分的

开发利用,甚至可以说完全没有得到利用,而

是常年闲置在仓库中,这是非常可惜的。如

何尽快加工整理这些语料,使其为对外汉语

教学和研究服务,发挥其应有的作用,是我们

当前面临的一个十分紧迫的重要任务。

“HSK 动态作文语料库”正是针对上述

情况而设计的科研项目。

“HSK 动态作文语料库”将收集自1992

年以来(1992 年的作文答卷为试测答卷)历

年汉语水平考试高等考试的全部作文答卷,

全面而完备;而且,作为动态的语料库,随着汉语水平考试的不断进行,语料的不断增加,语料库将不断得到充实。

2.语料库的组成:

(1)原始语料库:收入历年汉语水平考

试高等考试所有考生的作文答卷;

(2)考生信息库:记录考生的相关信息。

包括考生姓名(以代码形式出现)、国别、性别、年龄、母语、汉语学习时间、作文长度、作文分数、口试分数、客观试卷中听力、阅读、综合各部分分数和客观卷总分分数、汉语水平

等级、考试时间、考试地点等;

(3)字信息库:包括字频统计、错字类型

分析、错字数量统计、别字类型分析、别字数量统计、繁体字数量统计;

(4)词信息库:包括分词、词频统计、词

性标注、词类统计、词类偏误类型分析、词类偏误统计分析;

(5)句信息库:包括考生使用的汉语基

本句型统计、考生使用的汉语特殊句式统计、

基本句型错误类型统计与分析、特殊句式错误类型统计与分析;

(6)篇章信息库:包括句间连接手段的

统计与分析、句间关联词语使用情况的统计与分析、省略的统计与分析、语义表达手段的统计与分析;

(7)各种计算机辅助程序:包括语料库

的管理软件和检索软件,新增语料的加工处理软件与分类入库软件。

3.研制的目的与意义

“HSK 动态作文语料库”的研制,首先将

为汉语水平考试研究提供一个基础平台。例如主观性考试的客观化评分问题,特别是利用计算机进行阅卷评分的问题,是一个亟待解决的问题,又是一个很难解决的问题,其主测试研究37

·2003 年第四期(总第4 期)·

要原因之一是无法对考生的主观性试题答卷进行规模分析。作文考试是主观性考试,目前采用的评分方法是总体等级评分,评分标准共分5 级,又强分为12 个小级;由2 名阅卷员交叉阅卷,分别打分,最后取平均分作为

考生的作文成绩。这样的方法,不仅费时费力,而且往往受到阅卷员的兴趣爱好、欣赏习惯、心态情绪和疲劳程度等多种主观因素的

影响和干扰,从而造成评分时的误差,这对考生显然是缺乏应有的公正的。因此,最大限

度地降低乃至排除主观性试题评分的主观

性,实现客观有效而又快捷迅速的作文评分

计算机化,是研制本语料库的直接目的。“HSK 动态作文语料库”是母语为非汉

语的外国人(另有部分国内少数民族考生)学习汉语的中介语语料库。据我们所知,目前

国内外汉语中介语语料库只有一个,即储诚志、陈小荷等研制的“汉语中介语语料库”。汉语水平考试方面的语料库尚付阙如,中介

语的动态语料库(即可以随时或定期更新的语料库)也属未见。因此,“HSK 动态作文语料库”可以填补国内外汉语中介语语料库研

制的一项空白。

运用本语料库,可以进行多方面的研究。

例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉语本体研究,等等。这些

研究对提高汉语教学、汉语测试、汉语本体研

究的水平,都具有重要意义。

本语料库是中国汉语水平考试高等作文

考试考生答卷的第一个语料库,将对以往历

年考试的作文答卷进行全面整理,从而彻底

改变以往作文答卷管理中的混乱局面。因

此,本语料库的建立标志着对考生作文答卷

的管理,开始向着规范化、科学化和现代化的

方面迈进。

建构本语料库的根本目的是为对外汉语

教师和研究者提供一个基础平台,为对外汉

语教学和研究服务,以促进国内乃至全球对

外汉语教学事业的发展。本语料库建成后,

将交由国家汉办提供给对外汉语教学的同行

使用,并将在国家汉办允许的前提下,把它放

在北京语言大学科研互动网的网页上,公开

展示,供对外汉语教学领域的研究者免费浏

览、使用(限于非商业目的),也向对汉语教学和汉语研究感兴趣的其他各界人士免费开放

(限于非商业目的)。使用本语料库的人越

多,才越能体现本语料库的价值,也才能真正

发挥它的作用。

(作者介绍:张宝林,副教授,现任职于北京语言大学汉语水平考试中心。)

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

2020年雅思写作语料库:科技时代传统教育是否还有价值

2020年雅思写作语料库:科技时代传统教育是否还有 价值 考试真题(2020年9月12日): Some people think that students at schools and universities learn far more from teachers than from other resources(the Internet or television). To what extent do you agree or disagree? 有人认为:对于其他的学习渠道,例如网络教育 或者电视教育,学生在学校和大学能够和老师学习更多,是否认同? 【类似题目】: Some people think that computers and the Internet are more important for a child's education than going to school. But others believe that schools and teachers are essential for children to learn effectively. Discuss both views and give your own opinion. 有人认为计算机和互联网对于孩子的教育比 去学校有效,有认为老师和学校对于孩子的高效学习更加重要,讨论 两种观点? 【薛鹏点评】: 如果雅思备考仅练习一篇文章,本题首选,关于网络教育和课堂 教育的比较,每年必考。练习本篇,教育类话题融会贯通。 【薛鹏感言】: 我是如何做出预测的:对20年考试题库的整理、分类、考频统计。归类考题类型、核心母题、边缘考题。无论考试如何变化,我相信热 题恒热、遗漏太久、必然回补。网络教育和课堂教育每年的考频1-2次,必然会考,意料之中。仅仅,不知你是否还信赖小鹏哥:惯性阅

雅思写作词句语料库(双页)

adolescent(s)/juvenile(s)/youngster(s)/youth(s) n.青少年 adolescent adj.青春期的 parenting/upbringing n.家庭教育,教养 schooling n. 学校教育 aptitude/talent (for) n.(有……的)天赋 cultivate/foster/nurture v. 培养 specialist n.专才 generalist n.(有多方面知识和经验的)通才 all-rounded/well-rounded/versatile adj.全面的,多面的,多才多艺的awareness/sense/recognition n.意识 the development of students’personality and values 学生个性和价值观的发展mould (or mold美式拼写) one’s character塑造某人的性格 mould (or mold美式拼写) sb. into sth. 把某人塑造成…… a (or the ) sense of responsibility (or duty/obligation)责任感 improve moral standard 提高道德标准

小、

,例如色情和

delete/eliminate/excise v. 删除evaluate v. 评价、评估 the evaluation on 对……的评价或评估 be ?ooded (or ?lled/awash/saturated/inundated) with... 充斥着 excessive and gratuitous violent and pornographic contents 过多的、无端的暴力与色情内容 at the expense/cost of 以……为代价 media hype 媒体炒作advertising hype 广告炒作 hype n. 炒作,大肆吹捧 v. 对 ……大肆宣传,吹捧commercial(s) n. 商业广告public service advertising 公益广告 evoke (or stimulate) impulse buying 刺激冲动性购物shopaholic(s) n. 购物狂promotion n. 促销 marketing tool 市场营销手段 induce sb. to do sth. 诱导或引诱某人做某事 target audience 目标受众sensationalise (or sensationalize 美式拼写) /exaggerate v. 耸人听闻地夸大某事,大肆渲染 over-report...to hook viewers and maximise pro ?ts 为了利益最大化,从而过度报道……来吸引公众的眼球 道德规范(尤指职业的) 良好的/较强的/无懈可击的职业道德adj. 无所不在的,普遍存在的……的流行或盛行对……有着深远的影响 揭露社会问题 监督非常详尽地报道…… 如实的描述、报道adj. 有新闻价值的,有报道价值的adj. 最新的,及时的adj. 客观公正的adj. 不客观的,有偏见的 adj. 可信的,可靠的 adj. 令人误导的,不如实报道的,曲解的adj. 虚假的adj. 欺骗性的 adj. 信息量大的,增长见闻的adj. 娱乐性的,令人愉快的 v. & n. 审查n. 审查制度 对……实施审查 v. 影响,左右 (e.g. sway sb./sb. be swayed by... 影响某人或者某人受到影响)

HSK语料库体例说明

HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

“HSK动态作文语料库”说明

“HSK动态作文语料库”说明 1 “HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。项目编号为:HBK01-05/023。 2 “HSK 动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库,收集了1992-2005 年的部分外国考生的作文答卷。语料库1.0 版收入语料10740 篇,约400 万字,于2006 年12 月下旬上网试运行。经修改补充,语料库1.1 版语料总数达到11569 篇,共计424 万字。 3 语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。 4 作文语料的加工处理包括下列内容: (1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。 (2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。 (3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。 (4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。 (5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。 为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。 5 本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。 6 本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。例如汉语中介语研究、第二语言习得研究、对外

雅思写作语料库--小组学习和自己学习

Some people believe that students should study in groups. Others think that they should study alone. What are the benefits of studying in groups and studying alone? Which way is more effective? 有人认为学生们应该小组学习,有人认为学生们应该自己学习,小组学习和自己学习利好各在哪里,你认为何种方式有效? 【思路拓展】 小组学习的利好: 1. 小组讨论,集思广益,例证展开:小组讨论数学题的解题思路,小组讨论作文的头脑风暴。 2. 有良好的学习氛围,可以帮助缺乏自律性的孩子们专注于学习,提高学习效率。 3. 有效的方式结实新朋友,锻炼人的口才,交流能力以及团队精神。 自己学习的利好: 1. 培养了自己的独立思考以及解决问题的能力,学习上不会对他人产生过度的依赖。 2. 小组学习更加容易培养人的分析性思维,理性思维和辩证思维的能力。 点评:论据支持可以学习历史和哲学,以及中学生学习国际新闻 【作者立场】

小组学习和自己学习各有优势,选择应该由个人做出,我过去常常一个人学习,虽然可以独立思考,但是未能感知小组讨论和交流的乐趣,因此,有机会,我更加渴望小组学习。 点评:主题观点是模仿雅思考官男女分校的范文 【原创语料库】 1. group study 小组学习 2. to study with a group of fellow classmates 和同龄人一起学习 拓展:a group of fellow classmates = peers 同龄人 3. focus on self-improvement 专注于自我提高 4. zero in on academic study = concentrate on learning专注学习(写作亮点) 5. a great many self-leaner 很多的自学者 6. achieve academic success 取得学习的成功 7. enhance the efficiency of learning 提高学习效率 8. face-to-face communication could …… 面对面交流可以…… 9. positive interaction w ith …… 和…… 积极的互动

2020雅思写作语料库教育类:是否全部父母都该学习育儿课程

2020雅思写作语料库教育类:是否全部父母都该学习 育儿课程 教育类: Caring for children is probably the most important thing of the society. It is suggested that all mothers and fathers should be required to take the childcare training courses. To what extent do you agree or disagree with the statement? 教育的孩子很重要,有人认为,所有的父母应该学习育儿课程,是否认同?(2020年1月19日雅思题目) 题目解析:提问中有典型的错误信息,即所有的父母,所以,本文写作策略为让步反驳,即为三分让步,七分反驳。 雅思小鹏哥让步反驳话题布局图: 首段:背景介绍 + 争议焦点 + 作家立场 二段:第一次支持作家立场以及细节或例证的展开 三段:第二次支持作家立场以及细节或例证的展开 四段:让步不支持的观点的合理性 + (加以反驳 ) 尾段:再次亮明观点 + (总结理由) 作家立场: 虽然我们不能低估亲自学习育儿课程可能带来的价值,但是不是所有的父母都能够亲自学习育儿培训课程。 雅思小鹏哥头脑风暴导言: 1. 小鹏哥喜欢看芒果台的《变形记》,有一集描述的是贵州贫困地区的留守儿童,他们的父母都在城市里打工,家庭贫困,父母辛苦

赚钱仅仅是维持孩子的基本生活和让孩子有机会接受更好的教育。这些父母,不可能有经济成本去专门学习育儿培训课程。 2. 对于很多社会精英来说,即使他们有经济实力参加育儿培训课程,但是,他们又没有时间和精力,所以,让他们专门学习育儿培训课程也是不现实的,即使他们可能有学习的愿望。 是否同意一种观点提问标志: Some people think that …… to what extent do you agree or disagree? 雅思小鹏哥全文布局图: 首段:背景介绍 +(争议焦点)+作家立场 父母是孩子们最初的老师,他们对于孩子们的性格培养以及精神成长有潜移默化的影响,所以,良好的教育方法是每个父母都应该学习的。我认为,虽然不能低估亲自学习育儿课程对于家长可能带来的利好,但是,不是所有的父母都能够亲自学习育儿培训课程。 二段:第一次支持作家立场 对于很多社会精英来说,例如,繁忙的企业家或文体明星,他们多数忙于事业发展,没有时间和精力去专门学习育儿课程。但是,他们能够努力赚钱,聘请专业的育儿老师来教育孩子,所以,父母的努力同样有助于孩子们的健康成长。 三段:第二次支持作家立场 对于贫困家庭来说,父母的可支配收入有限,学习育儿课程虽有利好,却会增加父母的经济负担,在现实生活中很难实现。例如,我喜欢看芒果台的《变形记》(一部纪录片),有一集描述的是贵州贫困地区的留守儿童,他们的父母都在城市里打工,孩子们的生活非常贫困和艰苦,父母辛苦工作仅是维持孩子的基本生活和让孩子们接受良好教育。这些父母,不可能有经济成本去专门学习育儿培训课程。

留学生常见错别字偏误分析及对汉字教学的启示——以北语HSK动态作文语料库为例

留学生常见错别字偏误分析及对汉字教学的启示 ——以北语HSK动态作文语料库为例 摘要 第二语言的教学通常可以分为口语和书面语的教学,当下根据学习者学习的需要以及因为书面语教学更具综合性,书面语教学便被作为第二语言教学的主要形式。因而,作为记录语言符号,也就在与第二语言教学息息相关。在汉语国际教育教学中,汉字的教学十分重要。汉字,属于表意文字的这一特性,也就决定了汉字难学的特点,因而做好汉字教学也就成为了对外汉语教学任务重一项艰难而且必须克服的问题。为了更好的解决这一问题,以帮助对汉语国际教师进行汉字教学,以及帮助留学生学好汉字,本文将以对汉语国际教育教学中,常见的错别字作为研究语料,以北语HSK动态作文语料库中留学生的作文为依据,通过搜集语料,鉴定偏误,进而进行偏误分析的方法对留学生常见的错别字进行分析,从而揭示其产生偏误的原因,进而为对外汉语教学中的汉字教学提供帮助,提高教学汉字教学的效率,增强留学生使用汉字的准确率。 关键词:错别字;偏误分析;汉字教学 ABSTRACT Teaching a second language is usually divided into teaching spoken and written, according to the current needs of learners as well as more comprehensive written language teaching, teaching will be written as the main form of second language teaching. Thus, as a record of linguistic signs, it is closely related to the second language teaching. International Education in Chinese teaching, teaching Chinese characters is very important. Chinese characters, this property belongs to the ideogram, also determines the characteristics of difficult to learn Chinese characters, so do the teaching of Chinese characters has become a heavy task for Teaching Chinese as a difficult and must be overcome. In order to better address this issue, in order to help teachers of Chinese language international teaching of Chinese characters, and to help students learn Chinese characters, this article will be on Chinese international education, the common misspellings as a research corpus, north of language HSK dynamic composition corpus composition students as the basis, by collecting corpus, identify errors, and then perform error analysis methods for

基于语料库的韩国留学生“把”字句 习得偏误分析及教学建议

基于语料库的韩国留学生“把”字句习得偏误分析及教学建议 本文收集、整理了HSK动态作文语料库中韩国留学生的255条“把”字句偏误语料,梳理出“把”字句的偏误类型,将其分为“补语偏误”等6种,并且根据“把”字句的15种句式,对这些偏误句进行句式归类,统计出每种句式偏误的数量和频率。进而从学习策略的角度,从补偿策略、泛化策略、回避策略等几个方面分析了韩国留学生在“把”字句习得过程中出现偏误的原因。在分析过程中,本文也与前人的研究成果做了对比,认为韩国留学生在“把”字句习得中的最大问题仍然是回避。针对这一现象,本文建议在教师的教学对策中应该采取鼓励使用的态度,包括区别对待偏误、多用隐性教学、避免“教学迁移”等方面。 标签:偏误分析“把”字句汉语语法习得二语习得对外汉语教学一、引言 “把”字句是指在谓语动词前头用介词“把”引出受事、对受事加以处置的一种主动句(黄伯荣、廖序东,2007)。“把”字句是对韩汉语教学的难点之一,也是韩国学生汉语习得中的一大困扰。就韩国留学生的表现而言,上课时似乎听懂了,课后的练习也基本会做,但平时生活中却仍然不会用“把”字句。 前人已对韩国留学生的“把”字句习得展开了一些研究。例如,林载浩(2001)曾针对韩国学生习得“把”字句的情况做了初步考察,并作了偏误分析。李宝贵(2004)也对韩国留学生的“把”字句做了偏误分析。金道荣(2010)则通过对韩国学生的实证调查,结合历史文献中的相关资料,对阿尔泰语法背景下的汉语“把”字句偏误生成机制进行了较为详尽的分析,并提出了相应的教学对策。这些成果都为这一领域的研究提供了一定的基础,但仍然需要从不同角度、采用不同方法展开更多的研究。 本文利用北语HSK动态作文语料库,将其中收集的韩国学生的255条“把”字句偏误进行分类和定量分析,并讨论产生偏误的原因。 二、“把”字句偏误的分类和统计 本文首先把255条偏误句分为“把”字的“当用而不用”“不当用而用”和“其他”三大类,并得到其总体情况(见表1)。 表1:韩国留学生“把”字句偏误总体情况表 类型数量比例(%) 当用而不用“把”80 31.4 不当用而用“把”70 27.4 其他* 105 41.2

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究 什么是汉语中介语 早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲) 早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。 早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。 中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。 目前中介语研究在方法上存在的问题: (1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。 有关中介语的研究 王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。 王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。(中介语研究的理论和方法进行了探讨) 彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。 ----------------------------------- 中介语研究的现状与发展 自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。20多年来,这一领域的研究发生了很大的变化。 1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》 中介语研究引起了普遍的关注 由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。 近年来中介语研究的进展表现之一是研究的范围进一步扩大。从语篇的角度研究学习者的中介语系统,早在上世纪80年代初就引起了国外学者的关注。在汉语习得研究领域,中介语

雅思写作小作文必备语料库

雅思写作小作文必备语料库 动态图形词汇 上升 -rise, increase, grow, climb, jump,go up, an upward trend shoot up (informal),ascend -rocket, soar, swell, surge, skyrocket, mushroom, escalate, on the rise,on the increase 相关单词用法 下降 -drop, decrease, go down, decline, fall, descend, sink, dip, an downward trend., -plummet, Plunge, slump, dive, nosedive 相关单词用法 不变、平稳等 -keep/remain/stay stable/steady/unchanged/constant(不变) -maintain the same level -experience a stable trend, -level off at(上升或下降之后)/ level out at(上升之后)/ -hover at/ stabilize at/ reached a plateau at 波动 fluctuate/rise and fall, vary, undulating; be volatile/ variable; 高点、低点: ?reach the highest point,reach(arrive at/hit) a peak(summit) at+数字(用hit 时动作较剧烈),peak at+数字 ?reach/fall to/arrive at/hit the bottom/the lowest point at数字,bottom out at数字,(用hit时动作较剧烈) 其他点 ?起始点: n. starting point v. start/begin/end at ?交叉点: It is worth/deserves mentioning that 1).A和B在...处拥有相同数值 A and B share the same amount/number in 2).A在...处超过B A outstrip/overtake/outnumber/go beyond B in... ?表示达到了多少数量的及物动词或词组 Reach/arrive at/ amount to / hit/ register/ stand at

HSK动态作文语料库代码说明

“HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

雅思写作语料库

A routine of exercise and diet designed to make the body appear muscular. Training routines usually reduce fat levels and, if performed properly, can improve flexibility, particularly of the shoulders, hips, and trunk. When combined with aerobic fitness training, body building can be beneficial to health. A form of exercise and competitive sport in which the primary aim of participants is to develop muscularity and body mass, and to produce symmetry and harmony between different body parts. Well-trained body-builders are characterized by having lean and muscular bodies with enhanced muscular strength and power. Good nutrition can help prevent disease and promote health. Good nutrition helps individuals achieve general health and well-being. There are six categories of nutrients that the body needs to acquire from food: protein, carbohydrates, fat, fibers, vitamins and minerals, and water.

“HSK动态作文语料库”的特色与功能1汇总

国际汉语教育■ ■ 麗关于农药的文章品,内、容。坐说一,般的食,以根据需要选取其中的项或数项甚至全,,比如说米蔬菜水果等的,一东西。好好部项进行设置。这样检索到的每条语料,儿洗下就行了,、不用担心,后面都会带有预先设定的信息以便更全面、在上述三项检索中每条语料后面都有“ 一更深人地对语料进行分析。原始语料标记可査看扫描版的原始” ,语料另有显示隐藏考生信息的转换按’ ’ ,“ 统计信息及相关检索语料库设有统计栏、钮可看到语料的相关信息,“ ” 。目,内容、包括概:况错误信息汇总字汇总词汇总按年份统、、全篇检索计字按年份统计词按国家统计按级别 统、、、语料库共有语料以在此项功能中检索到,篇任何,一篇都可计按标点统计、:。。每篇语料都有录人版。概况介绍语料库总体情况对认识语料,和扫描版录入版语料还有字数和词数统计库的基本构成情况有重要作用、、。具体包括、语料库总字数总词数作文题目总数语料‘ 査询条件的组合检索为了满足用户对某种语料的特别需求,总篇数有考生参加,,高等考试的国家及其语料篇数历次考试中所用

的作文题目及考生人数。使查询更加方便语料库中设有,种査询条目。件,考生国籍考试时间作文题、、、、、作文用户错误信息汇总指语料库中的所有偏误:分数证书级别作文题可以按照其中任意自一目考试时间,信息汇总包括字错误汇总词错误汇总句,、、种条件检索以査询到—子错误汇总篇章偏误汇总、。己需要的语料,也可以同时选中其中的。,字错误汇总包括错字别字繁体字异、、、种查询条件进行组合检索,不过选择的査,体字拼音字漏字多字标点符号的使用偏、、、;询条件越多符合条件的语料就越少査询到相关语料的可能性也就随之降低了。误也放在这个部分有错误标点空缺标点,、、多余标点二类。词错误汇总包括错词缺词多词离合、、、属性设置词错误外文词以及词处理存疑、,。按照上述査询条件可以检索到符合条件的语料但是语料本身并不带有与之相关的,句子错误汇总收人单句使用的各种错误包括主语谓语宾语等八种句子成分的,、、考生信息使用起来还是不太方便,。因此语残缺和多余等一“ ,把字句、” “ 、比” 字句双宾语句、、料库设置了属性设置选项共包括考生国” ,“ 些特殊句式语序动词重叠句式杂糅、,籍性别考试时间作文题、、、目、作文分数、、口等方面的偏误以及单句偏误存疑。试分数客观性考试中各部分的分数参加高、篇章偏误汇总包括语段和复句只表明,等汉语水平考试的总分是否得到汉语水平、数量未做进,一步的分类。证书以及证书等级等项考生信息。用户可需要特别说明的是错误信息汇总是以, 动态作文语料库的特色与功能” 表格形式列出的。除序号之外每种具体的,续表偏误类型之后分别列有类型标记频次频、、漏字繁体字拼音字无法侧的字空缺标点多字异体字外文错误标点多余标点率详细信息等内容、,。例如语序是“ ” ,“ ” 一种错,误类型其类型标记是频率是则会显示全部:频次为“ ” 点击详细信息,个语序错误的句子、、。字汇总包括字形总频次出现问题的频次等三项内容,错词多词缺词离合词。例如“ 的” 字总频次达,出现问题的频次是,“ 岛” ,总

语料库语言学综合

语料库语言学基础知识 2008-09-11 01:45:34| 分类:学术|举报|字号订阅 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、

初中英语作文语料库

初中英语作文语料库 写作表达句式1,I am a middle-school student、 My dream is to enter into a better senior school、2,MY friend always encourage me to study hard、3 we are lonely and stressed out (我们很孤独并且压力大)4 we are short of parents’ care(我们缺乏父母的关心)5 I used to be poor in English but now I am always able to make full marks 、我 过去英语很差,但现在我能够取得满分6,crossing road can be dangerous if we are not careful enough、如果我们不足够小心,过马路可能危险。7 waste water is used to water flowers 。or computers are used to do a lot of things in daily life废水可以用来浇花。电脑可以用来做很多事情。(苏文注意)7,watching TV overly can be bad for our study if parents don’t limit screen time、如果父母不限制看电视时 间过度看电视会对我们学习不利,8,as a teenager ,I always meet the same problems as you、 here are some suggestions foryou 作为青少年,我常常遇到和你一样的问题,这里一些建议给你。9 ,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我们的环境正变得越来越差。

相关文档
相关文档 最新文档