文档库 最新最全的文档下载
当前位置:文档库 › 语料库驱动的扩展意义单位研究-以最高程度语为例

语料库驱动的扩展意义单位研究-以最高程度语为例

语料库驱动的扩展意义单位研究-以最高程度语为例
语料库驱动的扩展意义单位研究-以最高程度语为例

语料库驱动的扩展意义单位研究—以最高程度强势语为例

张绪华

上海交通大学外国语学院

摘要:本文探讨Sinclair提出的“扩展意义单位”的概念、构成及研究方法,并以其为理论框架,以最高程度强势语为例,进行语料库驱动的同义词辨析研究。结果显示,以最高程度强势语为节点词的扩展意义单位在搭配模式、类联接模式、语义选择趋向和语义韵方面存在诸多差异。语料库驱动的扩展意义单位研究具有操作性强,描述全面,客观准确等特点。

关键词:扩展意义单位;最大路径;最高程度强势语;同义词

Corpus-driven Study of Extended Uni t s of Meaning:

Taking Maximizers for Example

Abstract:The study reported in this paper probes into the concept, components and research method of Sinclair’s descriptive model of extended units of meaning (EUM), and applies the model to differentiate the synonymous maximizers in English. The findings show that there are differences between the 8 maximizers in terms of collocation, colligation, semantic preference and semantic prosody. The EUM study is workable, comprehensive, objective and accurate in description.

Key words:extended units of meaning;maximal approach;maximizer;synonymy

1.引言

Sinclair & Carter(2004)、Sinclair(2004)倡导进行语料库驱动的扩展意义单位(Extended units of meaning)研究。扩展意义单位,或称词项(Lexical item),由节点词、核心搭配、类联接、语义选择趋向、语义韵等5个要素组成,即Sinclair所主张的最大路径研究。由这5个要素组成的扩展意义单位实质上是实现了词语、句法、语义和语用功能的共选。扩展意义单位研究突破以往意义研究以单个词和固定短语为基本单位的限制,将意义单位的研究范围扩展到所有围绕节点词而产生的相关型式。

国内外很多学者分别针对英语以及英语学习者的词语搭配,类联接或者语义韵进行了研究(Firth 1957; Pawley & Syder 1983; 卫乃兴2001, 2002b, 2002a; Kennedy 2003; 濮建忠2003)。但只有几位学者(Stubbs 2001; 卫乃兴2002a; Tognini-Bonelli 2002; Hunston 2007)象Sinclair倡导的那样,将扩展意义单位作为一个整体,以最大路径进行词语研究。以扩展意义单位为理论模型对词语意义辨析更是少见。本文试图从扩展意义单位视角出发,以英语强势语(intensifier)中的最高程度语(maximizer)同义词为例进行辨析。不少最高程度语在词典中往往被解释为同义词,它们之间的异同非常模糊;对于EFL学习者而言,最高程度语是习得过程的一大难点,在传统的习得方法下,习得效果不够理想(Granger 1998; Lorenz

1998; Lorenz & Vihla 1999; 张霞 2008)。

本文探讨Sinclair的“扩展意义单位”概念、构成以及研究方法,并以最高程度语totally,absolutely,completely,thoroughly,extremely,fully,perfectly,thoroughly为例,进行语料库驱动的同义词辨析研究,探讨扩展意义单位理论在词语研究中的实用性。我们首先进行文献回顾,然后介绍本研究的研究方法,接下来从FLOB语料库分别提取上述最高程度语的索引证据,对证据进行统计和分类。最后,对最高程度语进行描述和辨析。

2.文献综述

2.1 扩展意义单位的构成及其研究方法

扩展意义单位研究,即将词语的形式与意义综合一体的最大路径研究。与最大路径研究相反的是最小路径(Minimal approach)研究,即针对语言中可区分的最小意义单位进行研究,通常情况下就是研究单词的意义。最小路径研究不考虑词语的形式和意义的共选关系,因此是将词语的形式和意义割裂开来进行研究。语言教师和语言学习者以最小路径研究和学习词语,就需要面对的四个较为棘手的问题(Sinclair 2004):歧义(ambiguity),变化(variation),术语(terminology)和不完整(incompleteness)。

Sinclair & Carter(2004)、Sinclair(2004)认为这四个所谓的问题是由观察语言、描述语言的方式造成的,而并不是语言本身所固有的属性。因此Sinclair(2004: 280)主张采取最大路径,将形式与意义看作不可分割的同一事物,以扩展意义单位为基本单位研究意义。通过改变观察和描述的方式,可以减轻甚至消除以上问题。

扩展意义单位是以节点词为核心,在其周围吸引其它词语与其共现,并形成固定的型式,由节点词、核心搭配、类联接、语义选择趋向、语义韵等5个要素组成。其中节点词和语义韵是必选项。节点词可以是单个词语或者短语,作为扩展意义单位存在的主要依据,是不变的要素;搭配是与节点词共现的词语,是意义单位的核心部分;类联接是与节点词共现的语法项,体现其句法结构;语义选择趋向是短语单位与来自于特定语义场词语的共现关系,揭示了一定自由度的形式变体和微调意义;语义韵决定了整个扩展意义单位的意义和功能,统领词汇和语法项目的选择(Sinclair & Carter 2004)。其中前三项是具体的词形和语法项,后两项是抽象的语义场和语用功能,因此扩展意义单位的五要素是由具体到抽象的过程。

Sinclair & Carter(2004: 34)认为从语言使用者的角度来看,以上五个要素通过共选组成扩展意义单位的过程如下:

(1) 语言使用者选择语义韵x;

(2) 语言使用者将语义韵x应用于语义选择趋向y;

(3) 通过语义选择趋向控制核心搭配和类联接的选择;

(4) 选择节点词。

在语言使用者使用语言的过程中,实质上是实现了语用功能、语义、句法和词语的共

选。扩展意义单位理论中对语义韵的优先选择处于最重要的位置,其它要素的选择都要受到语义韵的支配。Sinclair(2003: 178)认为,将语义韵作为文本基本特点进行研究,是语料库语言学迄今为止最重要的贡献之一,语义韵在意义构建方面处于核心地位。Hunston(2007)则强调,语义韵是由整个扩展意义单位共同营造,因此定义某个词语具有某种语义韵过于简单化。

与语言使用者使用语言,形成扩展意义单位的过程相反,语言研究者在文本中识别扩展意义单位的步骤始于节点词(Sinclair & Carter 2004: 34-35):

(1) 在语料库中检索节点词;

(2) 识别扩展意义单位的词语实现,即搭配模式;

(3) 识别扩展意义单位的语法实现,即类联接模式;

(4) 识别与节点词共现词语的语义场,即语义选择趋向;

(5) 识别扩展意义单位的语义功能实现,即语义韵。

以上分析清楚地显示:在特定的类联接模式中,词语与某些词语共现,共现词语在语义上如何分类以及扩展意义单位整体表达何种涵义,实现何种功能。同只以搭配,类联接,语义选择趋向或语义韵作为对象的研究比较,扩展意义单位研究的优势在于:描述全面,操作性强。分别以语言使用者和研究者的角度,观察扩展意义单位的组成和识别,我们可以清晰的认识到意义怎样转化为语言形式,以及语言形式怎样与意义相联系。正如卫乃兴(2007)所总结,扩展意义单位集语境、意义、功能、结构、目的于一体,是典型的形式-意义-功能的复合体。该思想将短语学研究置于突出地位,对传统的意义体系最具挑战性。2.2 最高程度强势语及相关研究

强势语,又称程度副词,对句子中另一成分的意义起增强或减弱的作用,表明作者或说话者的态度(Crystal 2003)。根据Quirk et al.(1985),强势语分为增强语和减弱语,增强语又可以分为最高程度语和提高程度语。最高程度语是指达到了一个标准的绝对程度,不可以用来做级别的比较。之所以选择completely,fully,utterly,absolutely,thoroughly,totally,extremely,perfectly等8个最高程度语作为研究对象,是因为一般词典(如,Collins Thesaurus, 2001)往往将它们列为同义词,对于它们之间的异同没有清晰明确的解释;而且对于EFL 学习者而言,最高程度语是习得过程的一大难点,在传统的习得方法下,习得效果不理想。

Granger(1998)发现就总体而言,英语学习者少用了强势语,但却过多使用了个别最高程度语,如completely和totally,而过少使用了highly;Lorenz(1998; 1999)发现德国EFL 学习者倾向于过多使用强势语,错误地判断或选择强势语的搭配词,造成语义上的不协调,表达不准确、不地道,如absolutely silly,extremely different等;Kennedy(2003)对强势语的搭配词进行了研究,发现每个最高程度语都倾向于与完全不同的词语搭配共现;王海华,陈国华(2007)得出结论,高中阶段的中国英语学习者过多使用“万能强势词”so,very和much,随着学习者语言水平的提高,使用增强语的种类和数量呈上升趋势,因此作者建议

应注意突显强势语搭配语的使用;张霞(2008)发现中国学习者最高程度语的使用频率与母语者有很大区别,使用不规范。

国内外很多学者分别针对英语学习者的词语搭配,类联接或者语义韵进行研究(Lorenz 1998; Lorenz & Vihla 1999; Kennedy 2003; 卫乃兴 2001, 2002b, 2002a; 濮建忠 2003; 李晓红 2004; 孙海燕 2004; 孙海燕 & 陈永捷 2006; 王海华 & 王同顺 2005; 王海华 & 陈国华 2007; 邓耀臣 & 肖德法 2005; 许家金 & 熊文新 2009; 王春艳 2009)。但是很少有学者象Sinclair倡导的那样,将扩展意义单位作为一个整体进行研究。Cheng(2006)研究了专业文本中具有代表性的扩展意义单位,但不是以词语意义为研究目标,而是观察扩展意义单位在篇章意义和篇章连贯的构建方面所发挥的作用。

3.研究方法

本文以最高程度语completely,fully,utterly,absolutely,thoroughly,totally,extremely,perfectly等为例,进行语料库驱动的扩展意义单位研究。研究方法参照Sinclair(2004:34-35)识别扩展意义单位的做法,利用索引证据、参照类联接,检查和概括节点词的搭配情况,对节点词的语义选择趋向和整个扩展意义单位的语义韵进行归类和描述。具体步骤为:(1)在语料库中分别检索节点词,即8个最高程度语;(2)识别节点词的类联接模式;(3)概括节点词的搭配模式;(4)根据语义对与节点词共现的搭配词语分类,识别节点词的语义选择趋向;(5)总结扩展意义单位营造的语义韵。

本研究参考Biber et al.(1999)中有关动词、形容词和副词的语义分类①对最高程度语的搭配词语进行分类。动词在语义上分为七类(同上: 358-364):动作、交流、心理、使役、简单发生、存在/关系、体动词等。部分动词在具体语境中表达其核心或非核心意义,隶属于不同语义类别,需要根据具体情况判断。形容词在语义上分为两大类(同上: 508-509):描述性形容词(Descriptive adjectives)和分类性形容词(Classifier adjectives)。前者又细分为五类:描述颜色、大小/数量/范围、时间、评价/情感和杂项描述。后者是对所修饰的名词与其它指示物关系的描述,细分为关系/类别/限制、从属和话题相关等三类。部分形容词在不同语境中隶属于描述性或分类性形容词,需要根据具体情况判断。副词的语义分类更加宽泛(同上: 552-563),分为表示地点、时间、方式、程度、附属/限制、立场、连接以及其它意义的副词。

关于语义韵的分类,本文参考Louw(1993),Stubbs(1996)和卫乃兴(2002b),将语义韵大致分为:积极语义韵,消极语义韵,中性语义韵,错综语义韵。节点词吸引的搭配词几乎都是具有积极语义特点的词语,由此形成一种积极语义氛围,称为积极语义韵。节点词吸引的几乎都是具有消极语义特点的词语,形成消极语义氛围,称为消极语义韵。节点词很少吸引具有明显积极或消极语义特点的词语,而吸引的几乎都是具有中性语义特点的词语,营造中性语义氛围,称为中性语义韵。节点词吸引数量较为均衡的具有积极、消极和中性语义特点的词语,形成错综的语义氛围,称为错综语义韵。此外,分别将积极和中性

语义韵,消极和中性语义韵结合起来,称为非消极和非积极语义韵。

研究所用语料取自100万词容的FLOB(Freiburg-LOB Corpus of British English)语料库。FLOB语料库严格按照LOB和BROWN语料库的取样模式进行设计和取样,是上个世纪九十年代早期英国英语的典型代表。

4.基本数据分布

4.1 “absolutely”的扩展意义单位特征

用Wordsmith检索,节点词“absolutely”在FLOB中共出现39次,分布在4种类联接中:ADV+ADJ(25次),ADV+V(5次),ADV+ADV(5次),ADV+PRON.(3次),以及独立成句(1次)。随机提取10行词语索引如下:

1 icky instead of the local hunt, who were absolutely R09 46 furious, which at lea

2 etaries. Of course R07 15 this is denied absolutely when the Inland Revenue quer

3 done. You actually leave your R0

4 177 DJ absolutely alone because he has his hea

4 wly pulled her hand away. She had P26 76 absolutely no intention of allowing the

5 7 "I should have thought your mother was absolutely sure P22 118 of success." P2

6 ing able to P19 82 talk to someone about absolutely anything - or be silent with

7 vely altered and, in her opinion, P13 34 absolutely ruined! P13 35 "Oh, no!" she

8 N07 165 "You serious?" N07 166 "Absolutely. I've never been to Birmingh

9 indow, and Castalia stiffened and became absolutely still. But N04 114 Janet cou

10 ark head come up L14 93 sharply. L14 94 "Absolutely not. Too naff!" L14 95 This

25例ADV+ADJ类联接的形容词中,包含表达描述性评价和杂项描述的形容词(各11个),以及分类性关系形容词(3个)。除coinstantaneous表达中性语义外,其余24个形容词表达积极或消极语义,其中10个具有消极语义特点,如,appalling,evil,mad,ridiculous 等;其余14个具有积极语义特点,如delicious,divine,excellent,wonderful等。在ADV+ADV 类联接中,节点词与表达否定意义的副词no(3次)和not(2次)共现,都表达“完全不... …”的涵义。5个出现在类联接ADV+V的动词中,包括动作动词fly和ruin,心理动词deny 和trust,以及情态动词must。在ADV+PRON.类联接中,则是与代词nothing和anything (各1次)等搭配词共现。节点词2次出现在独立小句中,其中1次为独立成句,另外1次与not组成小句,表达对前文的完全的肯定或否定。

索引行证据显示,“absolutely”的搭配词语义轮廓错综杂合,既有具有中性语义特点的搭配词(31%),也有具有鲜明积极(38%)或消极(31%)语义特点的搭配词,倾向于与搭配词营造错综语义韵。此外,在ADV+ADV类联接中,节点词与表达否定意义的副词共现,营造消极语义氛围。

4.2 “totally”的扩展意义单位特征

节点词totally在语料库中共出现50次,主要出现在3种类联接中:ADV+ADJ(38次),ADV+V(7次),ADV+PREP.(5次)。随机提取10行词语索引如下:

1 as the press is concerned - and for the totally arbitrary R06 99 reasons that p

2 joined them. His apologies were P29 138 totally unnecessary, Caroline noticed,

3 dered. Wasn't Andy P29 132 behaving in a totally irresponsible way? P29 133 DID

4 frivolous conversation with someone who totally understood her P26 32 reference

5 lly uncomplicated kind of P24 91 person, totally without guile or front. She won

6 decided probably not good. He was P1

7 95 totally present and future oriented. He

7 think he was, the - the usurper! She was totally P13 56 unused to being so arrog

8 ad called her and she'd P06 84 woken up. Totally confusing, and obviously a resu

9 him cry. N26 200 I was lost without him, totally bereft. N26 201 Charles had bee

10 nglish king's instructions, but remained totally N25 183 committed to the cause

38例ADV+ADJ类联接的形容词中,包括描述性杂项描述形容词(27个),分类性关系描述形容词(10个)和分类话题相关形容词(1个)。38个形容词中,28个表达否定意义,16个具有否定词缀,如,comfortless,improper,irrelevant,unknown,unrealistic等;其余10个具有中性语义,如,familiar,personal,present等。全部ADV+ADJ类联接中,有11个与“BE”共现,构成BE+ADV+ADJ类联接;6个与“a”共现,构成A+ADV+ADJ +N类联接,其中的形容词都具有消极语义特点。7例ADV+V类联接中,包括动作动词(5个)和心理动词(2个)。3个动词(词组)具有消极语义特点:ruin,devastate,get above oneself;其余动词表达中性语义,如,understand,revamp,assimilate等。5例ADV+PREP.类联接中,without、out和against都表达消极意义;2个介词短语中,in harmony with本身具有积极语义特点,但是通过扩展语境(例1)我们发现,totally in harmony with前面被not所限定,扩展意义单位整体表达消极语义。

例1.comments throw no light on these issues: comments from the various Service press desks boil down to "those who deserve awards get rewarded appropriately"- a view not totally in harmony with that of Major General Perkins nor with the knowledge gained from historical records by researchers in this field.

索引证据显示,“totally”在全部类联接中,有超过半数的搭配词(35个,70%)具有否定词缀或本身表达消极意义,具有消极语义特点;其余的大部分搭配词(16个,28%)具有中性语义特点。节点词与中性词搭配,表达“彻底地、完全地”涵义。totally倾向于与其搭配词在语境中营造非积极语义氛围。

4.3 其余最高程度语的扩展意义单位特征

篇幅所限,本节只详细分析“absolutely”和“totally”的扩展意义单位特征。其余最高程度语的讨论从简,相关类联接及搭配词详细分类请参见附录表1。

表2中8个最高程度语,大致按照它们与共现词语营造积极、中性或者消极语义韵的百分比进行排序。越往左边,词语越多与具有消极语义特点的词语共现;越往右边,越多与具有积极语义特点的词语共现。

表2 最高程度语与积极/中性/消极语义特点词语共现情况表

共现词Utterly totally Complet

ely absolute

ly

Extreme

ly

fully thoroug

hly

perfectly

积极/中性/消极0%/

5%/

95%

2%/

28%/

70%

7%/

41%/

52%

38%/

31%/

31%

44%/

27%/

29%

3%/

97%/

0%

10%/

83%/

7%

53%/

44%/

3%

“perfectly”和“utterly”代表8个最高程度语中的两种极端情况:在全部类联接中,“perfectly”倾向于与积极(53%)和中性(44%)词语共现,在语境中营造积极语义氛围;而在3种类联接中,“utterly”的共现词语绝大多数(19个,95%)具有消极语义特点。8个最高程度语中,“perfectly”和“utterly”分别最倾向于与共现搭配词营造积极和消极语义韵;

“completely”极少(6次,6%)与表达积极意义的词语共现;在绝大多数情况下(92%),节点词与表达消极(52%)或中性(41%)语义的词语搭配。与“totally”相似,“completely”倾向于与搭配词在语境中营造非积极语义氛围。

“fully”倾向于与具有中性语义(97%)特点的搭配词共现,极少数搭配词具有明显的积极或消极语义特点,在语境中营造中性语义氛围。此外,在79个ADV+V类联接中,51个是ADV+V(pt),表达“被完全……”或“已经完全……”的涵义。

与“fully”相似,“thoroughly”在大多数情况下(79%)与具有中性语义特点的词语共现,共同营造中性语义氛围;少数情况下与具有积极(10%)或消极(7%)语义特点的词语搭配,倾向于与搭配词在语境中营造中性语义韵。

与“absolutely”相似,“extremely”倾向于与搭配词营造错综语义韵,它既吸引具有明显积极(44%)和消极(27%)语义的搭配词,也吸引表达中性(29%)语义的搭配词。5.讨论

本研究中所讨论的最高程度语,作为被传统词典定义的同义词,在搭配、类联接、语义趋向和与共现词营造的语义韵等方面存在诸多异同之处,不能简单地理解为同义词。

在搭配方面,特定的最高程度语较多出现在特定的搭配模式中,如,“totally”的形容词搭配词中,42%具有否定词缀。在类联接方面,特定的最高程度语较多出现在特定的类联接中,如,“totally”,“utterly”,“thoroughly”,“completely”和“fully”都极少或没有出现在ADV+ADV类联接中。在语义选择趋向方面,特定的最高程度语倾向于与具有特定语义特点的词语搭配出现,如,在FLOB语料库中,8个最高程度语与描述性评价形容词共现24次,“absolutely”和“extremely”占其中的83%,这表明,“absolutely”和“extremely”远比其它最高程度语适合表达描述性评价;此外,只有“thoroughly”和“completely”与表达“某国的”涵义的分类从属形容词搭配出现。在语义韵方面,“utterly”和“perfectly”作为两个极端,分别倾向于与具有消极或积极语义特点的词语搭配共现,营造消极或积极的语义氛围。“totally”和“completely”较为接近,倾向于与具有消极或中性语义特点的词语搭配共现,营造非积极的语义氛围,很少与具有积极语义特点的词语搭配出现。“absolutely”和“extremely”较为类似,倾向于与搭配词营造错综语义韵。“fully”和“thoroughly”较为接近,倾向于与具有中性语义的搭配词在语境中营造中性语义氛围,少数情况下与具有积极或消极语义特点的词语搭配。

与Lorenz(1998; 1999)和Kennedy(2003)等针对强势语的搭配词语进行的研究相比较,本研究以扩展意义单位为理论模型,不仅观察节点词的搭配模式,而且对其类联接模式、

语义选择趋向和与搭配词营造的语义氛围进行描述。以最大路径研究语言,可以充分理解词语在语境中的意义,避免语言中歧义、变化、术语和不完整(Sinclair 2004)等问题的发生。

我们的研究显示,没有词语具有完全积极或者消极的语义趋向和语义韵,因此断定某词语完全具有某语义韵未免失之偏颇。同Hunston(2007)的结论一致,我们认为意义和语义韵往往来自于词语组合,强调意义取决于单个词语,或者某个词语具有某种语义韵都是不可取的。因此针对扩展意义单位进行研究,充分理解词语所处的语境,对由词语共现所产生的意义作出准确的描述。可以这样理解扩展意义单位:当A词语与具有B种语义趋向的词语在C种类联接中共现时,这些词语所组成的扩展意义单位倾向于营造出D种语义韵。

由于本研究所使用语料库规模的限制,更由于语言的异质性和多变性,语料库驱动的扩展意义单位研究不可能明确描述词语在意义、功能和使用上的每一点异同。但是通过对词语的扩展意义单位逐步,逐层次的描述,可以大致了解词语的搭配模式、句法模式、语义选择趋向和与共现词语营造的语义氛围,对所谓的同义词进行意义与使用的辨析。基于以上对最高程度语以及扩展意义单位的讨论,我们建议在语言教学中将扩展意义单位作为知识讲解的基本单位,以Sinclair & Carter(2004: 34)提出的五个要素共选机制为理解扩展意义单位的基本步骤。

Sinclair(1966)提出针对研究范围大于单个词的意义单位进行研究。经过将近半个世纪的探索与实践,Sinclair et al.(2004)最终提出建立全新的扩展意义单位研究模型。此模型中包括所有扩展意义单位的标准形式(canonical form)及其变体(variation)。扩展意义单位的标准形式往往就是其最简形式(short form),其变体就是其完全形式(full canonical form)。对于每一个不同的意义单位,都有一个扩展意义单位的完全形式与其对应。以“a totally”为例,作为扩展意义单位的标准形式,其变体可以是“a totally separate area”,“separate”可以被“different”,“irresponsible”,“comfortless”等具有消极语义特点的词语替换,成为不同的扩展意义单位完全形式。扩展意义单位的标准形式始终保持不变,通过搭配不同词语,形成变体,成为不同的意义单位。包括扩展意义单位的标准形式及其变体的词典被Sinclair视为词典的发展方向,称其为终极词典(ultimate dictionary)。毫无疑问,终极词典的建立注定是一项巨大的工程,但是会对语言研究和语言教学提供巨大的支持。

6.结语

本文探讨了Sinclair提出的扩展意义单位的概念、构成以及研究方法,并以最高程度语completely,fully,utterly,absolutely,thoroughly,totally,extremely,perfectly等为例,进行语料库驱动的同义词辨析研究。结果表明,8个最高程度语在搭配模式、类联接模式、语义选择趋向和语义韵方面存在诸多差异。扩展意义单位研究描述全面,操作性强,客观准确,集语境、意义、功能、结构、目的于一体,融词语,语法和词典研究于一身。分别以语言使用者和语言研究者的角度,观察扩展意义单位的组成,我们可以清晰的认识到意义怎样转化为语言形式,以及语言形式怎样与特殊意义相联系。基于大型语料库的扩展意

义单位研究,以及以其为起点和基础的终极词典研究,必将成为未来语言研究的重要发展方向。

注释:①本研究提取的索引证据中,动词短语和介词短语分别按动词和介词处理。

参考文献:

[1]Biber, D., S. Johansson, G. Leech, S. Conrad & E. Finegan. Longman grammar of spoken and

written English[M]. Cambridge: The MIT Press, 1999.

[2]Cheng, W. Describing the extended meanings of lexical cohesion in a corpus of SARS spoken

discourse[J]. International journal of corpus linguistics, 2006(11).

[3]Crystal, D. A dictionary of linguistics & phonetics[M]. Hoboken: Blackwell Pub, 2003.

[4]Firth, J. Papers in linguistics, 1934-1951[M]. Oxford: Oxford University Press, 1957.

[5]Granger, S. Prefabricated patterns in advanced EFL writing: Collocations and formulae[A]. In

Cowie, AP. Phraseology: Theory, analysis, and applications[C]. Oxford: Oxford University Press, 1998.

[6]Hunston, S. Semantic prosody revisited[J]. International journal of corpus linguistics, 2007(12).

[7]Kennedy, G. Amplifier collocations in the British National Corpus: Implications for English

language teaching[J]. Tesol Quarterly, 2003(37).

[8]Lorenz, G. Overstatement in advanced learners’ writing: stylistic aspects of adjective

intensification[J]. Learner English on computer, 1998.

[9]Lorenz, G. & M. Vihla. Adjective Intensification, Learners Versus Native Speakers: A Corpus

Study of Argumentative Writing[M]. Amsterdam: Rodopi, 1999.

[10]Louw, B. Irony in the text or insincerity in the writer? The diagnostic potential of semantic

prosodies[A]. In Baker, M., G. Francis & E. Tognini-Bonelli. Text and technology: In honour of John Sinclair[C]. Amsterdam: John Benjamins, 1993.

[11]Pawley, A. & F. Syder. Two puzzles for linguistic theory: nativelike selection and nativelike

fluency[J]. Language and Communication, 1983(7).

[12]Randolph. Quirk, A. 1985. A comprehensive grammar of the English language[M]. London:

Longman, 1985.

[13]Sinclair, J. Beginning the study of lexis [A]. In Bazell, C. In memory of JR Firth[C]. London:

Longman, 1966.

[14]Sinclair, J. Reading concordances: an introduction[M]. London: Longman, 2003.

[15]Sinclair, J. New evidence, new priorities, new attitudes[A]. In Sinclair, J. How to use corpora in

language teaching[C]. Amsterdam: John Benjamins, 2004.

[16]Sinclair, J. & R. Carter. Trust the text: Language, corpus and discourse[M]. London: Routledge,

2004.

[17]Sinclair, J., S. Jones, R. Daley, W. Teubert & R. Krishnamurthy. English collocation studies: the

OSTI report[M]. London: Continuum Intl Pub Group, 2004.

[18]Stubbs, M. Text and corpus analysis: computer-assisted studies of language and culture[M].

Massachusetts: Blackwell Cambridge, 1996.

[19]Stubbs, M. Words and phrases: Corpus studies of lexical semantics[M]. Blackwell Pub, 2001.

[20]Tognini-Bonelli, E. Corpus Linguistics at Work[M]. Amsterdam: John Benjamins, 2002.

[21]邓耀臣 & 肖德法. 中国大学生英语虚化动词搭配型式研究[J]. 外语与外语教学, 2005(7).

[22]李晓红. 基于语料库的EFFECT搭配行为对比研究[J]. 外语教学, 2005(6).

[23]濮建忠. 英语词汇教学中的类联接,搭配及词块[J]. 外语教学与研究, 2003(6).

[24]孙海燕. 基于语料库的学生英语形容词搭配语义特征探究[J]. 现代外语, 2004(4).

[25]孙海燕 & 陈永捷. 中国英语学习者名词类联接的发展特征——基于赋码语料库的研究[J].

外语教学与研究, 2006(4).

[26]王春艳. 基于语料库的中国学习者英语近义词区分探讨[J]. 外语与外语教学, 2009(6).

[27]王海华 & 王同顺. CAUSE语义韵的对比研究[J]. 现代外语, 2005(3).

[28]王海华 & 陈国华. 中国学习者使用英语强势语搭配的发展特点[J]. 外国语, 2007(1).

[29]卫乃兴. 词语搭配的界定与研究体系[M]. 上海:上海交通大学出版社, 2001.

[30]卫乃兴(a). 语料库数据驱动的专业文本语义韵研究[J]. 现代外语, 2002(2).

[31]卫乃兴(b). 语义韵研究的一般方法[J]. 外语教学与研究, 2002(4).

[32]卫乃兴. John Sinclair 的语言学遗产——其思想与方法评述[J]. 外国语, 2007(4).

[33]许家金 & 熊文新. 基于学习者英语语料的类联接研究概念、方法及例析[J]. 外语电化教

学, 2009(3).

[34]张霞. 中国非英语专业EFL学习者强化语使用研究——基于COLSEC的调查[J]. 外语教学

理论与实践, 2008(4).

附录1:

表1 最高程度语共现词语的详细分类及频率

N. 词语总频

ADV+V ADV+ADJ

ADV+ADV

ADV+

其它

描述性分类性

心理动作使役交流

简单

发生

存在

杂项评价

大小/

颜色/

时间

关系从属

话题

相关

方式

代词/

其它

1 absolutely 39

2 2 11 11

3 5 3+2

2 perfectly 38

9 1 22

3 3

3 totally 50 2 5 27 10 1 5

4 utterly 20 1 1 1 13 2 2

5 thoroughly 29 7 14 1 2 1 3 1

6 completely 94 9 16 6 1

7 3 21 1 3 19 1 1 6

7 fully 98 20 27 6 14 6 5 15 3 2

8 extremely 66 1 1 43 9 6 2 4

10

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

金融 语料库

Accounts payable 应付帐款 Accounts receivable 应收帐款 Accrued interest 应计利息 Accredited Investors 合资格投资者;受信投资人 指符合美国证券交易委员(SEC)条例,可参与一般美国非公开(私募)发行的部份机构和高净值个人投资者 Accredit value 自然增长值 ACE 美国商品交易所 ADB 亚洲开发银行 ADR 美国存股证;美国预托收据;美国存托凭证 [股市] 指由负责保管所存托外国股票的存托银行所发行一种表明持有人拥有多少外国股票(即存托股份)的收据。ADR一般以美元计价和进行交易,及被视为美国证券。对很多美国投资者而言,买卖ADR比买卖ADR所代表的股票更加方便、更流动、成本较低和容易。 大部份预托收据为ADR;但也可以指全球预托收(GDR) ,欧洲预托收据(EDR) 或国际预托收据(IDR) 。从法律和行政立场而言,所有预托收据具有同样的意义。 ADS 美国存托股份 Affiliated company 关联公司;联营公司 After-market 后市 [股市] 指某只新发行股票在定价和配置后的交易市场。市场参与者关注的是紧随的后市情况,即头几个交易日。有人把后市定义为股价稳定期,即发行结束后的30天。也有人认为后市应指稳定期过后的交易市况。然而,较为普遍的是把这段时期视为二级市场 AGM 周年大会

Agreement 协议;协定 All-or-none order 整批委托 Allocation 分配;配置 金融翻译世曰翻译 Allotment 配股 Alpha (Market Alpha) 阿尔法;预期市场可得收益水平 Alternative investment 另类投资 American Commodities Exchange 美国商品交易所 American Depository Receipt 美国存股证;美国预托收据;美国存托凭证 (简称“ADR ”参见ADR栏目) American Depository Share 美国存托股份 Amercian Stock Exchange 美国证券交易所 American style option 美式期权 Amex 美国证券交易所 Amortization 摊销 Amsterdam Stock Exchange 阿姆斯特丹证券交易所 Annual General Meeting 周年大会 Antitrust 反垄断 APEC 亚太区经济合作组织(亚太经合组织) Arbitrage 套利;套汇;套戥 Arbitration 仲裁

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

语料库的作用

语料库的作用: 1.翻译学研究 论文:语料库翻译学: 内涵与意义 作者:胡开宝 单位:上海交通大学外国语学院,上海200240 如何作用:语料库在翻译学研究上的作用是指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,分析翻译本质、翻译过程和翻译现象的翻译学分支学科。而语料库翻译学的诞生直接受益于语料库语言学和描写性译学研究。Laviosa认为语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式。”她指出:“语料库翻译研究的问世主要受两个研究领域的影响,一个是语料库语言学,另一个是描写性译学研究。” 2.语言学研究 论文:语料库语言学的研究视野 作者:李文中 单位:河南师范大学外国语学院,河南新乡453007 如何作用:语料库在语言学研究上的作用是为了研究语言意义,研究对象是语言使用。语言在使用中产生关系,并呈现意义。文本是语料库语言学研究唯一的数据源。文本的意义只存在于文本内部。语言意义只能用语言来解释。 语料库语言学以意义单位为着眼点考察文本的意义。作为一门新兴的学科,

语料库语言学以其独特的视角及可靠的方法和工作,对语言学研究做出的贡献将从根本上改变我们对语言的态度和认知。 3.教学研究 论文:基于语料库的翻译教学研究 作者:张杏杏 单位:河南师范大学外国语学院,河南新乡453007 如何作用:语料库作为一种教学资源对翻译教学有着极大的促进作用,可以利用其来获得丰富的教学资源,获得并正式疑问模式和凡一直是,进一步提升学生的翻译技巧。1.发挥学生的主体性,提高学生数据驱动式学习能力。 2.帮助教师制定更加科学完善的教学大纲和编写适合使用的教材。 3.增加教 学信息的输入量,提高教学效率。4.提供更加科学的练习或测试题

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库语言学视野下搭配的定义与分类

语料库语言学视野下搭配的定义与分类 [Abstract]Corpus-based linguistics opens a new field for linguistic research.In this paper,the definition of collocation will be introduced as well as the classification of collocations. [Key words]collocation,definition,classification I. Introduction The appearance of corpus linguistics opens a new field for collocation. Researchers set up a pattern of conceptual system,adopt a series of methods and techniques to get information,deal with data and describe collocability. Collocation can be defined and classified in many different ways. Ⅱ. Definition of Collocation “Collocation runs through the whole of the English language. No piece of natural spoken or written English is totally free of collocation.” (Crowther,2001:iv) Because of its unusual role in natural languages,collocation study has received much attention in the last half century,and is now increasingly becoming one of focuses of modern linguistic research. Firth (1957:12),the father of collocation study,states:“you shall know

商务英语语料库的建设及应用初探

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(Business English)是指商务场景下所应用到的英语,作为特殊目的英语(English for Specific Purpose)具有很强的专业性。商务英语跟普通英语(English for General Purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(Corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的Brown Corpus以及LOB Corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的Birmingham Collection of English Language Text以及Longman/Lancaster English为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。 2.2 商务英语大量使用表意清楚的专业词汇和专业术语。专业词汇和专业术语是在专业领域用以代表部分专业知识的词汇,商务英语是英语在商务场合中的应用,内容的高度专业化势必导致专业词汇的大量使用。 2.3 商务英语具有古体特点,这种古体特点的一个主要标志是古体词语的使用。古体词是一种具有鲜明文体色彩的词汇成分,尽管古体词在现代英语口语和一般书面语中极少使用,但在商务英语文本中,古体词却大量出现,充分体现出其庄重严肃的文体风格。

语料库建设及使用专题研修班

语料库建设及使用专题研修班 时间:2014年11月8-9日 地点:上海海事大学2C305(计算机实验室) 主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金 一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的 Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照 一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。 3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表 类型 语料库名称及大小 建设单位 英语学习者语料库(书面语及口语) 中国学习者语料库CLEC(100万) 广外、上海交大 大学英语学习者口语语料库 COLSEC (5万) 上海交大 香港科技大学学习者语料库 HKUST Learner Corpus

香港科技大学 中国英语专业语料库CEME (148万) 南京大学 中国英语学习者口语语料库 SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大 硕士写作语料库MWC (12万) 华中科技大学

平行语料库 汉英平行语料库PCCE 北外 南大-国关平行语料库 南京大学 英汉文学作品语料库; 外研社 冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;

国家语言文字工作委员会语言文字应用研究所 柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所 英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 中国科学院自动化研究所 英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 英汉双语语料库(40-50万句子对) 哈尔滨工业大学

双语语料库(5万多对) 北京大学计算语言学研究所 对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 特殊英语语料库 中国英语(China English)语料库 河南师范大学 军事英语语料库(Corpus of Military Texts)

语料库研究与综述

语料库研究与应用综述 一概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。 (5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。 我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。 语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符

相关文档