文档库 最新最全的文档下载
当前位置:文档库 › 基于平行语料库的_大家_的对应研究

基于平行语料库的_大家_的对应研究

基于平行语料库的_大家_的对应研究
基于平行语料库的_大家_的对应研究

49·版权所有文责自负·

*基金项目:本文受到中央高校基本科研业务费专项资金资助(项目编号:2012XJ010)。

作者简介:易焱,讲师,博士,研究方向:英汉对比研究;王克非,教授,博士,博士生导师,研究方向:语言学,语料库,翻译学

基于平行语料库的“大家”的对应研究

*

1

王克非

2

(1.北京外国语大学英语学院,北京100089;2.北京外国语大学中国外语教育研究中心,北京100089)

要:本文基于英汉、汉英双向平行语料库对现代汉语人称代词“大家”和它在英语中的对应项进行描写和分析。研究

发现,“大家”在英语中的功能对等项有everybody 等全称代词、第一、二、三人称复数代词、people 、the crowd 等指人的集体名词、other 等他称代词、both 等指双数的代词、无施事被动式、there be 构式和零形式。我们运用对比语言学、翻译学、语义学和功能类型学的概念和理论解释了这些对应现象。本文也证明了双向平行语料库在上述几个领域的研究中的作用。

关键词:平行语料库;对应研究;人称代词;大家

中图分类号:H319

文献标识码:A

文章编号:1004-6038(2013)03-0049-06

1.引言

语言之间的对应词、对应构式(以下统称对应构式)的确立和比较是语言对比和翻译研究的重要内容之一,也是语言类型学跨语言描述和比较的基础。本文用双向平行语料库研究现代汉语代词“大家”和它在英语中的对应以及相关问题。

国外新近研究已经证明平行语料库在双语对比和翻译研究中的有效性(参见Hasselgard ,

2012;Johansson ,2007)。学者们认为,平行语料库显示的翻译对等比语义学模型提示的跨语言对应构式(下称理论对应项)更多样,

也更切合语言

使用的实际(卫乃兴,

2011:36-37)。平行语料库还可以为普通语言学的语义研究提供实证,

Noel 曾专门撰文论证了这一点。他指出,语义本身是不能够直接观察的,而译文是译者对原语中构式A 的语义的判断,如果构式A 在相当规模的语料库中都译为另一种语言中的构式B ,而构式B 是明示了某语义[S ]的,便可以认为构式A 也含有语义[S ]。这种证据是具有心理现实性的直接证据(Noel ,

2003:758-760)。本文选择观察“大家”是因为人称代词的英汉对比研究较少。曾有赵世开(1996,

1999)对英汉和汉英翻译中第一、二、三人称代词总体数量的考察。赵世开(1981)提到了“大家”,但除了说它含有“全”的意义之外没有加以讨论。另一方面,语料库翻译学者已经利用双向平行语料库对人称代词在翻译语言中的频率和特征进行了研究,并和原创汉语进行了比较,还发现汉语的第三人称代词“他”在翻译文学语料库的功能有变异现象(王克非,2011:104-114;118-123),不过他们也没有涉及“大家”的情况。因此,对这个词的专门考察有望丰富我们对人称代词在翻译语言中使用规律的认识。

2.语料和研究问题

本文使用的语料和例句出自北京外国语大学通用中英对应语料库(CEPC ,参见王克非等2003)。鉴于篇幅,本文只选用文学子库的语料进行研究。选取的原创汉语约150万字/词、原创英语约170万字/词,各自构成原创语言语料库,它们和各自的翻译文本构成类比语料库。具体研究问题如下:

A.双向平行语料库显示的现代汉语文学类语篇中“大家”的功能对等项有哪些?和语义模型推导出来的理论对等项有无差别?造成理论对等项和功能对等项的差别的原因有哪些?

B.“大家”在原创语篇和翻译语篇中的意义和功能有无差别?

3.“大家”和其在英语中的理论对应项

“大家”是现代汉语的常用词,但已有文献对它的论述只有寥寥几笔。吕叔湘(2004:142-143)、朱德熙(1983:85)等强调其全称意义:“大家”是代词,表示一定范围的所有人,或表示某(些)人之外的所有人。刘月华等(2004:78-79)则强调指示性:它的所指有时包括说话人和受话人,有时不包括说话人或不包括受话人,还可以不包括谈话人双方。

从上述文献可以推导出“大家”在英语中的理论对应项。“大家”含有全称意义,应该和英语everybody 对应。它可以有复数第一、二、三人称的指称对象,那么英语的定指代词(definite pronouns )we 、you 、they 也应是它的理论对应项。

4.CEPC 显示的“大家”的翻译对等范式

我们首先通过Concordancer 软件分别检索在汉英和英汉语料库中出现的“大家”及其平行对应索引。然后逐条人工检验,删除不属于代词“大家”的索引(如“你们方家真是大家”等),并将剩余的索引进行分类,确立了“大家”在汉英语料库和英汉语料库中的翻译范式(translation paradigms ,Altenberg ,1999:257)。随后基于索引行对“大家”的对应形式进行如下统计:1)频次,指语料库中与“大家”对应的英语某一形式的出现次数;2)构成比例(%),指各对应形式占总频次的比例。

“大家”在汉译英和英译汉子库中的对应项见表1。在约150万字的原创汉语文学子库中,“大家”共出现416次,频率为2.77/万,而英汉子库中的“大家”的出现频率是1.62万(277/170万),明显低于原创子库。秦洪武、王克非(2009:133)发现,虽然翻译汉语中的人称代词使用频率较原创汉语有总体增高的趋势,但有些代词在原创汉语中的频率明显高

基于平行语料库的“大家”的对应研究

50

于翻译,“大家”就是一个。我们的发现印证了他们研究的后

半部分,

但为什么第一、二、三人称代词在翻译汉语中的频率都高于原创汉语,“大家”却有相反的分布呢?在具体描述、分析“大家”和它的英语对应项的过程中可以逐步看到,“大家”

在语义和功能方面都和普通的人称代词有些不同。表1“大家”在英文中的翻译对等范式

“大家”的实际对应项汉译英英译汉频次构成比例频次

构成比例everyone ,everybody 12931.01279.74all ,nobody 等其他全称代词153.61227.94任指的he

10.2400each other /both /either 40.9600第一人称代词复数4510.81269.38第二人称代词复数133.1254415.88第三人称代词复数9823.56238.30people 133.125134.69others /the rest 276.4920.72the crowd 等集体名词266.25207.22the room 等转喻名词81.92113.97被动形式40.96269.38there be 构式10.24103.6零形式*327.695319.13总计

416

100%

277

100%

4.1“大家”和全称代词的对应

表1显示,含有全称意义的代词everyone 、everybody ,其

否定形式nobody 、no one ,以及all 确实是汉译英中“大家”的常见对应项①。

1a.大家都点头,对于王和甫的议论表同情②。

1b.Everybody nodded agreement with Wang Ho-fu's ob-servation.

2a.“A thorn ”,said the sailor ,when no one could guess.2b.当大家都猜不出时,水手就说:“一根刺”。3a.At this time I feel entitled to claim the aid of all.3b.此时此刻,我觉得我有权利要求大家的支持。4a.大家好似都不约而同的心里说:“这就是咱们的榜样4b.All seemed to be thinking the same thought...汉译英时“大家”译为everybody 等的频次是129,是

“大家”

的最常见的译法(31.01%);然而英译汉文本中的“大家”同everybody 等的对应只占全部译成“大家”的构式中的

9.74%。这种现象被Johansson (2007:27)称作构式对应的翻译偏向(translation bias ),它是构式对应的常见现象。

我们可以通过相互对应率来定量地描述“大家”和eve-rybody 对应程度。相互对应率(MC )是Altenberg (1999:254)提出的,现已被广泛应用(Johnansson ,2007;Halssel-gard ,

2012;卫乃兴,2011等)。其计算公式是MC =(At +Bt )*100/(As +Bs ),其中A ,B 指两个被比项,As 和Bs

分别是它们在原语文本中出现的频次,

At 和Bt 是它们在译文文本中被译为对方的频次。MC =100表示两个被比项是

完全对应,

MC =0表示二者从不互译,MC 越高,A ,B 两项就越有可能成为跨语言的对应单位。按照前面检索“大家”

的方法,我们检索了英译汉子库中everyone 和everybody 的对应情况,这两个全称代词共出现98次,译为“大家”的频次

是21,由此可得“大家”和英语的含有every 的代词的相互对

译率是(129+21)*100/(416+98)=29.18。

和已知的构式相互对应率相比,上述计算值偏低。目前发现的最高的相互对应率为80,

出现在英语和瑞典语的副词之间(Altenberg ,1999:259)。动词(组)方面,英语的make 和瑞典语的f 的MC 为52(Altenberg &Granger ,

2002:19)。由于已有文献中没有代词的相互对应率的信息,我们另计算了相同语料库中的英汉语第一人称复数代词的相互对应率作为对比。经检索③:We s =1091;我们s =973;We t =756;我们t =632,

因此英汉语的复数第一人称代词相互对应率为67.28。这说明“大家”和“everybody ”的相互对应率在各类构式和代词类构式中都是较低的。

我们认为,“大家”和everybody 的低对应率是由于“大家”是多义的,而everybody 是单义造成的。我们从everybod-y 的翻译范式发现,除了有定语从句修饰的everybody 译为“……的人”之外(8个),这个词都译为“人人”、“所有人”全称代词或不定代词。而如表1所示,“大家”既可以译为全称代词,也可以译为有定代词。按照Noel (1999)的看法,这说明everyone 的意义主要是全称意义,“大家”是多义的,既有全称意义,也有复数一、二、三人称的指称意义。当X 语言中一个形式A 有多个意义S1、S2等,而Y 语言中的形式B 只有一个意义S1时,那么只有一部分的A 能译成B ,自然相互对应率就低了。

“大家”和everybody 的低相互对应率还可以部分解释为什么英译汉子库中的

“大家”的频率明显低于原创汉语中的“大家”。原创汉语中的416个“大家”中的34.85%(145个)都译为全称代词,远高于其他对应项,说明全称意义是汉语原创文学类文本中“大家”的最主要的意义。而全称代词在英译汉文本中的“大家”的对应项中只占17.68%,低于零对应(19.19%),和第二人称复数代词的15.88%接近,这说明英译汉翻译语言中的“大家”的功能中和原创汉语不太一致,表示“全称意义”不占最重要地位,这一点在4.2和4.7、4.8中还有别的证据④。

4.2“大家”和英语的人称代词对应

“大家”和定指的第一、二人称代词对应的例子如例5-6,和定指的第三人称代词⑤对应的例子见例7:

5a.鸿渐,有笑话讲出来,大家听听。5b.Hung-chien ,if there's a joke let us hear it.6a.大家也总得想想,做老板有老板的苦处。6b.If you'll just think about it for a minute ,

7a.于是大家忙放下球拍,在发出响动的部位检查起来

……

7b.so they instantly put down their bats and...

8a.Everyone was in the bravest spirits ,because we were

now so near an end of the first part of our adventure.8b.每个人都精神抖擞,因为我们现在就要接近探险第

一部分的尾声了。

9a.I want everyone to be corrupt to the bones.b.我愿大家,全从骨子里腐化堕落!

汉语典型的第一、二人称复数代词“我们”、“你们”、“咱们”在“说话人-听话人”这种指示性方面是明示的,“大家”从形式上是看不出是否包含说话人、受话人。英语在这方面

51模糊的代词只有everybody、all这样的不定代词,例8a中的

everyone包含说话人,这一点由后面用we回指看得很清楚。

而例10a中的everyone则不包含说话人,指受话人。译者不

选在人称方面和“大家”一样模糊的everyone,而选we和you

可以看作是一种翻译上的显化,但以往人们说的汉译英方向

人称代词的显化主要是添加,这种显化稍有不同。另一方

面,everybody仍然是汉译英方向译者们最常选用的对应项,

129次,31.01%。英译汉方向全称代词和“大家”的对应有

49例,是“大家”的第二多的来源项(source)。

表1显示“大家”和we的对应在汉译英和英译汉方向基

本对称,但和英语的第二、三人称的对应则有翻译偏向。“大

家”译为you,your的比率是3.125%(包括例10b这种“大家”

翻译成英语时省略了you的情况),远低于英语的第二人称复

数代词译为“大家”的比例(15.88%)。译为you的“大家”都

出现在直接引语中,指对话的受话方,这正是第二人称代词的

意义。“大家”和you的这种对应性也体现在英译汉中,例11

显示的这种小说描述的一个场景中的指称受话人的you(或

者省略的you)译为“大家”的情况共有19个,占you和“大家”

对应的19/44=43.18%、译为“大家”的总对应中的6.85%。

有两个原因使得you和“大家”对应产生翻译偏向。1)

如例12所示,并非所有的指称受话人的“大家”都会译为

you,everyone也是英语中常见的称呼在场的多个受话人的手

段。与此相对的是,按照汉语的习惯,除非说话人的地位明

显高于受话人,当受话人为多个人时,称呼受话人一般用“大

家”而不用“你们”。2)如例13所示,英语的小说作者可以用

you来邀请读者和自己一起想象所描述场景,此时you指读

者,译为“大家”也比“你们”符合汉语习惯。我们的语料库

中25个you和“大家”的对应就属于这种情况,占英译汉“大

家”的对应项中的9.02%,多于指受话人的you译为“大家”

的情况(19个)。前面说到英译汉语言中的“大家”的功能可

能和原创汉语不太一致,这是一个证据:原创汉语中我们没

有发现指称读者的“大家”⑥,而英译汉文本中的有相当一部

分的“大家”都是用来指称读者的。可以推想,如果英语原文

邀请读者一起共同想象场景用we而不用you的话,英译汉

文本中的“大家”的总体频率、和you的对应率还可能下降。

10a.大家听明白了么?(比较:你们听明白了么?)

b.Get it?

11a.and put your hearts in it!

b.大家尽情地唱呀!(比较:你们尽情地唱吧!)

12a.大家回去罢,工会来办交涉,一定不叫大家吃亏!

b.Everybody go on back now and...

13a.正如大家马上就会看到的那样,这并不意味着他的

事就此了结。

b....though not,as you(we)will see,of his affairs.

“大家”和they等英语第三人称代词的对应也呈翻译偏

向,不过方向和第二人称代词相反。原创汉语中“大家”的

23.56%(98个)译为they,这是“大家”的英译对应项中比率

第二高的;而they只占译成“大家”的全部对应项的8.3%。

要理解产生这种翻译偏向的原因,就要看到“大家”在原创汉

语文学中的主要作用。下面例14出自《围城》,描述的是归

国留学生聚会的一个场景,“大家”指在场的所有人。

14a.大家笑着,苏小姐拿了一只紫檀扇匣进来……

b.They all laughed....

我们专门研究了表示“文本描述的某个场景的所有人”

(下简称“在场的所有人”)的“大家”的对应项分布。原创汉

语部分的416个“大家”中有229个是表示这种指称意义的,

其对应最多的英语构式是everybody等全称代词,共100,占

所有译为“大家”的英文对应项的24.03%,其次是they,占

15.62%,共65个,而这65个“大家”就是所有“大家”和they

对应中分量最多的:65/98=69.38%。我们认为,“大家”和

they的对应频率高和语料的构成有一定关系。汉译英文学

库由小说和散文构成,小说大都是第三人称视角写作的,译

为英语时如果不改变视角,只能用第三人称指称语(如they,

或the students等)指称描述场景的所有人。可以设想,假如

语料中有更多第一人称视角写作的语料,指称在场的所有人

就可以用“我们”,对应的英文就是we。事实上,我们发现的

唯一两例“大家”和we的对应就出自汉语用第一人称写作的

散文的译文。

4.3“大家”和他称代词的对应

与前面的对应模式相比,“大家”和others、the rest的对

译较为出人意料。因为这两个词是明确表明除一个(些)人

之外的“他称代词”(吕叔湘,2002:188),容易想到的汉语对

应词是“别人”、“旁人”、“其余的人”等。对others的翻译范

式检索证实了这一点:英文原文中的others最常见的对应词

的确是含有“别人”、“其他”、“另”等明示他称意义的词(129

个others中的84个,65.41%)。正因为如此,英译汉方向

“大家”和others或the rest的对应只有两例。另一方面,正

如中文学者已经注意到的,“大家”从词形上没有表他称的形

素,却常指某个人或某些人之外的所有人(吕叔湘,2004:

143),见例15a。在汉语原创文本中有27个译成了英语的

others或the rest,是“大家”所有对应形式中第三多的,就突

显了“大家”的他称意义。

汉语的全称代词可以表示他称,英语也是如此,见例8a、

例9a。其实“所有人”、“人人”都既可以表严格意义的全称,

也可以指除某人或某些人之外的他称,具体的指称要靠语境

决定,这是形式语义学说的全称量词的语用松弛(Lasersohn,

1999)现象。此前语义学家只是凭个人语感说明它的存在,我

们的翻译语料证明这种语感是可靠的:汉语的全称词译为英

文时不同的译者都选用了他称词,这说明译者意识到了全称

词的语用松弛,在另一个语言中将缩小的指称范围用明确的

他称代词明示出来。我们在语料库中也发现了英语的全称词

everyone用汉语的他称代词翻译的例子。

15a.可是大家三五成群的出来,并没再找寻他。

b.But the others,coming out in small groups,ignored him.

16a.I had the feeling there were things he knew that the

rest of us don't.

b.我觉得他知道好多我们大家都不知道的东西。

“大家”和others,the rest的对应也显示出翻译偏向,英

语的他称代词译为“大家”的情况远少于“大家”译为others

等的情况。这可能是翻译活动的影响,因为others在汉语中

有和它一样明示他称性的对应项“别人”等,一些可以译为

“大家”的句子在源语的影响下被译为了形式和意义上更对

基于平行语料库的“大家”的对应研究

52

应的他称代词。

4.4“大家”和either 、

both 的对应前面讨论的“大家”都是指一定范围的多个人,在语料库里我们还发现“大家”可以指矛盾或对话的双方或两个人,这是语言学说的人称代词的双数意义(dual number )。例17a 出自《围城》,说话人是孙柔嘉,受话人是她的丈夫方鸿渐,从语境中可以看出“大家”指的是“你我”或“我们”、“咱们”,虽然指称意义是一样的,修辞效果却不尽相同,“大家”在人称上是模糊的,

更利于表现双方的共同性,“你我”突出了说话人和听话人的对立。可能正因为如此,例18a 中的you know an old shipmate .在直译行得通的情况下被译成了“大家都是老伙计”。例19中的“大家”指矛盾对立的双方,英译的both 把这“双方”的意思突显出来,中文的“大家”却比较模糊。

17a.柔嘉道:“你跟我有话么?……问你有什么心事,理

也不理———今天星期天,大家别吵,好不好?b....Today is Sunday ,so let's not quarrel ,OK ?18a.“Come ,Bill ,you know me ;you know an old shipm-ate ,Bill ,surely ,”said the stranger.

b.得了,比尔,你又不是不认识我。大家都是老伙计。19a.大家要为国家争气,工人不许闹罢工,厂家不许歇

业停工!

b.Both sides must do their level best to...

“大家”可以有双数意义,用来强调说话人和受话人双方的共同性这一点是从“大家”

译为both 得到启示而发现的,又由和英语的表双数的代词neither 和both 对应证明的。这说明翻译不仅能够为语义研究提供证据,还能够提供从单语语料库中得不到的灵感。

4.5“大家”和集体名词的对应

20a.People said it was heartbreaking to hear her call her

child.

b.她呼唤着孩子的名字……见此情形,大家都说真叫人心碎。

21a.At this point the house lit upon the idea of taking...b.这时候大家又想出了一个主意———

例20是“大家”和表多个人的集体名词对应例子。peo-ple 等集体名词和“大家”都用来指多人,故可以互译,这比较容易理解。其他因为表示很多人而和“大家”产生对应关系的词还有the crowd /men /congregation /feasters /students /servants /school /company 、his visitors 、her companions 等。如表1所示,“大家”和它们的对应关系在英汉和汉英两个方向占的比例很接近,更说明这两类构式之间的语义联系是英语和汉语两个语言社团都认可的。

例21显示的情况和“大家”与集体名词的对应类似,只是英文原文中的the house 本来不指称复数的人,用它来指“屋里的所有人”有一个认知语言学中的转喻现象。除the house 之外和“大家”有对应关系的转喻名词还有the room 、the city 、town 、village 、world 、all eyes 、all hands 等。

4.6“大家”和无施事被动式的对应

例22和23是“大家”和被动句相对应的例子:22a.导师跟学生同餐的那条规则,大家一致抗议b.The rule regarding tutors and students dining together

was unanimously protested.

23a.He was regarded as a wonderful reader.b.大家一致认为他的朗诵很精彩。b ’.*他被认为朗诵很精彩。

这种对应连用功能类型学的“非人称构式”这一概念能很好地解释。从功能主义的观点来看,“非人称构式”就是具有

“模糊施事”(agent backgrounding )功能的构式。Siewierska (2008)归纳出如下常见的非人称构式:1)德语的man ,英语的people 等专门的泛指人称词做主语的句子,

2)用来泛指(或称无指non-referential )的复数代词we 、you 、they 句,3)无施事被动句。

“大家”指一定范围的所有人,这个“一定范围”可以是所有人类,此时“大家”的指称意义相当于英语的one 和德语的man 这类通指代词(generic pronouns )。例22a 中的“大家”指在场的所有人,虽然是定指的,却也因为隐去了具体反对的人身份而具有模糊施事的功能,

因而和英语的无施事被动句在功能上是对等的,可以互译也是自然的。从语境上看,例23a 中因被动式而没有出现的施事是更大范围的很多人,也可译为“大家”,证明该词确实如Yi 和Siewierska (2011:565-566)所说,能够做泛指人称代词。

表1显示“大家”和无施事被动式的对应有明显的方向偏向:在英译汉中被动式译为“大家”的情况是9.38%,远高于汉译英中“大家”译为被动式的比率0.96%。我们认为这跟两个被比较的构式各自受的限制不同有关。虽然同为非人称构式,“大家”对动词的及物性没有选择,被动式却只能和及物性动词连用,

因此,例1a 类的不及物句和例4a 类带小句宾语的言语、心理动词句就不能译为英文的被动句。反过来,英语的被动句译成“大家”就没有及物性的限制。第二,和主动式相比,被动式本身是有语用限制的构式,它将受事提升到主语位置,成为注意焦点和话题,如果汉语原文中“大家”所指还是注意焦点的话,

译为被动句就有改变原文信息结构的可能,一般译者会比较谨慎。第三,汉语学者早就注意到和英语的被动式相比,被字句在汉语中是很受限制的一个句式,一般带有不如意或出乎意料的涵义,这意味着英语被动式译成汉语时,被字句常因语用意义的限制不能和“大家”竞争,于是增加了“被动式”

译为“大家”的概率,见例23b ’。此外,汉语中“我们”、“你们”、“学生们”等指称方式虽然也没有包含施事者的具体身份,却仍然比“大家”有更具体的语义信息———“大家”仅表示一定范围的多个人,

这个范围是什么,包不包括说话人、听话人都是模糊的,这无疑是最让说话人省力的指称方法,很可能因此得以成为英语被动式比较偏爱的对应形式。

4.7“大家”和there be 句的对应

如下所示,英译汉子库中有10个there be 句型和“大家”存在对应关系,占英译汉“大家”的对应项中的3.6%。我们发现,

所有译为“大家”的there be 句型中的名词都是动作动词的名词化形式,有些可以直译,如例24a 可以译为“一片沉默和严肃的气氛”,有些因为名词前有形容词很难直译,如例25a 。

24a.There was a silence and an air of solemnity that

struck a chill to the culprit's heart.

b.大家默不作声,显得十分严肃,这让他的心凉了半截。25a.There was finally a waiting pause ,an expectant dumb-

53

ness,and then Aunt Polly entered...

b.后来教堂里鸦雀无声,大家静心等候了一阵……

翻译教科书中常说,英语多用抽象名词,汉语多用动词,

there be+动作名词译为“大家”做主语的句子,确实是这一区

别驱使的。我们认为,二者能够成为对应项是因为它们都具

有非人称/模糊施事功能。西方学者已经发现英语和葡萄牙

语的存现结构具有这种功能,如Ziv(1982)指出,例26a中

的there be构式的功能是允许说话人不指明和政府合作机构

的身份。我们要补充的是,只有there be后面是动作名词时

存现结构才和模糊施事功能有关,因为动作名词是表达事件

的名词化形式,本身蕴含着施事和动作。另一方面,“大家”

也有模糊施事的作用,它的语义中除了含有“人”、“复数”之

外没有别的有关所指身份的信息,因此以“大家”做主语的句

子可以和there be+动作名词构式互译。

如果上述分析是正确的,there be+动作名词就应该还可

以和别的泛指人称词互译。我们发现,瑞典语的泛指人称代

词man和there be构式有稳定的对应关系。据Altenberg

(2004:104),在瑞典语和英语的平行语料库中的,2308个

man中有2%译为there be构式,译为man的1610个英语构

式中的3%是there be构式,和我们发现的英译汉方向的“大

家”和there be对应率3.6%很接近。此外,我们用CEPC英

汉文学库检索了there be构式和“人们”的对译,发现9例如

例27a、b这种情况,说明there be确实可以和泛指人称词对

应。看来,语言间泛指人称词和动作名词的存现结构的对应

有可能是常见现象。

26a.The President:There will be a total and complete co-

operation with the agencies of government to get at

the facts.(Ziv,1982:757)

b.Man talade mycket om henne.(Lit.“One talked a lot

about her)”

There was a lot of talk about her.(Altenberg,2004:

109)

27a.But at this moment there was a din of shouting and a

zoom of heavy vehicles.

b.可就在这时,人们吵嚷起来,左边的什么地方响起

重型卡车的嘎轧声

4.8“大家”的零对应

零对应(zero correspondence,Johansson,2007:26)指原文

和译文之间没有自然的匹配,通常被理解为原文中的构式在

译文中被省略,或译文中添加了某个原文中找不到对应构式

的情况(Hasselgard,2012:6)。零对应相当于翻译学者说的“省

略”和“添加”两种情况的统称,理解这一点就能把对比语言学

的研究和语料库翻译学者对人称代词在翻译中“隐化”和“显

化”的讨论结合起来。据王克非(2011:111-112),英译汉文学

翻译中英语的第一、二、三人称代词主语隐化(即省略,为零对

应的一种)的比率分别是27.32%、17.97%、29.86%,而人称代

词显化(即添加,为另一种零对应)的比率是2.05%,远远低于

隐化。我们的发现似乎和英译汉方向人称代词较多隐化的整

体趋势不符:英译汉文本中的“大家”有近19.13%都是译者添

加的,远高于2.05%。这就需要进一步研究这些零对应的情

况。英译汉添加“大家”的情况多属于例28所示的这种:

28a.But the impressiveness of the situation quickly wore

off,and the romping began again.

b.很快大家忘却这里的美景,……

29a.这样闹哄,一直到大家都吃过饭。

b.This din lasted till after supper.

这种对应明显和前面提到的there be+动作名词和“大

家”的对应类似:英语较常用抽象名词,汉语更习惯用动词这

一语言的整体差别促使译者在翻译时将例28a中表性质的

抽象名词改变成主动句,而“大家”因为常被用来指描述场景

的所有人,得以成为对应的主动句的主语。例29a中的具体

的动作句“大家都吃过了饭”被事件名词supper替代,则是英

汉语这一差别在反方向的体现。语料显示,译成“大家”做主

语的句子的英语抽象名词有动作名词、事件名词和表性质的

抽象名词三类,例如:tittering译为“大家忍俊不禁”,a pause

followed译为“大家沉默了一会儿”,all this terrible poverty译

为“大家都这么穷”等共27个,占53个英译汉方向的零对应

的50.09%。汉译英方向“大家”则都译为动作名词,共10

个,占全部汉译英方向的零对应的31.25%。

例30显示的零对应则只在英译汉方向出现。英语原文

是含有伴随状语的长句:resting,trading playthings...,添加

“大家”能够起到将原文中的长句分割成短句的功能。我们

在英译汉子库发现了6例这种情况。现有的技术不允许检

索英语含有伴随状语的长句的汉译情况,所以只能猜测英语

的长句在译为汉语时有被拆分为短句的趋势,而“大家”的语

义成分很少,比较容易成为添加的人称代词。

30a.White,mulatto,and negro boys and girls were always

there waiting their turns,resting,trading playthings,

quarrelling,fighting,skylarking.

b.有白人孩子,黑人孩子,还有混血孩子,男男女女都

在那排队等着提水,大家在那儿休息,交换各自玩

的东西,吵吵闹闹,争斗嬉戏。

上述两种零对应情况是由英汉语的系统性差别和“大

家”的语义共同造成的,占添加(显化)的“大家”中的大部分

情况(67.9%),因此可以说,虽然英译汉语言中添加的“大

家”明显高于前人发现的英译汉语言中人称代词总的显化比

率,但是造成隐和显的主要原因还是大体一致的,是语言因

素(柯飞,2005:307)。

还有一种零对应只在英译汉方向出现。比如it’s neces-

sary to译为“大家有必要……”,the close was satisfactory译

成使“大家都满意”等。注意这些构式也可以译为无主句,比

如“有必要”等。“大家”做主语的句子和无主句表达同一个

意思说明“大家”确实是无指的(non referential)。

其余的零对应基本上是因为改变原文的说法引起的,如

“似乎很知道大家为什么笑”译为“what was going on”等,限

于篇幅这里不再详细讨论。

5.结语

现在我们可以回答本文开头提出的问题了:双向平行语

料库显示的现代汉语文学类语篇中的“大家”在英语中的功

能对等项有everyone等全称代词、第一、二、三人称复数代

词、people、the crowd等指人的集体名词、others等他称代词、

基于平行语料库的“大家”的对应研究

54

both 等指双数的代词、无施事被动式、there be 构式和零形式。其中前3项是根据前人对“大家”的语义描述比较容易推出的,后5项是语料库显示的实际对应项。Others 等他称代词能够和

“大家”互译是因为全称代词经常因语用松弛现象而获得他称意义;和both 、neither 的对应是因为“大家”可以仅指双方或两个人,

相当于一些语言中的双数代词;和无施事被动式、there be 构式的对应主要在于“大家”和这些构式都具有模糊施事的功能。

“大家”在现代汉语小说和散文中最常见的功能是指称文本描述的某个场景的所有人,

这种意义英语一般用every-body 和they ;英译汉文本中的“大家”除了有上述功能之外,有相当一部分是在翻译含有抽象名词、被动句和带伴随状语的长句的英语原文时添加的,也是模糊施事功能的体现。正是由于这类情况的存在,英译汉时添加的“大家”的显化率明显高于前人发现的英译汉文学文本中人称代词的显化率。从“大家”和there be 的对应中我们还发现泛指人称词和存现结构的对应可能是各语言间常有的现象,而这是两个构式共同具有非人称意义的体现。

我们认为,“大家”的翻译对应项较多,和理论对应项的相互对应率偏低都和这个词的语义特征有关:它的语义中除了[人]和[复数]之外,[全称/他称/双数]、[人称(一/二/三)]、[定指/不定指/回指]等意义都需要根据语境来确定,这是以往文献没有注意到的,英语中似乎也没有完全和“大家”

对应的形式。以上这些发现的获得有赖于双向平行语料库的使用,以及对比语言学、语料库翻译学和普通语言学三种研究视角的结合,

因此在方法论上进一步证明了前人的观点:①对比语言学和翻译学研究可以互相启发、

密不可分;②双向平行语料库在前述三个研究领域都是十分有效的工具。注释:

①将everyone /everybody (下统称everybody )和nobody 等分别列出

主要是为了方便计算“大家”和everybody 的相互对应率。②例句中对应部分用下划线标出。成对例句中a 为原文,

b 为译文。为节省篇幅,译文只给出和讨论相关的部分。③这里的we 是英语第一人称复数代词的统称,含we 、

us 、our 。④另一个解释是英译汉子库中含有全称意义的代词出现较少,因而可以译为“大家”的来源项就少,但这一点需要对比汉译英和英译汉文学库中全部可以用全称代词的情况,目前很难实现。

⑤英语的复数第三人称代词they 还可能有不定代词的用法,参见Siewierska (2008),我们没有发现“大家”和这种they 的对应,具体原因限于篇幅不做讨论。

⑥注意这可能是一个语体特征,汉语讲话中指称听众的“大家”是很

常见的。

参考文献:

[1]Altenberg ,B.1999.Adverbial connectors in English and Swedish :

Semantic and lexical correspondences [A ].In H.Hasselgard &S.Oksefjell (eds.).Out of Corpora [C ].Amsterdam :Rodopi.[2]Altenberg ,B.2004.The generic person in English and Swedish :A

contrastive study of one and man [J ].Languages in Contrast ,(5):93-120.

[3]Altenberg ,B.&S.Granger.2002.Recent trends in cross-linguistic

lexical studies [A ].In B.Altenberg &S.Granger (eds.).Lexis in

Contrast.Corpus-based Approaches [C ].Amsterdam :John Benjamins.[4]Hasselgard ,H.2012.Using parallel corpora in contrastive studies :

Cross-linguistic contrast of future referring expressions in English and Norwegian [

J ].外语教学与研究,(1):3-19.[5]Johansson ,S.2007.Seeing through Multilingual Corpora :On the use

of corpora in contrastive studies [M ].Amsterdam :John Benjamins.[6]Lasersohn ,P.1999.Pragmatic Halos [J ].Language ,(3):522-551.[7]Noel ,D.2003.Translation as evidence for semantics :An illustration

[J ].Linguistics ,(4):757-785.

[8]Siewierska ,A.2008.Impersonalization :An agent based vs.a subject

based perspective [J ].Transactions of the Philological Society ,(2):1-23.

[9]YI ,Y.&A.Siewierska.2011.Referential impersonal constructions in

Mandarin [A ].In A.Malchukov &A.Siewierska (eds.).Imperson-al Constructions :A Cross-linguistic Perspective [C ].Amsterdam :John Benjamins.

[10]Ziv ,Y.1982.Getting more mileage out of existentials in English

[J ].Linguistics ,(20):747-762.

[11]柯飞王克非.2005.翻译中的“隐”和

“显”[J ].外语教学与研究,(4):303-307.[12]刘月华等.2004.实用现代汉语语法(增订本)[M ].北京:商务

印书馆.[13]吕叔湘.2004.现代汉语八百词(增订本)[M ].北京:商务印书馆.[14]吕叔湘.1944/2002.中国文法要略[M ].北京:商务印书馆.[15]秦洪武王克非.2009,基于对应语料库的英译汉语言特征分析

[J ].外语教学与研究,(1):131-136.[16]王克非等.2003.双语平行语料库:研制与应用[M ].北京:外语教学与研究出版社.[17]王克非.2011.语料库翻译学探索[M ]

.上海:上海交通大学出版社.[18]卫乃兴.2011.基于语料库的对比短语学研究[J ].外国语,

(4):32-42.

[19]赵世开.1981.英汉不定代词对比研究[A ]

.李瑞华编.英汉对比研究论文集[C ].上海:上海外语教育出版社.[20]赵世开.1996.The contrastive study of English and Chinese per-sonal pronouns :A preliminary pragmatic analysis [A ].李瑞华编.英汉语言文化对比研究[

C ].上海:上海外语教育出版社.[21]赵世开.1999.第二章:指称[A ]

.赵世开编.汉英对比语法论集[C ].上海:上海外语教育出版社.

[22]朱德熙.1983.语法讲义[M ].北京:商务印书馆.

Abstract :This paper describes and analyzes the English corre-spondences of the Chinese pronoun “dajia ”as demonstrated by the bidirectional English and Chinese parallel corpus.Eight types of correspondences are found as the translation paradigms of “dajia ”in English :1.universal pronouns such as “everybody ”,2.1PL ,2PL and 3PL pronouns ,3.nouns denoting a group of

people such as “people ”and “the crowd ”

,4.pronouns or nouns denoting people excluding one person such as “others ”,5.dual number pronouns such as “both ”,6.short passives ,7.there be +nominalized nouns ,8.zero correspondence.Concepts and the-ories in contrastive linguistics ,corpus-based translation study ,semantics and functional typological study are employed to ex-plain the less expected correspondences.Methodologically this research proves the potential of the bidirectional parallel corpus to reveal insights in the aforementioned fields of linguistic study.Key Words :bidirectional parallel corpus ;correspondence ;pro-noun ;“dajia ”

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术 在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a);②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993);③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。 基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。 基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。 如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

平行语料库制作流程

平行语料库制作流程 说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。) 1.语料采集(目的不同,方法各异) 2.去噪(Emeditor) (1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。) (2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。之所以如此,是因为英文单词之间是有1个空格存在的。)中文\s*替换为空(\s表示空格,*表示0个或更多。该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。之所以如此,是因为汉字之间是有0个空格存在的。) 3.分词 英文Claws 中文ICTCLAS (可以选择二级标准,北大标准) 中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns; 4.标点符号处理 英语标点符号全部替换成单个标点。(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加标志是会造成默认三个英语句号标识。两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。建议所有查找和替换操作都从文本中复制以免格式不匹配。 中文标点符号全部转成英文状态下的半角格式并去除其词性标注/w。(ICTCLAS标注后的中文标点及其标注显示为“标点/w”;以问号?为例,即“?/w”;更改后,变为“?”即可。特别提醒:一些中文特有的标点符号如“……”;“破折号”;“、”“《》”等,我们认为可以分别替换成“---”(三个);“--”(两个);“/”;“<>”) 问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。)“我……我……我怎么了?”这个时候……并不是一句话的结束。 “啊……”这个时候……是一句话的结束。 4.添加对齐标志(中英文一致) 考虑到有时在对话中句号、问号和叹号加上了引号,即.”、?”、!”,也代表一句话的结束,因此我们建议分三步添加对齐标志:(1)用特定符号,如11111111,替换带引号的句号、问号、叹号,目的在于避免对其标志出现在引号之内。(2)句号、问号和叹号之后添加对齐标志。(3)在11111111之后添加对齐标志。

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷(作业)封面(2016 至2017 学年度第一学期) 学号 姓名 题目《双语平行语料库在翻译教学上的用途》评述 课程名称语料库语言学 专业英语语言文学 入学年月2016年9月 培养方式 全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。 作者:王克非,曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任,现任《外语教学与研究》杂志主编,博士生导师,研究方向为语言学和翻译研究。 研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例,探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索(词语的对译检索、结构的对译检索和语句语篇的对译检索)时找到合适的对译,提高他们的英语语感,掌握正确的翻译方法。 研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库(3000万字词)为例,探讨它在翻译教学上的用途。首先,本文作者采用了随机抽取的方法对克服(overcome)和找(find)进行了检索,找到了他们不同的翻译方法和用法;然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译;最后作者从台湾大学高建明所建的英汉平行语料库中,以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。 结论:在翻译的教学和实践中,双语平行语料库和检索工具的运用不仅给译者提供了方便,而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣,让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源,应当引起

中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制 王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。 关键词:中国英汉平行语料库;设计;研制 Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora. Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction 1、中国英汉平行语料库的研制意义 在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告 随着“一带一路”战略的提出,中外文化交流日益频繁,这种现象对翻译行业提出了更高的要求。因此,采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此,本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。 一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今,“一带一路”一直是连接东西方文化的重要纽带,尤其是在新的历史时期,“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示,经济和文化的走出去导致了中译外工作量的增加,但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库,如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等,但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机,建设“一带一路视角下的中英语料库”,为“一带一路”战略中相关政策的英译提供便利,从而加强中外交流。 青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来,翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动,在此过程中,翻译人员遇到了一些问题:如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合,通过对大量真实语言数据的研究,将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中,将中英双语语料库作为教学手段,方便译者查询、理解及使用相关名词,切实提高其翻译质量。另外,该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导,这为本项目的顺利开展提供了重要保障。 二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用 肖庚生 陈欣 (南华大学 外国语学院,湖南 衡阳 421001) 摘 要:文章在综述现有旅游语料库的基础上,介绍了自建的衡阳旅游汉英平行语料库的建库步骤,即语料的取样、英译、标注与对齐,并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要,亦能促进导游、翻译等英语人才的培养,进而推动当地旅游产业的发展及跨文化传播。 关键词:旅游语料库;双语平行语料库;旅游英语 中图分类号:H030文献标识码:A 文章编号:1673-2219(2012)10-0163-03 近30年来,语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生,语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中, 并取得了累累硕果。[1]为了研究或应用的需要,国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来,双语平行语料库由于其独特的优势备受关注,其建设与应用正如火如荼地进行。不过,迄今为止,国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。此外,基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状,我们拟以课题研究为契机,建设衡阳旅游汉英双语平行语料库,在此基础上,力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。 一双语语料库与旅游语料库综述 双语语料库最早创建于上世纪90年代中后期,迄今为 收稿日期:2012-08-26 基金项目:衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”(项目编号2011C011);全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”(项目编号GPA105029)阶段性成果。 作者简介:肖庚生(1980-),男,湖南衡阳人,讲师,应用语言学博士生,主要研究方向为语料库语言学。陈欣(1983-),女,湖南郴州人,讲师,语言学硕士,主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年,曼彻斯特大学研制了世界上首个翻译语料库,主要收集从各国语言翻译成为英文的文本,如今库容已达千万词。但是它并非严格意义上的双语平行语料库,因为它并没有实现双语对齐,只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),库容为3000万词次。其中,汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助,目前正为1亿词次的超大库容做进一步的扩容努力。此外,国内比较知名的双语平行语料库还包括:李德俊以汉英词典研编为主要目的,主持建设2000万词次的英汉平行语料库;卫乃兴以研究探讨英汉对等表达为目的,主持建设900万词次的英汉平行语料库;哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库;绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主,抑或以收集百科文本(含文学与非文学作品)为特色,而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。 近年来,随着交通与通讯技术的日新月异,世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是,各国人们纷纷走出国门,畅游世界,体验世界各地的异域风情,许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客,同时亦为了满足语言学及应用语言学研究需要,旅游专门语料库应运而生。 163

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1.概述 半自动英汉双语平行语料库的对齐分为两个过程: 第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。 第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。 在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。 为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2.人工对齐的方法 2.1打开文件 先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1) 2.2 上下移动文本 为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本 在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

中文平行语料库

中文平行语料库 机器翻译需要的平行语料库一库难求,笔者列举了一些免费的中文数据集,可用于中文和其他语言之间的机器翻译。 1.汉英10000平行语料库https://www.wendangku.net/doc/3015256069.html,/data/14779 10000句对规模的英汉双语句对齐语料库,已经做了分词和句子对齐。 2.汉英22万句对法律类句子对齐语料https://www.wendangku.net/doc/3015256069.html,/data/14261 22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐,还得做预处理 3.汉英双语句对齐语料库(1500句对)https://www.wendangku.net/doc/3015256069.html,/data/13290 1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐,还得做预处理 4.最大开放字幕库OpenSubtitles的多语言平行语料数据 https://www.wendangku.net/doc/3015256069.html,/data/14469 https://www.wendangku.net/doc/3015256069.html,是全球最大的开放字幕库,提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库,包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大,压缩后还有2.38G 5.PHP手册的多语言平行语料库 https://www.wendangku.net/doc/3015256069.html,/data/15045 将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有278M 6.KDE手册的多语言平行语料库https://www.wendangku.net/doc/3015256069.html,/data/15025 将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有88M

平行语料库的相似语句去重算法

广西科学院学报 2009,25(4):248~250,256 Jou rnal of Guangx iA cadem y of Sciences V o l .25,N o .4 N ovem ber 2009收稿日期:2009210210 作者简介:申文明(19842),男,硕士研究生,主要从事信息检索和自然语言处理方面的研究工作。 3南宁市人才小高地基金项目(N o .2007007)资助。 平行语料库的相似语句去重算法3 A lgor ithm for Rem ov i ng Si m ilar Sen tence on Para llel Corpus 申文明1,黄家裕2,刘连芳1,2 SH EN W en 2m ing 1,HU AN G J ia 2yu 2,L I U L ian 2fang 1,2 (1.广西大学计算机与电子信息学院,广西南宁 530004;2.南宁平方软件新技术有限公司,广西南宁 530003) (1.Schoo l of Com p u ter ,E lectron ic and Info rm ati on ,Guangx i U n iversity ,N ann ing ,Guangx i ,530004,Ch ina ;2.P ingsoft N ew T echno logy Co .L td .of N an ing ,N ann ing ,Guangx i ,530004,Ch ina ) 摘要:尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴K M P 算法的匹配跳跃思想,提出中文字符串匹配的类K M P 算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。关键词:去重 相似句子 平行语料库 类K M P 中图法分类号:T P 39113 文献标识码:A 文章编号:100227378(2009)0420248203 Abstract :T he si m ilarity of Ch inese sen tence is classified and dup licated sen tence is rem oved .Sen tence si m ilarity dep ends on si m ilarity of un itary facto r and p artial facto r .A cco rding to the idea of K M P ’s jum p ,the si m u lar K M P in ch inese sen tence is u sed .T he exp eri m en t resu lts show that the algo rithm is effective ,the recall rate of dup licate rem oval reach 94%,and the p recisi on rate reach 84%in large scale testing .Key words :dup licate rem oval ,si m ilar sen tence ,p arallel co rp u s ,si m ilar K M P 平行语料库是语料库的一种,是由原文本及其对应的翻译文本构成的语料库[1]。平行语料库将原文和译文经过对齐处理,可以提取出翻译对应语,因而广泛应用于基于实例的机器翻译(EBM T )。平行语料库不仅可以用于机器翻译,还可以在人机交互翻译中给译员提供翻译范例,帮助译员快速、高质量地完成翻译工作。 平行语料库的语料对齐单位根据粒度的大小可以分为篇章、段落、句子、短语、词等多个档次,其中最为重要而且较为成熟的是基于句子的对齐。平行语料库中句子的质量关系着整个机器翻译系统的效果和效率,所以对原始语料句的筛选是保证语料库 质量的重要前提。 当前,语料库语料的重要收集方法之一是通过网络自动获取,但是在网络中存在着大量重复或相似的句子。基于平行语料库的机器翻译系统所需要的双语句对一般在百万级以上,如果把这些冗余的句子放入平行语料库,不但会浪费存储资源,而且还会影响翻译系统的工作效率和翻译质量。因此在构建语料库的前期工作中,根据中文语句去掉大量重复或相似的句对是一项具有实际意义的工作。 句子去重就是在收集语料的时候把重复的或者极其相似的句子去除。对于完全重复的字串,陈桂林等通过字串的首字符和字串的长度进行H ash 运算,将首字符或长度相等的字串聚成一个子类,然后对每个子类进行快速排序,对每个子类进行去重[2]。但是我们在语料库的收集中发现:不仅要去掉完全重复的句子,还需要去掉极其相似的句子。例如当一个句子中的某个分句或短语整体发生移动之后,它与

基于Web的双语平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统1 叶莎妮吕雅娟刘群 中国科学院计算技术研究所智能信息重点实验室 {yeshani,lvyajuan,liuqun,}https://www.wendangku.net/doc/3015256069.html, 摘要:利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统。首先,介绍了系统框架和主要模块;其次,详细描述了各个模块的实现与创新技术;最后,给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。 关键词:双语语料;网页挖掘;平行网页 A Bilingual Corpus Automatic Acquisition System Based on Web Abstract:Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web,and analyzing their content and links. First,introduced system framework and main modules;second,described every module and technology innovations in detail.A prospect for the next step was given at last.This system provided an effective way for achieving Chinese-English parallel corpus. Keywords:Bilingual Text;Parallel Corpora;Web Mining; 1.引言 语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brown et al.1990;Melamed2000;Och and Ney2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g.,Gale and Church1991;Melamed1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g.,Davis and Dunning1995;Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。 双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。 研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。 收稿日期:2007-06-30返稿日期:2007-XX-XX基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮,硕士研究生,主要研究方向为自然语言处理技术(yeshani@https://www.wendangku.net/doc/3015256069.html,);吕雅娟,工学博士,主要研究方向为计算语言学与机器翻译;刘群,工学博士,主要研究方向为计算语言学与机器翻译

相关文档