当前位置：文档库 › 基于语料库的翻译研究

基于语料库的翻译研究

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义【摘要】基于语料库的翻译研究在当今已进入一个全新模式，多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析，揭示语料库对于翻译研究的意义。【关键词】语料库；翻译；双语语料库；平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan （Eastern Liaoning University，Dandong Liaoning 118000，China）【Abstract】Translating research based on corpus has stepped into a new mode today，and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating，which exemplify the significance of corpus to translating research. 【Key words】Corpus；Translating；bilingual corpus；Parallel corpus “语料库”的英语单词corpus来源于拉丁语，意思是body，有“全集”的含义，即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合，是描述自然发生语言的集合；也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集，旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出，“语料库是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库，它的设计和建设是以系统的理论语言学原则为依据，并且具有明确的目的性。语料库的结构严格依照既定程序设定，以一定研究目的为基础，按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究，语料可以随机抽取或按统计学方法采集。语料库的类型和分类标准很多。按用途分，语料库可分为通用语料库（general corpus）和专用语料库（specialized corpus）；按语料选取时间，语料库可分为历时语料库（diachronic corpus）和共时语料库（synchronic corpus）；按不同结构，语料库可分为平衡语料库（balanced corpus）和自然随机结构语料库（random structure corpus）；按语料库的性质，语料库可分为原始语料库（raw corpus）和标注语料库（annotated corpus）；按语言种类，语料库可分为单语语料库

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学？ 2. 语料库翻译学的理论基础？ 3. 语料库翻译学的研究内容？ 4. 什么是翻译共性？根据研究课题的来源，语料库翻译学的研究领域分为三类。第一类源自传统译学研究，包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。基于语料库的文学翻译研究以文学翻译作品的文本分析为基础, 研究文学翻译理论与实践的相关课题。这些课题具体为：1）意象和人物形象的再现与变形，2）文学风格的再现与重构，3）文学翻译的创造性，4）译者风格，5）文学作品空白和未定性的翻译，6）文化负载词的翻译，7）误译和漏译研究。基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析, 揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前，翻译史研究大多将翻译家的观点或言论视为客观现实，满足于翻译事实的罗列，对于翻译规范和历史语境关注不够。事实上，翻译家的所做与所言往往不一致，翻译家所言并不能反映其翻译作品的特征。此外，翻译是一种特殊的社会文化行为，受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征，归纳不同历史时期的翻译规范，可以阐明翻译家的所作所为，还原历史的真实面貌。另外，该领域的研究还通过提取语料库的篇头信息，对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出，语料库翻译学与翻译史均强调对研究对象进行客观描写，重视还原语境方法（con textualizatio n）的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。以上研究均属语料库翻译学理论层面的研究，而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用，后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术，建设具有海量信息的知识库，以满足机助翻译或自动翻译的需求。基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征，研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究，既有理论层面的探讨，也有实践层面的分析。第二类研究领域源自描写性译学研究，涵盖翻译共性、翻译规范和批评译学等领域的研究。翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征, 与源语和目的语之间差异无关，具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No． 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院，福建厦门 361005;济南大学外国语学院，山东济南 250022) ( 山东大学外国语学院，山东济南250061) ( 厦门大学外文学院，福建厦门361005) ［摘要］本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本，从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉，梳理其主要研究脉络和现状，总结语料库翻译学研究的成就、问题与趋势，以期能为该领域研究提供全景式的概况。作者认为，当前研究还存在诸如研究内容与视角比较狭窄，跨学科性研究不足，定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问题，亟待有针对性的改进与完善。［关键词］语料库翻译学; 翻译共性; 译者风格; 口译［中图分类号］H059 ［文献标识码］ A ［文章编号］1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中，使语料库翻译研究迅速发展，逐步近几年，语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa，1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看，她还非常年轻，从1993年Mona Baker发表了新的方法和思路，现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年，刚刚走过了短短的20 从一定程度上来讲，语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步，肇始于和描写性翻译研究的相加，二者的结合可以说是相1993 年，代表作为杨惠中《语料库语言学与机器翻得益彰，在当今翻译研究注重描写和实证的趋势下，译》一文。如今，国内语料库翻译研究已初具规模，语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象，从大规模翻译文本或翻译语言整体入得了可喜的进步，Tymoczko( 1998: 652) 曾大胆预言手，采用语内对比与语际对比相结合的模式，对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释，探索翻译的本质。( 王克非、近20年，特别是近几年涌现出一大批语料库翻译学黄立波，2008: 9-14) 的专著和论文，国家社科基金和教育部人文社科基金对该领域的研究也进行了倾斜。鉴于此，笔者认 3 数据采集为极有必要对其发展脉络进行梳理和分析，以期为近几年，国内基于语料库的翻译研究发展迅速，今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展，发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势，笔者统计了近20 库翻译学的学术论文为基础，借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章，该统计涉及2012-2013年版CSSCI外语类来源期刊( 包括扩展版) 共15种，2 语料库翻译学基本原理收集有关文章共97篇，具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用［基金项目］本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中，得到秦洪武教授的悉心指点，谨致谢忱! ［收稿日期］2013-02-20 ［作者简介］宋庆伟，厦门大学博士生，济南大学外国语学院讲师，研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华，山东大学外国语学院讲师，研究方向: 语料库语言学与英语教学; 吴建平，厦门大学外文学院教授，博士生导师，研究方向: 翻译学与双语词典学。

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心，以翻译教材为学习载体，学生在上完课之后很难具备一定水平的翻译能力。针对于此，我们把双语平行语料库及相应的检索功能引入到翻译教学当中，以提高翻译教学质量，提升学生的翻译能力。标签：双语平行语料库；翻译；教学双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台，与普通的词典相比，这种翻译方法更加准确、便利、快捷，更新速度快，可以提供大量真实的双语对译语料以供学习者查询。何安平指出，将语料库引入翻译教学，会改变传统的翻译教学模式，使学生可以开展各种学习活动，比如互动式学习、开放式学习和分析归类型学习，这一系列学习可以激发学生的好奇心、求知欲，帮助学生塑造的批判精神和反思精神，为培养学生的创新思维提供了条件。本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译曾有人提出，平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英，在很多时候英汉两种语言不存在一一对应的词汇，一词多义的现象很普遍，这就意味着这个词有多种译文；而且，在某些特定的语境中，有的词被赋予固定的意思，这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例，在北京外国语大学通用汉语双语平行语料库中检索，发现24处“克服”一词中，有15处翻译为overcome。在学生学习完这24个例子后，他们就会明白，在以后的翻译中，不是所有的“克服”都用overcome翻译，在其他情况下使用cope with，fight down，get rid of 等会更加贴切。学习者可以借助双语平行语料库的真实语境平台，找到单词在不同语境下的地道翻译，既丰富了词汇量，快速准确地译出对应语，同时可增强语感，提升双语翻译能力。 2.基于双语平行语料库的句式翻译有时候，学生会感觉无论是英语还是汉语，其中一些句式很难理解，至于翻译更是无从下手。在这种情况下，双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式，很多学生张口就翻译为“据说”，好像也没有人怀疑过；包括我本人在接触双语平行语料库之前，见到it is said that也随口就翻译为“据说”。但是，笔者通过双语平行语

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始，但是早在这以前很多人已经提出了相应的想法，甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。在1946年，美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时，英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时，就提出了利用计算机实现语言的自动翻译的想法。在1949年，韦弗发表了一份名为《翻译》的备忘录，正式提出了机器翻译问题。他提出了两个主要观点：第一，他认为翻译类似于解读密码的过程。第二，他认为原文与译文“说的是同样的事情”，因此，当把语言A翻译为语言B时，就意味着从语言A出发，经过某一“通用语言”或“中间语言”，可以假定是全人类共同的。在这一段时间由于学者的热心倡导，实业界的大力支持，美国的机器翻译研究一时兴盛起来。 1964年，美国科学院成立语言自动处理咨询委员会，调查机器翻译的研究情况，给出了“在目前给机器翻译以大力支持还没有多少理由”的结论，随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期，随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容经过50多年的发展，在机器翻译领域中出现了很多的研究方法，总结如下：●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法基于实例的方法（含模板、翻译记忆方法）基于统计的方法在当前的研究中，更多的是基于统计的方法进行的，因为基于统计的方法可以充分的利用计算机的计算能力，并且并不需要过多的语言学知识作为支撑，可以让更多的计算机科学家投入到实用系统的研究中，极大的促进了统计机器翻译的发展。下面对各个方法逐一的进行介绍。

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要：语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源，它与自然语言处理有着相辅相成的关系，是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域，为进行大规模的真实性文本的语义分析提供了有利的支持，它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用，如今国内外对语料库和知识库的研究给与高度的重视，经过过去几十年的发展，各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理，重点介绍目前国内外在语料库和知识库方面的研究现状。关键词：语料库；知识库；研究现状 1前言语料库是指按照一定的语言学原则，运用随机抽样的方法，收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用，全面有组织的知识集群，是针对某一（或某些）领域问题求解的需要，采用某种（或若干）知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用，所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始，大批国内外的专家学者致力于语料库和知识库的研究，近年来国内外对于语料库知识库的研究取得了重大的突破，形成了规模不一的各种语料库和知识库，并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究，不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势，对今后语料库知识库的发展具有一定的指导作用，而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出，并由此泛化产生了基于模板的机器翻译方法。下面我们分别介绍几种典型的机器翻译方法：（1）基于规则的机器翻译方法

从Chomsky提出转换生成文法后，基于规则的方法一直是机器翻译研究的主流，Chomsky认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。