文档库 最新最全的文档下载
当前位置:文档库 › 人工智能与机器翻译.

人工智能与机器翻译.

人工智能与机器翻译.
人工智能与机器翻译.

人工智能与机器翻译(A,B 卷

七个大题:1. 名词解释 2.题解 3.智能知识 4.机器翻译方法

5. 技术阐述

6.分析题

7.应用题

A. 名词解释 :

a. 机器翻译 :计算机程序做人的翻译。

b. 兼类 :一个单词既可以作名词动词又可以作其它词类。

c. 人工智能软件技术 :知识表示,知识推理,知识学习。

d. 人工智能 :用计算机模拟人的行为。

e. 交集型歧义 :一个字和前面的字可以成词,跟后面的字也可以成词。

f. 组合型歧义 :一个字可以和前面的字成词也可以同后面的字成词,连起来也可以成词。

g. 语法分析 :分析一句话的语法含义。

h. 语料库 :单词,短语,句子的集合。

i. 自然语言理解 :用计算机程序去理解一篇文章的含义。

B. 题解 :

第二章 P36 2-1,2-2

例 2.1 设有下列语句:

(1 高山比他父亲出名。

(2 刘水是计算机系的一名学生,但他不喜欢编程序。

(3 人人爱劳动。

为了用谓词公式表示这些语句,应先定义谓词:

BIGGER(x,y:x比 y 出名

COMPUTER(x:x是计算机系的学生

LIKE(x,y:x喜欢 y

LOVE(x,y:x爱 y

M(x:x是人

定义函数 father(x表示从 x 到其父亲的映射此时可用谓词公式把上述三个语句表示为:

(1 BIGGER(高山, father(x

(2 COMPUTER(刘水∧∽ LIKE (刘水,程序

(3 (任意 x (M(x->LOVE(x,劳动

例 2.2 设有下列语句:

(1 自然数都是大于零的整数。

(2 所有整数不是偶数就是奇数。

(3 偶数除以 2是整数。

定义谓词如下:

N(x:x是自然数

I(x:x是整数

E(x:x是偶数

O(x:x是奇数

GZ(x:x大于零

另外,用函数 S (x 表示 x 除以 2。此时,上述三个句子可用谓词公式表示为: (任意 x (N(x->GZ(x∧ I(x

(任意 x (I(x->E(x∨ O(x

(任意 x (E(x->I(S(x

C. 智能知识(4分一个 :

a. 人工智能软件与普通软件的差异?

普通软件由数据库,控制程序组成。智能软件则多了一个知识库。

b. 说明人工智能运用领域 (P11-20, 任选 7个答即可

1. 问题求解

2.逻辑推理与定理证明

3.自然语言理解

4.自动程序设计

5.专家系统

6.机器学习

7.人工神经网络

8.机器人学

9.模式识别 10.机器视觉 11.智能控制 12.智能检索 13.智能调度与指挥 14.系统与语言工具

c. 阐述几种推理方法:

3种: 1.普通匹配方法(利用规则匹配进行下一步

2. 回溯方法(如果推理过程中发现不利因素,就要回溯

3.A*算法(利用经验公式使推理朝着有利方向前进

D. 机器翻译方法:

a. 试述机器翻译的 4种方法和特征:

方法:1. 转换式的方法特征:利用了语法语义关系

2.中间语言的方法特征:假想每种语言都能转换到中间语言

3.统计的方法特征:利用了数学统计原理

4.实例的方法特征:利用了类比相似语句

b. 试述狭义的机器学习方法和广义机器学习方法。

狭义:人工向计算机输入知识

广义:希望计算机自动学习知识

c. 说明智能软件与通常软件相比较的性质。

通常软件:通用性,确定性,有效性

智能软件:局部性,试探性,针对性

d. 阐述智能实施的三个组成部分及含义:

1. 知识表示(用一种方法将知识表示出来

2. 知识推理(设计程序让知识按有效的路径行进

3. 知识学习(让计算机学习知识

e. 试述机器翻译四种方法。同 a

f. 机器词典有哪些用途?

双语词典(用作基本翻译

专业词典(深入到某个专业让翻译更准确

成语词典(给成语一种更确切的解释

g. 阐述产生歧义的几个方面。 P129 5.71

1. 词组的多义产生的歧义。

2. 由计算机程序在自动分词阶段产生的歧义。

3. 由词典大小产生的歧义。

4. 由自然语言的二义性产生的歧义。

h. 试述专家系统,知识工程,人工智能的关系。

专家系统是深入到某个领域专业研究人工智能, 知识工程从软件角度研究人工智能,人工智能无论硬件,软件方向一起研究人工智能。

i. 阐述类比搜索方法的过程。 P75

人类求解问题的一个重要特点, 就是常常利用以前求解相同或相似问题的经验来指导新问题的求解。即利用类比获得与新问题相似的过去问题的求解过程,作为启

发信息来指导新问题的求解,这样可以缩小搜索范围,降低问题求解的复杂性。

E. 技术阐述(6分一个 :

a. 试述自动分词算法 P115

A1:一条汉语语句分划成单一字符X1, X2,… ,Xm 。

A2:决定语句中可能出现的词最大字符长度 Lmax, 最小字符长度 Lmin.

A3:逆向匹配,取语句最后的 Lmin 个字查关键词库,若查不到,加入一个字重复此工作,直至字符数为 Lmax 为止。

A4:若实施 A3查不到词, 去掉语句中最后一个字, 再实施 A3, 直至整个语句只剩下 Lmin 为止。

b. 试述什么情况下需要回溯 P66

(1 新生产的状态在通向初始状态的路径上已出现过。

(2 从初始状态开始,应用的规则数目达到所规定的数目之后还未找到目标状态(这一组规则的数目实际上就是搜索深度范围所规定的。

(3 对当前状态,再没有可应用的规则。

c. 试述产生式规则不一致的原因。

(1 循环规则:由数个规则的前提和结论形成一个循环链,最终由末尾规则的结果子句推出起始规则的前提部分;

(2 冲突规则:两个规则的前提条件等价,但一个或多个结果子句有矛盾或者前提子句有矛盾而结论部分完全等价; 也有可能由多条规则链形成冲突规则集;

(3 冗余规则:两个规则的前提条件等价,一个或多个子结果子句也等价;

(4 从属规则:两个规则有相同的结果,但其中一个包含有多余的约束条件。

d. 试述歧义问题的种类。 P129 同 g

e. 最简单的机器翻译步骤。

原文输入 ->词法分析 ->句法分析 ->语法分析 ->语义分析 ->语境分析 ->语用分析 ->调序 ->目标文生成。

F. 分析题:

P117-119 抽 4道题 (歧义字段,什么歧义类型

G. 应用题:P64 例 3.2(12分

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器在线翻译与人工翻译的比较

现如今大家各个国家的人群交流的越来越多,以至于语言自然而然的要学习的更多,如果机器翻译也就是“一点翻译”与人工翻译摆在一起,大家都知道选择人工翻译,因为人工翻译准确性高并且是根据文章上下文进行翻译的,那机翻真的没有优点了么,错,机翻的优点有很多,比如单词准确性高,面对偏僻的词汇也是可以翻译的,翻译语句的时候虽然不是很精准,但是对于了解语言的我们来说也可以根据翻译进行大致的了解,话不多说,简单的来介绍一下如何在线翻译吧。 步骤一:我们要先在电脑上准备好需要进行翻译的文件,最好是将其添加至桌面上,或路径不复杂的文件框内,同时还需要借助电脑浏览器搜索一点翻译,进入相关的界面。 步骤二:通过搜索可以看到“一点翻译“在百度里面的页面,进入在线翻译的界面后,我们就可以在页面的中心位置通过上传文档按钮进入文档翻译的选项页面了。

步骤三:进入文档翻译的选项页面后,我们可以先对上传文档按钮上方的一些选项进行修改(也就是下图里面的选项)这样可以帮助我们更好的实现翻译。 步骤四:上面的选项修改好后,我们就可以开始将准备好的文件添加进来了,可通过点击上传文档按钮或者是拖拽的方式将文件添加进来。

步骤五:文件添加进来后,可再次去翻译的自定义选项是否修改好,若确定修改好后,就可以通过开始翻译按钮,对PDF文件进行翻译了。 步骤六:翻译的时间根据翻译的文件的大小来定制,耐心等待文件翻译结束后,我们可以通过预览按钮对翻译后的文件进行预览,也可以直接将翻译后的文件下载到电脑上进行保存。

在线翻译与人工翻译最大的优点是速度快,方便,准确性高,如果不是相对了解很透的语句的话建议在“一点翻译”内进行在线翻译,小编已经尝试过了,感觉蛮好的哦。

人工智能与机器翻译习题答案.doc

2、产生式系统有哪些类型? 1正向、逆向、双向产生式系统 2可交换的产生式系统 3可分解的产生式系统 3、试举例说明不可撤|口|搜索方法的基本思想? 这种方法相当于沿着单独一条路搜索下去,利用问题给出的局部知识决定如何选取规则, 就是说根据当前可靠的局部知识选一条可应用规则并作用于当前综合数据库。接着再根据新状态继续选取规则,搜索过程一直进行,不必考虑撤回用过的规则。 9、试说明产生式系统规则不一致的原因及解决方法。 原因:规则集中存在的不一致是影响系统性能的重要因素之一。系统建立初期,由于规则集较小,内容也比较简单,设计人员能对每一条规则的条件和结论部分反复推敲和精心构造,这类问题容易防止。但随着时间的推移,新的规则不断加入,规则集合越来越大,内容也越来越丰富,这时规则间的相互影响和相互联系就随之变得复杂。在此情况下,规则的不一致就将自然产生, 解决:(1) 对于循环规则,可构造规则集的IF-THEN图,从起始规则的条件部分开始搜索,如果搜索过程中遇到的THEN部分已在前面出现,就可以中断搜索,规则集中包含的循环规则子集合需设计人员检查,解决; (2)对于冲突规则,构造IF-IF表,对规则集内有相同的IF规则子句构造规则树,形成推理图。同时建立THEN-THEN表用以判断是否有冲突规则出现。对相同IF部分的规则继续用它的各自THEN部分作为其它可以匹配的IF前提条件,递归地构造,如发现两个推理图上分别有节点在THEN-THEN表上是矛盾的,则检测出冲突规则,人工予以解决。 (3)对冗余规则和从属规则的检查类似于冲突规则链的方法.不同之处是前者在推理图中的遍历是试图发现有THEN部分等价的两条规则。 1、机器翻译主要有娜些方法?这些方法各有什么特点? 1基于分析和转换的机器翻译方法 这样的方法有两个特点:一是面向源语言分析,因为源语言中的一个句子已经由句法、语义分析等阶段分析完毕,生成了关于源语言句子的某种中间表示,转换以这种源语言中间表示作为输入;二是直接转换,即对于S表示,直接给出译文形式,一般不需要在目标语言内再作进一步转换,Tl~Tj可以直接包括目标语言的词汇,也可以是对应于Sl~Si的译文组块。 2基于中间语言的翻译方法 基于中间语言的机器翻译方法主要有两个优点。首先,独立的中间表示形式为多语种之间的互译的实现提供了一种经济有效的途径。假设要对N种语言进行互译,则有N*(N.1)个语言对。不同方向的翻译是不同的语言对。此时如果采用基于转换的方法,因为把一种语言翻译成另一种语言都需要一个不同的转换机制(或模块),所以N火(N?l)个语言对共需要N*(N-1)个独立的转换机制。而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言的目标语言这样两个模块,所以总共只需要2N个模块。其次,中间语言不仅是对基于中间语言的机器翻译方法这一特定目的有意义, 同时,作为一种通用的自然语言表示,也值得深入研究。 4.1.3基于统计的机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基木原理是实现源语言词汇到目标语言浏汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用

机器翻译评测大纲

机器翻译评测大纲 一、评测对象 本次评测的对象包括:汉-英、英-汉、汉-日、日-汉机器翻译系统中的核心技术。 二、评测内容 本次评测组织两种语料的评测,一种是篇章语料,一种是对话语料。领域是面向奥运的相关领域,包括体育赛事、天气预报、交通住宿、旅游餐饮等。 本次评测的评测指标包括译文质量和翻译速度。 三、评测方法 1. 评测方式 本次评测为现场评测。采用的是以人工评测为主,人工评测和自动评测相结合的方式。 人工评测方式是:由评测组织单位将各个评测单位提交的评测结果汇总在一起,然后用计算机随机打乱译文句子的排列顺序。再将所有译文句子提交给多位专家进行人工评测。将专家评测的结果汇总,用计算机还原成原来的排列顺序,分别计算出各个评测单位的总得分。 2.评测步骤 ?在评测单位统一提供的评测环境上安装被测系统 ?评测单位给出评测数据 ?被测单位运行系统,提交评测结果 ?评测单位运行自动评测程序,得出自动评测结果 ?评测单位事后进行人工评测 ?公布评测结果 3.评测标准 (1)自动评测标准

机器翻译的自动评测目前比较成熟的标准有BLEU标准、NIST标准等。本次评测采用NIST标准。具体评测标准见附件。 (2)人工评测标准 本次评测按0 - 6个等级层次打分,最后采用百分制换算评测结果。 总的可理解率=(T1*20%+T2*40%+T3*60%+T4*80%+T5*90%+T6*100%)/ 总句数 其中:Ti为被评为第i等级的句数。

(3)翻译速度评测标准 由主持评测的工作人员现场记录翻译时间,各系统自动显示从第一个句子翻译开始到所有句子翻译完毕所用的时间(不计系统初始化所用时间,只记开始翻译到所有句子翻译完毕所用时间)。 4. 输入输出文件格式 下面以汉英机器翻译为例,说明输入输出文件格式。其中p标签为段落标记,s标签为句子标记。输入文件中每个s标签内部为一个句子。输出文件中每个s 标签与输入文件中的s标签一一对应。由于一个源语言句子可能翻译成一个或多个目标语言句子,所以输出文件中每个s标签内部可以有不只一个句子。Lang 为语言代码,汉语用“zh”表示,英语用“en”表示,日语用“ja”表示。汉语、英语、日语的输入和输出文件统一采用GBK编码。 (1)输入文件格式: 玻利维亚举行总统与国会选举 (法新社玻利维亚拉巴斯电)玻利维亚今天举行总统与国会选举,投票率 比预期更高,选民希望选出的新领导阶层能够振兴经济,改善人民的生活水准,抑制这个南美洲最贫穷国家的劳工骚动。 投票所于下午四时(台北时间七月一日清晨四时)关闭,选务人员说,选 举结果将于两小时之后开始发布。 稍早,玻利维亚总统与参与选举的候选人援引巴西赢得世足赛冠军为 例,鼓励民众踊跃投票,虽然联邦法律规定,凡达投票年龄的玻利维亚人都必须 投票。

对机器翻译取代人工翻译的反驳

对机器翻译取代人工翻译的反驳 近日,一篇名为《翻译界的重大突破!作为一个翻译,此刻我理解了18 世纪纺织工人看到蒸汽机时的忧虑和恐惧!》传遍朋友圈,不少译员和外语系学生表现出了对于翻译前景的担忧,大有机器翻译取代人工翻译的意思。 这篇的文章标题的确相当耸人听闻,这是在号召丢饭碗的译员去砸谷歌总部么?毕竟翻译作为一种创造性的脑力劳动,跟纯粹地出卖体力还是不一样的 (没有任何贬低体力劳动的意思)。相反,个人觉得,作为译员或者外语系学生,应当对于新技术的到来表示欢迎,并主动适应新趋势,而不应该盲目表现出不必要的担忧。 当前笔译市场鱼龙混杂,不少人觉得拿个专八证书就可以做翻译,甚至报价五六十每千字都愿意做,已经严重扰乱了翻译市场秩序。个人觉得CATTI 二级作为敲门砖还是能起到筛选作用的,毕竟15% 左右的通过率摆在那里。机器翻译的发展对于淘汰低端译员可以起到积极作用,而机器翻译完全取代人工翻译的说法实在有夸大之嫌。 奠定了翻译学(Tran slation Studies )独立学科地位的詹姆斯?霍姆斯James Holmes,曾经提出过翻译学的“ Map”,确定学科研究的范围,首先从大方向上分为“纯理论” (Pure)和“应用” (Applied )两个部分,而“应用”层面又可以再分为三个分支“译员培训”( Translator Training )、“翻译辅助” ( Translation Aids )、“翻译批评”( Translation Criticism ),显然“机器翻译” (Machi ne Tran slation ,MT)和“计算机辅助翻译”(Computer Aided Tran slation,CAT)可以归在“翻译辅助”下面。1本人曾经用过大名鼎鼎的CAT 软件Trados (塔多思),功能十分强大,可以随时将翻译结果记录进术语库 ( MultiTerm )中,在该术语重复出现或者近似表达出现的时候进行提示,从而确保术语翻译在全文中的一致性,同时减少翻译术语的重复劳动时间。而诸如“谷歌翻译”之类的“机器翻译”,也代表着翻译研究的一个前沿领域——译后编辑 ( Post-editing ),即通过人工对机器翻译产生的译文进行修改和润色,使其达到可以使用的水平。综上,“翻译辅助”可以减少译员大量重复无意义的劳动,大大提高翻译效率,应该来说可以算是译员的福音。这也是为什么现在很多翻译公司招聘译员都需要熟练掌握翻译辅助工具的原因,当然这也代表着翻译行业的新趋势,对翻译辅助软件一窍不通必然会面临被淘汰的危险。 以下论述机器翻译不可能完全取代人工翻译的原因。第一,翻译辅助软件大多运用于具有大量术语的科技翻译等非文学题材,而对于文学翻译可以起到的作用相当有限。第二,机器翻译基于庞大的语料库,很难处理暂时没有固定翻译的术语,比如中国的外宣翻译是由专家集体讨论之后权威发布的。第三,从根本上讲,机器翻译是基于“对等”( equivalence ),或者类似于平行语料库 ( parallel corpora )

机器翻译和人工翻译-大学英语作文

学术英语作文 机器翻译是否会代替人工翻译 In the past decades, artificial intelligence has brought the light of reform to many areas, translation industry included. The new reform brought us machine translation. As an increasing popular topic, it has inspired people to think that maybe one day, they no longer need to learn foreign languages because machine translation will replace human translation. Though it is not 100% correct, there remains some reasonality within. Last year, A research team from Microsoft claimed that their machine translation (MT) system has achieved the level of professional human translators when it comes to general news report. Meanwhile, Google Translate tool has surpassed the proficiency of some advanced learners. And on Baidu World Conference, Yanhong Li showcased a real-time translation developed by his company. A trend revealed by all those tech giants’ news——an accurate and real-time translation by machine is promising in the future. Meanwhile, new techniques emerge constantly, accelerating the smartness and depth of machine learning. Taking neural network for example……(待补充70词) Thus, In the coming future, there’s no need for comm on people to learn foreign languages. Once the translation machines are smart and powerful enough to deal with academic environment and daily life while also portable to be carried with, people will use them to travel, study and live all around the world without language barriers. It will just look like the scenery in the movie The Wondering Earth -- Astronauts from various countries talk in their mother tongue. At the same time, a mini equipment installed in their suits translate their words. However, if you

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就是 通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.wendangku.net/doc/6514955088.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

翻译征文《浅谈我对机器翻译的认识》

浅谈我对机器翻译的认识 最近Alpha go连胜李世石三盘,这一结果冲击了整个世界,而这也只是一个开始。从计算机的诞生开始,人们不断研究人工智能,而计算机也在潜移默化的冲击着每一个行业,带来新的挑战。翻译行业也不例外,伴随着机器翻译技术的不断进步,我们也不得不面对这样一个问题:机器翻译最终会取代人工吗? 2014年年末,微软宣布旗下的语音通讯软件Skype开始支持实时翻译功能,可以在对话的同时将语言不通的对话直接翻译成对方的语言。2016年年初,百度公司近年来积极布局人工智能领域,机器翻译项目荣获国家科技进步二等奖。在单词翻译、语音翻译、文章翻译、图片扫描翻译等方面都有了新的突破,为不同语言的人们交流提供了极大的便利。机器翻译的精准度和普及度日新月异,机器翻译技术对于生活的改变,已经在逐步深入。伴随着科技人员对机器翻译的不断拓展,翻译行业也不得不面对这新的挑战。 在电脑刚刚普及的时候,这个世界上曾经有“打字员”这个职业。他们遍布全国,有的在机关单位,有的在大型企业,更多的是在编辑部。他们的工作就是将手写的文本材料输入到电脑当中,现在在英美的电影中,我们还能看到这个行业,在法庭中,带着褐色眼镜神情严肃的他们一边听审判,一边输入到机械打字机中。当时这个无比自豪光荣的职业到现在已经消失不见。社会和科技在一步步进步,那机器翻译最终会取代人工吗?有越来越多的人对这个问题抱有疑虑,也有不少人坚信机械翻译始终的“机械”的,它无法真正地像一个人一样去了解语言。例如,女孩问男孩:“你爱不爱我?”在不同的情景下,这句话都有微妙的差异,而机器只能将其简单的翻译成“Do you love me ?”事实上,即使的精通双语的人,也很难区分非母语一方细微的情感变化。这也是跨国婚姻中的一个障碍。即使是会母语的男孩有的时候也会判断失误而被冠上“直男癌”的称呼,况且是我们人类都无法解决的问题,机器怎么能做到呢? 事实上,机器翻译对人工翻译行业也是残酷的,它势必会依据它的便利简单的优点淘汰掉一批翻译精准度不高的翻译人员。越来越多的人出国旅游只是在手机上安装一个翻译软件而不是请一个旅游翻译,虽然也会出错,但是在磕磕绊绊和似是而非的误解中,也完成的旅行,而且相对还是成功的。这就意味着旅游翻译的存在在科技日新月异的变化中也失去了意义。至于在专业领域,虽然在专业领域翻译难度并不是太大,除了专业术语太多,句法也没有多大变化,但是往往还是由专业翻译人员进行翻译,因为专业领域对精确度的要求很高,机器无法承担错误所导致的后果,而且机器翻译符合逻辑但是缺乏美感。 而且口译在一切非正式场合已经逐渐被机器翻译所替代,笔译在文学翻译上机器翻译很难取代人工翻译,但是在我国,文学翻译的工资低的吓人,每千字不过二三十,好的一般六七十。这样费时费力却得不到应有的报酬,让我国的文学翻译行业颇为惨淡。在英语专业学生的学习中我们也可以看出,虽然听老师劝诫要多用纸质字典看上面的英英释义,但是基本每个学生手机里都装有电子词典,查单词清一色的都掏出手机来,无可否认的是,机器翻译带来的便利与快捷增加的学生的学习效率,省时省力。 总的来说,机器翻译虽然代替不了人工,但足以摧毁翻译行业。机器翻译带来的便利是显而易见的,短时间内机器翻译并不能完全取代人工翻译,但是如果机器学习进步至此,我并不怀疑机器翻译能够完全取代人工翻译,这就对翻译人提出了更高的要求。

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译研究现状与展望

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译的自动评测技术 机器翻译技术

机器翻译的自动评测技术机器翻译技术 本文介绍了机器翻译评测的基本原理以及常用评测标准,包括人工评测方法、基于n元匹配的BLEU和NIST自动评测方法。机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法 进行评价,我们称其为机器翻译评测。由于机器翻译所处理的对象――语言本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。最早的方法是人工评测,这种方法得到的结果一般是十分准确的,但评测的成本太高,周期过长(评测过程可能长达几周甚至数月),评价结果也会随着评价人的变化和时间的推移而不同,这使得评价结果不可重复,缺乏客观性,因此,机器翻译的自动评测应运而生。实践证明,机器翻译的评测尤其是自动评测对机器翻译研究的影响十分巨大,对研究发展和技术进步起着非常重要的引导作用。 基于n元匹配的自动评测方法 如果一个机器翻译评测系统只根据源语言文本就能自动地为若干译文打分并选择出其中最好的结果,那么这个评测系统本身就是一

个质量更好的机器翻译系统了。因此,自动评测最初的出发点就是给出一些标准的翻译结果,然后比较机器生成的译文与这些翻译之间的相似程度。我们称这些标准的翻译为参考译文(或者参考答案)。同一个句子可以有多个不同的参考译文,这些参考译文都表达同一个含义,但可能使用了不同的词汇,或者虽然使用了相同的词汇但在句中的词序不同。这样一来,机器翻译自动评测的问题转换为比较机器翻译系统输出的一个翻译结果和多个通过人工产生的正确的参考译文之间 的相似度的问题,使用不同的相似度计算方法即可得到不同的自动评测方法。 例如,考虑如下两个机器翻译系统生成的翻译结果: 源语言文本: 今年前两月广东高新技术产品出口37.6亿美元 系统译文1: The new high-tech products in Guangdong exported 3.76 billion dollars in the first two months this year

机器翻译的特点及其与人工翻译的关系.doc

机器翻译的特点及其与人工翻译的关系 2020年4月

机器翻译的特点及其与人工翻译的关系本文关键词:机器翻译,翻译,关系 机器翻译的特点及其与人工翻译的关系本文简介:摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。关键词:机器翻译;人工翻译;人工智能;一、引言随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加 机器翻译的特点及其与人工翻译的关系本文内容: 摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。 关键词:机器翻译; 人工翻译; 人工智能; 一、引言

随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加便捷。机器翻译便是备受瞩目的技术之一。它指的是能够将口头或书面文字从一种语言翻译成另一种语言的自动化技术,全程无需人工参与。随着互联网为人们开辟了更广泛的多语言世界,这种语言服务变得非常宝贵。 二、机器翻译的发展 在过去几年中,机器翻译的研究和开发速度惊人。早在2016年,谷歌推出了神经机器翻译系统,同时使用基于短语的机器翻译作为其服务背后的关键算法,以弥合人机翻译之间的差距。后来,微软通过WMT2017Newstest证明其机器翻译系统已经可以产出与人工翻译几乎无法区分的译文。在中国,网易、搜狗和科大讯飞等互联网巨头也加入了竞争,积极发布人工智能翻译设备,以卸下人工翻译的沉重负担。 然而,机器翻译的发展并非一帆风顺。近日,腾讯的同声传译和转录机在博鳌论坛上译出了重复的短语和破碎的句子,引起了全世界对于AI翻译是否能够取代人工翻译的广泛关注和激烈辩论。在谈到人工智能是否能取代人类的问题时,我们应该记住,几乎所有技术都有其优点和缺点,机器

人工智能与机器翻译.

人工智能与机器翻译(A,B 卷 七个大题:1. 名词解释 2.题解 3.智能知识 4.机器翻译方法 5. 技术阐述 6.分析题 7.应用题 A. 名词解释 : a. 机器翻译 :计算机程序做人的翻译。 b. 兼类 :一个单词既可以作名词动词又可以作其它词类。 c. 人工智能软件技术 :知识表示,知识推理,知识学习。 d. 人工智能 :用计算机模拟人的行为。 e. 交集型歧义 :一个字和前面的字可以成词,跟后面的字也可以成词。 f. 组合型歧义 :一个字可以和前面的字成词也可以同后面的字成词,连起来也可以成词。 g. 语法分析 :分析一句话的语法含义。 h. 语料库 :单词,短语,句子的集合。 i. 自然语言理解 :用计算机程序去理解一篇文章的含义。 B. 题解 : 第二章 P36 2-1,2-2 例 2.1 设有下列语句: (1 高山比他父亲出名。 (2 刘水是计算机系的一名学生,但他不喜欢编程序。

(3 人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y:x比 y 出名 COMPUTER(x:x是计算机系的学生 LIKE(x,y:x喜欢 y LOVE(x,y:x爱 y M(x:x是人 定义函数 father(x表示从 x 到其父亲的映射此时可用谓词公式把上述三个语句表示为: (1 BIGGER(高山, father(x (2 COMPUTER(刘水∧∽ LIKE (刘水,程序 (3 (任意 x (M(x->LOVE(x,劳动 例 2.2 设有下列语句: (1 自然数都是大于零的整数。 (2 所有整数不是偶数就是奇数。 (3 偶数除以 2是整数。 定义谓词如下: N(x:x是自然数 I(x:x是整数

人工智能翻译逐步取代人工

人工智能翻译逐步取代人工 Considerable advances have been made in machine translation that utilizes artificial intelligence, to the point that it now provides the average English skill level of a university graduate. 使用人工智能的机器翻译已经取得很大进展,现在,它能提供一名大学生的一般英语水平。 How much might machines be able to achieve in the future? For what purpose, and to what extent, should the Japanese develop their English skills? 在未来,机器可能会实现多少?为了何种目的,到了什么程度,日本人应该发展他们的英语技能吗? We asked an American translator who teaches English at a university and the president of a machine translation company about these issues. 我们咨询了一名在大学教英语的美国译者以及一家专注这些问题的机器翻译公司的总裁。 Tom Gally / Professor at the University of Tokyo 汤姆.盖利/ 东京大学教授 Until now, machine translation has been used in place of a dictionary when reading and writing English, but it hasn’t been usable to comprehend or compose larger texts. 直到现在,机器翻译已被用作读写英语之时的一本字典,但它无法理解或编辑更大幅度的文本。 Machine translation using AI made its first appearance in autumn last year, and from my point of view as a tra nslator, it’s not uncommon for English compositions produced by such machine translation to be better than those produced by unaided Japanese students. 使用人工智能的机器翻译于去年秋天首次亮相,作为一名译者,我觉得并不稀奇的是,此类机器翻译生产的英语文章比无援助的日本学生们所写的英语文章要好。 However, it also has weak po ints. It can’t check for mistranslations, mistakes or languages it doesn’t understand. 然而,它也有各种弱点。它无法检查错译、错误、或其无法理解的语言。

机器翻译系统评测规范

语言文字规范 GF 2006 — _______________________________________________________________________________ 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 2006--发布 2006--试行_______________________________________________________________________________ 中华人民共和国教育部国家语言文字工作委员会发布

目录 前 言 1适用范围 (5) 2规范性引用文件 (5) 3术语和定义 (5) 4评测的一般原则和方法 (6) 5机器翻译系统的用户类型 (6) 6机器翻译评测题目的编制原则 (6) 7机器翻译的评测标准 (8) 8机器翻译评测的其他内容 (10)

前 言 本标准规定了机器翻译系统的评测规范。 本标准由教育部语言文字信息管理司提出立项,负责解释。 本标准由教育部语言文字信息管理司归口。 本标准由国家语言文字工作委员会语言文字规范(标准)审定委员会审定。本标准起草单位:教育部语言文字应用研究所 本标准主要起草人:冯志伟、肖航、富丽、章云帆

中华人民共和国教育部 国家语言文字工作委员会语言文字规范 GF2006 - 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 1 适用范围 本标准规定了机器翻译系统的评测规范。 本标准适用于机器翻译系统的评测以及有关的管理工作。 2 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准中的条款。 ISO11179-3信息技术数据元的规范与标准化第3部分:数据元的基本属性 GB/T 12200.1 汉语信息处理词汇 01部分:基本术语 GB/T 13725 信息处理用现代汉语分词规范 GB3259-92 中文书刊名称汉语拼音拼写法 GB/T 15834-1995 标点符号用法 GB/T 15835-1995 出版物上数字用法的规定 GB/T 16159-1996 汉语拼音正词法基本规则 第一批异形词整理表 第一批异体字整理表 部分计量单位名称统一用字表 中国人名汉语拼音字母拼写法 中国地名汉语拼音字母拼写规则 普通话异读词审音表 3 术语和定义 下列术语和定义适用于本规范。 3.1 信息处理系统(information Processing systems) 基于计算机技术、网络互联技术、现代通讯技术和各种软件技术,集各种理论和方法于一体,提供信息服务的人机系统,是由人和计算机等共同组成的,能进行信息的收集、传输、分析、加工、处理、存储、更新和维护的系统。 3.2 评测规范(assessment specifications) 用于评测的规范,包括评测的一般原则、评测内容、评价指标、评测方法和文件格式等。 3.3 自然语言(natural language) 规则是根据当前用法而不是用显式的方式规定的语言。如汉语、英语、德语等。 3.5 中文信息处理(Chinese information processing, CIP) 用计算机对汉语的语音、语法、词汇、语义、语用等信息进行处理,又称汉语信息处理。

相关文档
相关文档 最新文档