文档库 最新最全的文档下载
当前位置:文档库 › 基于特征比较和最大熵模型的统计机器翻译错误检测杜金华

基于特征比较和最大熵模型的统计机器翻译错误检测杜金华

基于特征比较和最大熵模型的统计机器翻译错误检测杜金华

最大熵算法笔记

最大熵算法笔记 最大熵,就是要保留全部的不确定性,将风险降到最小,从信息论的角度讲,就是保留了最大的不确定性。 最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫"最大熵模型"。 匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。而且它们都有同一个非常简单的形式-- 指数函数。 我们已经知道所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。 最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS (generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂,大致可以概括为以下几个步骤: 1. 假定第零次迭代的初始模型为等概率的均匀分布。 2. 用第N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们便大。 3. 重复步骤2 直到收敛。 GIS 最早是由Darroch 和Ratcliff 在七十年代提出的。但是,这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨(Csiszar) 解释清楚的,因此,人们在谈到这个算法时,总是同时引用Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每

次迭代的时间都很长,需要迭代很多次才能收敛,而且不太稳定,即使在64 位计算机上都会出现溢出。因此,在实际应用中很少有人真正使用GIS。大家只是通过它来了解最大熵模型的算法。 八十年代,很有天才的孪生兄弟的达拉皮垂(Della Pietra) 在IBM 对GIS 算法进行了两方面的改进,提出了改进迭代算法IIS (improved iterative scaling)。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此,在当时也只有IBM 有条件是用最大熵模型。 由于最大熵模型在数学上十分完美,对科学家们有很大的诱惑力,因此不少研究者试图把自己的问题用一个类似最大熵的近似模型去套。谁知这一近似,最大熵模型就变得不完美了,结果可想而知,比打补丁的凑合的方法也好不了多少。于是,不少热心人又放弃了这种方法。第一个在实际信息处理应用中验证了最大熵模型的优势的,是宾夕法尼亚大学马库斯的另一个高徒原IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)。拉纳帕提的聪明之处在于他没有对最大熵模型进行近似,而是找到了几个最适合用最大熵模型、而计算量相对不太大的自然语言处理问题,比如词性标注和句法分析。拉纳帕提成功地将上下文信息、词性(名词、动词和形容词等)、句子成分(主谓宾)通过最大熵模型结合起来,做出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。拉纳帕提的词性标注系统,至今仍然是使用单一方法最好的系统。科学家们从拉纳帕提的成就中,又看到了用最大熵模型解决复杂的文字信息处理的希望。

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

最大熵模型在股票投资中

最大熵模型在股票投资中的应用 在股票投资中由于各种不确定性因素的影响,投资的收益可大可小,甚至遭受损失,这种收益的不确定性及其发生的概率就是风险。一般而言,预期收益越大的股票其风险越高。投资风险也越大。为了避免或分散较大的投资风险,追求“安全,高效率,低风险”,许多学者利用熵的特性图来全面描述和度量风险。有学者考虑到嫡仅仅是对概率分布的形状做出描述,与其位置无关;而投资风险取决于人们对收益的感知,所以许多学者在研究这个问题时,把对证券收益率做为一种权数加到对嫡度量投资风险模型中,比如效用风险嫡模型,考虑了随机事件客观状态的不确定性和结果价值两方面的因素;期望效用一嫡决策模型,把风险行动的风险度量与决策者的偏好结合起来,但这个模型只是按这种风险度量方法把行动方案排序,最后还是利用马科维茨的模型给出最优解;还有把收益最大和嫡量度的风险最小做为两个目标的多目标决策模型;还有利用嫡的最大嫡原理改变组合投资的目标函数建立的模型。根据单一指数模型的假设,把影响收益率波动的因素分为微观因素和宏观因素,并假设受宏观因素和微观因素的影响的误差项和市场收益率两者互不相关。我们可以利用这一假设把证券收益的不确定性拆分,把证券收益的不确定性分为微观因素的影响的误差项不确定性以及受宏观因素影响的市场收益率的不确定性来分析,从而可以计算整个行动方案的风险。首先,我们考虑如何在上述思想下计算投资一支证券的行动风险。在单一指数模型中,假设误差项与市场收益率是无关的,由于ε月和r分别受宏观因素和微观

因素的影响,两者互不相关,无论市场收益率发生多大变化,都不会对气产生影响。所以它们的嫡值又是可加的。那么我们就把对一支证券投资这个风险行动分解为两个相互独立的风险行动,则原来的风险行动的嫡值应为相应的各个行动的嫡值的加权和。 其次,我们考虑如何度量整个证券组合的行动风险。由市场收益率爪变动引起的各资产的收益率变动是相关的,所以在整个证券投资组合中,它们的嫡值是不能直接相加的。单一指数模型认为p 值可以反映了个别资产价格相对于市场总体水平波动的程度。同时也有研究结果表明,资产的期望收益和市场p 之间的线性关系是显著的,那么可以考虑用p 值作为一种对市场收益率的嫡的权数引入到对投资资产 A 的风险计算中去,来反映单个资产收益率的不确定性受市场总体收益率不确定性影响的程度。这样,用p 值乘以市场收益率的嫡可以反映单个资产收益率受宏观因素影响的程度,而对于整个投资组合来说,对同一个市场收益率的嫡值也就不存在直接相加而相关的问题了。 这样,我们就可以从影响收益率波动的因素分为微观因素和宏观因素对风险进行一个全面的综合度量,同时可以得出了合理地对整个证券投资组合的风险度量方法。下面基于上述思考的过程,给出具体的证券投资风险的嫡度量的数学定义。 考察对某一支股票投资方案X 在未来环境状态下的收益情况,设其收益为R,根据单一指数模型的假设,设市场收益率为r误差项

熵模型

熵模型 1、数据。。。 计算第i 个教练第j 种指标下的权值 12 1 ,(1,230;1,26) ij ij ij i x p i j x == ==∑ 计算第j 种指标的熵值(公式) 6 1 1 ln(),0,,0ln(12)j ij ij j i e k p p k k e ==->= ≥∑其中 表2.2各种指标的熵值 第j 种指标的系数。 差别越大或是离散度越大,其在评价指标中占的影响位置越重要,其熵值也较小。定义差异系 数: 66 1 1 1,,01,1 j j e j j j j j e e g E e g g m E ==-= =≤≤=-∑∑式中 表2.3各种指标的差异系数:: 最大熵模型的优缺点 优点: (1)建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征。 (2)特征选择灵活,且不需要额外的独立假定或者内在约束。 (3)模型应用在不同领域时的可移植性强。 (4)可结合更丰富的信息。 缺点: (1)时空开销大 (2)数据稀疏问题严重 (3)对语料库的依赖性较强 层次分析法的优缺点 优点 1. 系统性的分析方法 层次分析法把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,成为继机理分析、统计分析之后发展起来的系统分析的重要工具。系统的思想在于不割断各个因素对结果的影响,而层次分析法中每一层的权重设置最后都会直接或间接影响到结果,而且在每个层次中的每个因素对结果的影响程度都是量化的,非常清晰、明确。这种方法尤其可用于对无结构特性的系统评价以及多目标、多准则、多时期等的系统评价。 1234561.3816 1.3696 0.8472 1.3523 1.373 1.373 1g 2g 3g 4g 5g 6g 0.1498 0.1512 0.2444 0.1531 0.1508 0.1508

基于最大熵模型的中文词与句情感分析研究pdf

基于最大熵模型的中文词与句情感分析研究* 董喜双,关毅,李本阳,陈志杰,李生 哈尔滨工业大学,哈尔滨,150001 dongxishuang@gmail.com, guanyi@hit.edu.cn, libenyang012566@163.com, ruoyu_928@126.com, lisheng@hit.edu.cn 摘要:本文将研究焦点对准喜、怒、哀、惧四类情感分析问题,重点解决中文词、句的情感分析问题。将词的情感分析处理为候选词情感分类问题。首先通过词性过滤获得候选词,进而根据特征模板获取候选词情感特征,然后应用最大熵模型判断候选词情感类别,最后应用中性词典、倾向性词典、复句词表、否定词表过滤候选情感词分类错误得到情感词集合。句的情感分析首先根据情感词典和倾向词典提取词特征,并采用规则提取词序列特征,然后采用最大熵模型对句子进行情感分类。在COAE2009评测中词与句情感分析取得较好结果。 关键词:情感分析;情感极性;最大熵;分类; Sentiment Analysis on Chinese Words and Sentences Based on Maximum Entropy Model Dong Xi-Shuang, Guan Yi, Li Ben-Yang, Chen Zhi-Jie, Li Sheng Harbin Institute of Technology, Harbin 150001 dongxishuang@gmail.com, guanyi@hit.edu.cn, libenyang012566@163.com, ruoyu_928@126.com, lisheng@hit.edu.cn Abstract: This paper presents a method to analyze sentiments on Chinese words and sentences, where the sentiments include happy, angry, sad, and fear. In the case of words, sentiment analysis was processed as the sentiment classification of candidate words. The candidate words were firstly obtained by POS filtering, then Maximum Entropy (ME) model was adopted to judge sentiment categories of the words, which sentiment features were gained with feature templates. Finally, errors in the word classification would be removed through filtering with a neutral lexicon, a sentiment polarity lexicon, a connective word list of complex sentences, and a negative word list. In the case of sentences, word features in sentences were extracted on the basic of the sentiment lexicon and the sentiment polarity lexicon, and word sequence features were extracted by rules while processing sentiment analysis on sentences, then ME model was used to classify the sentences. Good performance of sentiment analysis was gained in COAE 2009. Keywords: Sentiment Analysis, Sentiment Polarity, Maximum Entropy, Classification 1 引言 情感分析的主要任务为识别文本对某一事物的观点[1]。情感包含两方面信息:情感极性与情感强度。情感极性指情感要素(词、短语、句子以及篇章)表达的情感倾向。情感强度指情感要素表达情感的强弱程度。情感分析包含四方面研究内容:词级情感分析、短语级情感分析、句级情感分析以及篇章级情感分析。词级情感分析包括识别候选情感词、判断候选情感词情感极性与强度以及构建情感字典[2]。短语级情感分析为根据情感词识别 *董喜双,1981年出生,男,黑龙江省哈尔滨市,博士研究生。本项研究受到国家自然科学基金项目支持,项目批准号:60975077,60736044

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

统计机器翻译

统计机器翻译 熊德意,何中军,刘群 1.概述 统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。 基 于 句 法 的 方 法 源语言目标语言 图1统计机器翻译金字塔 但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了

必要的基础。于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。 目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。这三类方法可以用图1的金字塔来描述。 本文的内容也按照上面提到的3种主要方法组织,对每种方法进行简单介绍,由于篇幅所限,我们不可能对每一部分深入开展,但是我们希望通过丰富的实例和图解,能让读者对统计机器翻译有一个大概的印象,如果能够引起兴趣,那本文的目的就真正达到了。在第二节中我们对基于单词的方法简单介绍,这可以说是统计机器翻译真正意义上的开端引领工作。第三节介绍目前主流的统计机器翻译方法:基于短语的方法。第四节介绍基于句法的方法,这是当前统计机器翻译研究的热点。 2. 基于单词的方法 基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的Brown 等人提出的基于信源信道模型的方法5)[2]5)[3],可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。 信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言e ,在经过信道编码以后,输出源语言f ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言。 图2 信源信道模型示例 根据Bayes 公式,Brown 等人提出了统计机器翻译的基本方程式: ?arg max Pr()Pr(|)e e e f e 其中,Pr()e 是目标语言的语言模型,衡量生成的目标语言的合法程度;Pr(|)f e 是翻译模型,衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM 公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM 算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码5)[3]。 1 http://www.nist.gov/speech/tests/mt/

人工智能与机器翻译 自动分词

人工智能与机器翻译自动分词 人工智能与机器翻译-自动分词2010-10-21 16:48部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词 语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显 的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出 了不少方法,它们各有优缺点,也可能是基于特定环境的。 5.2.1典型的自动分词方法 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活 多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。 A1:一条汉语语句分划成单一字符X1,X2,…,XM。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。

A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字 重复此工作,直至字符数为Lmax为止。 A4:若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句 只剩下Lmin为止。 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的 分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同 音节词的词频构成为:双音节词大约有74%;三音节词大约有3.7%;单音节词 大约有17.2%;而五以上字音节词则大约只有0.4%左右。汉语是一字一音节, 因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动 分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。 这种方法提高了分词效率,但对歧义问题也无能为力,出错率并不低。 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例 如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。 设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计 算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干 短链,然后再用其它切分方法进行各种细加工,这种多方法合作的综合应用, 途径增多,可以大大提高效率。 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对 有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。

第五节最大熵模型

第五节最大熵模型 最大熵模型(Entropy Model)也是随机概率模型之一。典型的最大熵模型有Wilson模型和佐佐木(Sasaki)模型,以下分别讲述。 1.Wilson模型 Wilson模型是由A.G.Wilson提出的方法,它以英国为中心,在区域科学方面的应用例较多,其模型如下式所示。 (4-5-1) 式中,T:对象地区的生成交通量。即,OD交通量的组合数由求E的最大得到。 例:发生小区O,吸引区AB,出行生成量为4。能够发生的OD交通量状态如下。 OD交通量状态情况1 情况2 情况3 情况4情况5 组合数E: ,,,, 发生概率:1/16, 4/16, 6/16, 4/16, 1/16 16为可能发生的组合数。 从上述情况看,组合数为6的组合发生的概率最大,因此可以视为最容易发生。 Wilson模型的约束条件为: (4-5-2)

(4-5-3) (4-5-4) 式中,的交通费用;总交通费用。 最大熵模型一般用以下对数拉格朗日方法求解。 (4-5-5) 式中,,,为拉格朗日系数。 应用Stirling公式近似,得, (4-5-6) 代入(4-5-5)式,并对求导数,得, 令,得, (4-5-7)

∵ ∴(4-5-8) 同样,(4-5-9) 这里,令,则(4-5-7)为: (4-5-10)可以看出,式(4-5-10)为重力模型。 Wilson模型的特点: (1)能表现出行者的微观行动; (2)总交通费用是出行行为选择的结果,对其进行约束脱离现实; (3)各微观状态的概率相等,即各目的地的选择概率相等的假设没有考虑距离和行驶时间等因素。 计算步骤: 第1步给出 第2步给出,求出 第3步用求出的,求出 第4步如果,非收敛,则返第2步;反之执行第5步。 第5步将,,代入式(4-5-7)求出,这时,如果总用条件( 4-5-4)满足,则结束计算,反之,更新值返回第1步。

相关文档
相关文档 最新文档