文档库 最新最全的文档下载
当前位置:文档库 › 基于文本的本体学习研究综述

基于文本的本体学习研究综述

基于文本的本体学习研究综述

作者:程波波, 张友华, 李绍稳, 朱利君

作者单位:安徽农业大学,信息与计算机学院,安徽 合肥 230036

相似文献(10条)

1.学位论文郝嘉树基于关键词聚类的本体层次关系构建研究2008

由于本体在智能信息处理中重要的应用价值,已引起国内外计算机、图书情报和生物信息等诸多领域的广泛关注及研究应用。基于以上事实,本体构建显得尤为重要和迫切。人工构建本体费时、费力、难以维护和存在主观因素。另一方面,目前的本体的编辑、表示、维护方法与工具依然离不开专家的参与,自动化较低。因此,针对本体的大规模应用,半自动化或者自动化构建本体具有重要的研究意义和应用价值。

层次关系体系作为本体的基本概念框架,是自动构建本体的关键部分。为此,本文探讨了自动构建本体层次关系体系的方案和技术,使用关键词聚类技术来构建层次关系体系。本文的创新之处在于:(1)探索关键词聚类在半自动构建本体层次关系方案的可行性;(2)总结在关键词提取、特征选取、特征值计算和聚类算法选择方面达到好的聚类效果的经验;(3)通过实验,构建若干情报学类别下的层次关系体系,该方法构建的层次关系对学科的知识体系揭示的比较深入和详细,同时能反映学科发展的现状。

2.期刊论文邱欣基于本体学习的自动化本体构建探讨-中国集体经济2008,""(27)

通过本体学习来构建本体库是有效解决人工构建本体繁杂、容易出错的有效途径,文章分析了自动化本体构建技术的3种方法,对实践具有借鉴意义.

3.学位论文徐红升基于形式概念分析的本体构建、合并与展现2007

作为语义网基础的本体是共享概念模型的明确的形式化规范说明,它的作用是获取、描述和表达相关领域的知识,提供对该领域知识的共同理解

,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。那么,构建本体成为本体应用的关键问题,但目前该领域研究还处于探索阶段,没有形成成熟、统一的方法作为指导。

目前本体的构建方法主要分为两大类:一类是采用手工方式来构建,该类方法的问题是:(1)、遇到复杂的领域就费时费力:(2)、在建立各自的本体时均采用不同的标准、建模方法,所以构建的本体不通用;(3)、具有很大的主观性,针对某个领域,不同的领域专家会采用不同的观点以至构建的本体不统一。最重要的是在寻找领域概念和概念之间的关系时,所采取的方法和手段有较大差异,而且也只能找到一些己知的概念(从辞海或叙词表中)。 为了降低手工构建本体时的开销,研究如何利用知识获取技术自动或半自动地获取本体是很有意义的。这就是第二类方法一本体学习技术(OntologyLearning),采用本体学习技术, 虽然可以简化手工构建本体的工作量。但这些技术不能寻找到领域内所有隐含的概念和概念间关系,而且不能明确地以形式化方式表达所形成的概念及概念模型。

形式概念分析作为应用数学的一个分支,来源于哲学领域对概念的理解。从外延和内涵两方面对概念进行符号形式化描述,实现计算机可以理解的语义信息。根据用二元关系来表达领域中的形式背景,从中提取所有隐含的概念和概念之间的相互关系,形成概念层次结构,即概念格,从数据集中生成概念格的过程实际上是一种概念聚类的过程。而且概念格的三维可视化形式使概念格的展现更加直观生动,为了简化概念格的显示,可以识别并折叠其中存在的子概念格。

从本体的目标来看,构建本体的关键问题是在确定了领域后,从领域中找到概念以及概念间的关系,然而对于现实生活中的某一领域,与该领域相关的概念以及概念之间的关系是隐含在人们头脑中,或者是存在领域文档中。

那么本文研究的主要内容是:利用形式概念分析技术在不受开发者的主观影响下,帮助从给定的数据里自动获取所有隐含的概念以及概念之间的层次关系,并且用符号表示所有概念,达到了形式化概念模型的效果,为构建本体提供一种方法指导。同时,为了知识的共享与重用,可以基于概念格的合并理论来进行本体的合并。并且在展现本体时,结合几率模式来表达非层次关系概念之间的相似性和概念与对象的相关度。本文的主要贡献如下:

(1)提出了形式概念分析在基于非结构化数据的本体学习中的应用方法。

(2)提出两种展现本体的方法,一、结合几率模式来表达本体中非层次关系概念之间的相似性以及属性概念与对象之间的相关度;二、基于概念格的三维可视化形式来展现,为了简化显示,提出子概念格的判定方法及其折叠与打开算法。

(3)提出了基于形式概念分析的本体合并方法。

依据以上理论,设计并实现了基于FCA的本体原型系统。并且,结合实例构建一个领域本体,通过本体所具有的良好概念层次结构、语义信息来进行概念查询和检索,从而有效地提高了本体信息查找的效率。

4.学位论文王栋基于Web挖掘的中文本体学习研究2007

本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如WordNet和CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造

,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。

本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如OntoLearn,Text-To-Onto等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文web文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用Web页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于ICTCLAS对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。

5.学位论文杨建明基于语义依存分析的本体学习方法2008

如今,Web成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想要的信息其实并不容易。语义Web的出现解决了上述矛盾。语义Web(语义网)提供了一个通用的框架。允许跨越不同应用程序、企业和团体的边界共享和重用数据。作为语义Web中知识语义元数据的载体,本体成为了语义Web的核心元素。

为了将目前无序的Web改造成有序的计算机可理解的知识宝库,语义Web采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,因此本体的构建是实现语义Web的关键环节。本体构造是一个非常复杂的过程,它需要多个领域的专家参与。虽然目前本体构建工具已经较为成熟,但本体的手工构造仍是一项繁琐而辛苦的任务,在构建的初期和维护阶段需要花费大量的人力,构造合适的通用本体或分类体系需要大量的修剪和编辑时间,并最终导致所谓的知识获取瓶颈。

为了解决本体构建的开销问题,本体学习技术可以说当前的一个研究热点。其目的旨在使用能够实现本体自动构建的机器学习技术来协助知识工程师构建本体。本文基于传统的本体学习方法,针对目前本体学习的薄弱环节和关键问题,提出了新的思路,主要研究工作如下:

·针对概念和实例抽取,通过使用统计方法和自然语言处理技术相结合的方式提取术语,利用语义角色标注及生成的语义依存结构对候选术语进行筛选,通过语义环境及语义角色关系的分析,确定未知概念与实例的正确本体归属。

·针对非分类关系的抽取,采用基于框架语义和论元语义的语义角色标注方法,引进语义信息到依存树,获得目标文集经过语义角色标注的句法语义依存结构SSDS,然后通过定义的核函数计算概念或实例之间的语义相似度,来确定发现的术语是概念或实例归属时,就可以依据语义框架或述词论元为其标注关系。

·在提出的本体学习方法基础上,设计实现了SDEOL半自动本体学习系统,采用传统本体学习方法与本文所述基于语义依存分析方法结合的方式进行本体学习。实验结果表明基于语义依存分析的本体学习方法是对传统本体学习的一个有效补充。

6.学位论文刘威基于中文文本的本体构建方法研究2008

语义 Web 的存在、研究、和运作的基础是形式化本体。本体是对可共享概念的一个形式化的明确说明,它包含对某个领域的概念及概念间的关系的描述和约束。自20世纪90年代提出这个概念以来,本体受到了国内外越来越多的关注,但本体研究实际上还处于初步阶段,其理论和方法都有待于进一步完善。特别是现阶段的本体构建需要耗费大量的人力、物力和财力,时间周期也很长。因此,本体的有效构建成为本体研究乃至语义Web研究的瓶颈。探讨构建领域本体的有效途径,成为了一个无法回避的问题。

本文围绕中文本体的构建方法进行了讨论和研究。首先对本体和本体学习基础知识进行了简单的介绍,给出了当今国内外本体构建的主要方法以及评价标准,介绍了目前比较流行的几种本体学习工具。

其次,针对传统本体资源构建方式的不足,本文提出了基于统计和规则混合策略的本体获取方法,描述了整个方法的框架和两个关键子模块框架

,并对此方法进行了合理性分析。然后讨论了在这个框架下的几个关键技术问题:语料获取与预处理,术语抽取,关系抽取,并分别对这些问题的解决方案作了详细介绍。

再次,本文提出了基于决策树的本体自动扩充方法,将本体自动扩充的主要任务定位在实例的概念分类上,从已有的本体库中获取实例作为训练样本构建规则的决策树,这组规则可以用于指导丰富本体知识。

最后,对本文提出的本体获取方法进行了初步的试验,对试验结果进行了分析,评价了这种方法的优缺点。

7.期刊论文孔敬.Kong Jing本体学习:原理、方法与相关进展-情报学报2006,25(6)

本体学习是自动或半自动构建本体的一系列方法和技术.本文概述了本体学习的研究状况,描述了本体学习的框架结构,总结了本体学习的技术、方法与算法,提出了当前本体学习研究的问题与难题以及进一步研究方向.

8.学位论文徐力斌基于通用本体和自然语言处理技术的领域本体半自动构建2007

知识的获取以及表示方法一直是知识工程中重要的研究课题。本体作为知识表示的一种重要方法,已经得到了广泛的认可,特别是针对特定领域进行构建的本体,即领域本体,它的应用价值已经受到越来越多的重视。但是,在构建任何基于领域本体的应用系统之前,我们必须首先获得一个领域本体。现存的领域本体多数都是通过手工构建的,在构建过程中需要相关领域专家大量的专业知识指导,这是一个非常费时费力的过程。

本文在研究当前各种本体构建方法和技术的基础上,提出了一种基于通用本体和自然语言处理技术的半自动领域本体构建方法,该方法属于本体学习的一种,它将领域文献作为本体学习的知识来源。在领域本体的构建过程中,首先手工构建一个领域核心本体,领域核心本体中仅包含领域核心概念以及概念之间的关系,通常是最简单的分类关系;然后,利用通用本体中的概念以及概念之间的关系对领域核心本体进行扩展,扩展过程充分利用了对领域文献进行自然语言处理得到的语义单元信息,利用通用本体对领域核心本体进行扩展的过程相当于对通用本体进行提炼,它充分抽取了通用本体中领域相关的概念以及关系;最后,通过自然语言处理技术对已经得到的语义单元信息进一步处理,抽取更多的领域相关概念以及以动词语义关系表示的领域概念之间的关系,以丰富领域本体。

该方法不仅继承了通用本体中特定领域相关的知识,而且通过对自然语言处理技术的利用,挖掘了更多传统领域本体构建方法所不能得到的概念之间的关系,实验证明,该方法能够大大提高领域本体的构建效率,并且在一定程度上能够保证结果本体的质量。

9.学位论文周文基于概念的若干知识表示模型及相关方法研究2007

形式概念分析、本体和事件这三个新兴的基于概念的知识表示模型,深入地研究概念的本质和概念之间的关系,但它们的侧重各不相同,形式概念分析主要侧重于研究概念的形成,本体更注重如何表示概念及概念之间的关系,而事件则以研究动词性概念为核心注重表示概念的结构。本文围绕这三个模型,研究它们各自存在着的一些问题,根据它们各自不同的侧重,展开它们的结合研究。本文的研究内容和创新点主要包括:

(1)模糊概念格结构上的繁杂给其应用造成了障碍,本文提出基于概念聚类的模糊概念格约简方法,该概念聚类以所定义的模糊概念格中概念节点向量为概念之间相似度的度量基础,在模糊概念格节点间进行聚类,形成概念类,进而生成模糊概念层次,成为模糊概念格的一个约简形式。在UCI数据集上进行实验,以验证约简的有效性,结果表明约简很大程度上压缩了模糊概念格,同时,约简并未丢失模糊概念格中的有效信息。这意味着基于概念聚类的模糊概念格约简将有效地提高模糊形式概念分析应用时的时空性能,并且不会降低应用的质量。

(2)为帮助解决概念及概念之间关系的自动获取这一本体构建的难点问题,提出基于模糊概念层次的本体生成方法。它利用形式概念分析的良好的数学性质和完善的生成工具,挖掘出概念,特别是抽象概念,以及概念之间的分类关系,通过概念和关系映射,自动将模糊概念层次中的概念以及概念之间的泛化和例化关系映射成本体中的概念以及概念之间的分类关系,从而减少了专家在本体生成过程中的参与程度,实现了更高程度的自动化。

(3)经典形式概念分析方法主要针对单值形式背景,但现实世界中的问题经常会出现属性值是区间数的情况。为处理这类问题,本文提出区间形式概念分析。它是针对现实中普遍存在的区间数构造的,处理能力扩展到了区间数上。它采用区间数分解的属性定标方法,使形式概念分析可以处理由区间数表示的对象和属性关系表,进而构成区间形式背景,以生成区间概念格。实验表明区间数分解的属性定标可以有效地处理信息表中的区间数以生成形式背景;区间概念格的生成算法具有良好的时空性能。区间形式概念分析扩展了形式概念分析的处理能力,拓宽了它的使用范围。

(4)提出一种新的事件表示模型和提取方法。该事件表示模型采用事件多元组的模式,相对于已有的事件三元组等事件表示模型更为灵活,避免了三元组等事件表示模型过于简化、无法完整地展现事件的全貌、从而带来的在实际应用中存在的问题;而且该事件多元组模型不仅考虑与事件相关的命名实体(即事件发生的时间、地点和参与者),还考虑与事件发生相关的重要的名词性概念和术语,从而可以对一些较抽象和较专业的事件进行表示。在该事件表示模型的基础上,提出了从文本中提取事件的方法,形成了一种新的基于事件的自然语言处理方法,它利用对自然语言文本的词法分析和句法分析等,能够自动地从自然语言文本中提取事件。基于事件的表示模型的提出拓展了现有的基于事件的知识表示模型,事件提取方法提升了现有的基于自然语言处理技术结合统计学方法的事件提取方法,还将为人工智能、自动文摘、文本处理等领域的推进和发展提供理论模型和应用方法。 (5)将基于事件的知识处理技术引入到本体学习中,形成了基于事件的本体生成方法。该方法在手工生成的领域核心本体的基础上,自动地从通用本体和自然语言文本中学习领域概念及概念之间的关系。其中,核心的方法是基于事件的概念和关系学习,它对领域文本进行基于事件的自然语言处理,自动提取领域文本中的事件,通过对提取的事件的解析,获取概念及概念之间的关系,特别是概念之间的非分类关系,这从一定程度上解决了本体生成过程中非分类关系生成难的问题,实现了概念之间关系的自动获取。这一基于事件的本体学习方法是可以进行迭代的,将该方法前一次生成的领域本体和领域专家新提供的领域文本作为本次学习的输入,可进行新一轮的学习,直到获取满意的领域本体为止。实验表明,该方法可以有效地获取领域概念及概念之间的关系,特别是概念之间的非分类关系,从而生成领域本体。

(6)设计了基于事件和形式概念分析的自动文摘方法eFCASum。它为基于事件的自动文摘提供了新的方法,是在本文提出的事件技术的基础上,从待摘要文档中提取出事件,经去除冗余和互斥事件处理后,生成形式背景,以获取与其同构的概念格用以判定事件的相关性,进而计算出事件的重要性

,再结合事件的情境的权重,衡量出与事件对应的语句的重要性,用以提取文摘。在国际上标准的自动文摘评测语料库上对该方法进行了评测,取得了良好的评测结果,证实了方法的有效性。该自动文摘技术的发展还可解决本体中实例丰富的问题,为本体及其应用技术的提高提供一定帮助。

综上所述,本文针对形式概念分析、本体和事件这三个模型各自存在的问题及它们的结合进行研究,事实上,它们各自存在的部分问题可以通过它们的结合研究解决,特别是可以利用形式概念分析和事件来解决本体构建这一本体工程中的难点。因此,在理论和应用上建立和加强形式概念分析和本体相结合的相关领域的研究是一个重要的研究方向,将事件技术引入本体生成及知识处理领域中将取得良好的效果,它们的结合研究有着非常好的前景和重要的研究意义。

10.期刊论文于江涛.毛慧珍.YU Jiang-tao.MAO Hui-zhen基于Wiki的本体构建方法-通化师范学院学报

2009,30(8)

该文提出一种本体构造环境方案,在wikipedia的基础上加入本体构造用户接口,降低用户构造本体的门槛,使用户在建立概念的同时创建本体.系统以OWL本体形式存储、管理和共享知识,还可以以系统已有概念为字典,对相关本体领域相关文本进行本体学习,自动建立本体.

本文链接:https://www.wendangku.net/doc/622848375.html,/Conference_6797782.aspx

授权使用:兰州理工大学(lzlgdx),授权号:a18bdbcb-d84e-4b5c-bd7b-9db400a56bdc

下载时间:2010年7月15日

相关文档