文档库 最新最全的文档下载
当前位置:文档库 › 开放式文本信息抽取

开放式文本信息抽取

开放式文本信息抽取
开放式文本信息抽取

开放式文本信息抽取

赵军,刘康,周光有,蔡黎

(中国科学院自动化研究所模式识别国家重点实验室,北京100190)

摘要:信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。本文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。

关键词:开放式信息抽取;知识工程;文本理解

Open Information Extraction

ZHAO Jun, LIU Kang, ZHOU Guangyou, CAI Li (National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing,

100190, China)

Abstract:The research on information extraction is being developed into open information extraction, i.e. extracting open categories of entities, relations and events from open domain text resources. The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources. This paper firstly reviews the history of the researches on information extraction, then detailedly introduces the task definitions, difficulties, typical methods, evaluations, performances and the challenges of three main open domain information extraction tasks, i.e. entity extraction, entity disambiguation and relation extraction. Finally, based on our researches on this field, we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering, question answering, etc. Keywords:Open information extraction; Knowledge engineering; text understanding

1 引言

文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术[1]。例如从有线新闻和广播电视的文本中抽取相关恐怖事件情况:时间、地点、作案者、受害者、袭击目标等信息。从二十世纪八十年代开始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。MUC从1987年到1997年总共进行了七届,其五大评测任务是命名实体识别、同指关系(Co-reference)消解、模板元素(Template element)填充(类似于实体属性抽取)、模板关系(Template relation)确定(类似于实体关系抽取)和场景模板(Scenario Template)填充(类似于事件抽取)。数据来源是限定领域语料,例如海军军事情报、恐怖袭击、人事职位变动等;ACE从1999年到2008年总共进行了九届,涉及实体检测与跟踪(Entity Detection and Tracking, EDT)、数值检测与识别(Value Detection and Recognition, VDR)、时间识别和规范化(Time Expression Recognition and Normalization, TERN)、关系检测与描述(Relation Detection and Characterization, RDC)、事件

基金项目:国家自然科学基金项目(60875041,61070106)

作者简介:赵军(1966-),男,研究员,博士生导师;刘康(1981-),男,博士,助理研究员;周光有(1983-),男,博士生;蔡黎(1981-),男,博士生;研究方向皆为自然语言处理、信息抽取和问答系统。

检测与描述(Event Detection and Characterization, EDC)、实体翻译(Entity Translation, ET)等评测任务。数据来源主要是书面新闻语料。TAC-KBP从2009年开始到目前共进行了三届,评测任务包括实体链接(Entity Linking)和实体属性值抽取(Slot Filling),数据来源是新闻和网络数据。

纵观信息抽取技术的发展历程,传统信息抽取评测任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取,这大大制约了文本信息抽取技术的发展和应用,例如问答系统所需要的信息抽取技术远远超越我们通常研究的人名、地名、机构名、时间、日期等有限实体类别;上下位(Hypernym-hyponym)、部分整体(Part-whole)、地理位置(Located/Near)等有限关系类别;毁坏(Destruction/Damage)、创造(Creation/Improvement)、所有权转移(Transfer of Possession or Control)等有限事件类别,甚至所需要的类别是未知的、不断变化的。这种应用需求为信息抽取技术的研究提出了新的挑战。另一方面,从信息抽取的技术手段来讲,由于网络文本具有不规范性、开放性以及海量性的特点,使得传统的依赖于训练语料的统计机器学习方法遇到严重挑战。

为了适应互联网实际应用的需求,越来越多的研究者开始研究开放式信息抽取技术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。其特点在于:①文本领域开放:处理的文本领域不再限定于规范的新闻文本或者某一领域文本,而是不限定领域的网络文本;②语义单元类型开放:所抽取的语义单元不限定类型,而是自动地从网络中挖掘语义单元的类型,例如实体类型、关系类型和事件类型等;③以“抽取”替代“识别”:相对于传统信息抽取,开放式文本信息抽取不再拘泥于从文本中精确识别目标信息的每次出现,而是充分利用网络数据海量、冗余的特性,以抽取的方式构建面向实际应用的多层次语义单元集合。在这一过程中,不仅需要考虑文本特征,同时需要综合考虑网页结构特征、用户行为特征等。

本文以开放式文本信息抽取为主题,在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、关系抽取和实体消歧的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程中的应用进行分析讨论。由于篇幅限制,面向开放式的其他信息抽取技术,例如事件抽取[5][6][7]、观点信息抽取[8]等不在本文论述的范围。

2 开放式实体抽取

传统的命名实体识别任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体[2][9],也有一些研究针对一些特定领域的特定类型的命名实体(例如:产品名称、基因名称等)进行研究[10]。开放式实体抽取的任务是在给出特定语义类的若干实体(称为“种子”)的情况下,找出该语义类包含的其他实体,其中特定语义类的标签可能显式给出,也可能隐式给出。比如给出“中国、美国、俄罗斯”这三个实体,要求找出“国家”这个语义类的其他实体诸如“德国、法国、日本…...”。从方式上,传统意义上的实体识别关注的是从文本中识别出实体字符串位置以及所属类别(比如人名、地名、组织机构名等),而开放式实体抽取关注的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表。传统方法更侧重于识别,而开放式实体抽取更侧重于抽取。相对而言,实体抽取比实体识别在任务上更加底层,实体抽取的结果可以作为列表支撑实体的识别。在互联网应用领域,开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索、问答系统等都具有重要应用价值。

(1)开放式实体抽取的难点

开放式实体抽取目标是根据用户输入的种子词从网络中抽取同类型的实体,在这一过程中需要自动判别用户输入种子词的类别信息或者根据用户输入的类别进行类别词扩展。具体难点如下:

①初始信息少:实体抽取通常采用半监督或无监督的方法,已知信息一般有以下三种:种子实例、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个,语义类别标签有时会给出有时不会给出,而预先定义的信息通常是若干模板,可以利用的已知信息非常少。

②语义类别难以确定:在没有给定语义类别标签的情况下,种子实体可能会同时属于多个语义类,使得目标语义类别的确定非常困难。比如给出“中国、美国、俄罗斯”三个种子实体,这三个种子实体都可归为“国家”类别,但同时又都可归为“联合国安理会常任理事会成员”类别,或者归为“有核武器的国家”类别。

③缺乏公认的评测:实体抽取缺乏公认的评测,研究者在各自构造的实例集上进行研究,评价指标也各有不同,造成不同方法之间横向可比性差。而且由于测试语义类别很少,算法的可推广性不足。

(2)现有方法

开放式实体抽取的基本假设是:“同类实体在网络上具有相似的网页结构或者相似的上下文特征”。因此抽取过程就是首先找到这样的网页或者文本,然后从中抽取未知的同类型实体。例如在图1中,“奥迪”、“宝马”、“保时捷”等具有相同的网页结构,如果已知“奥迪”、“宝马”为汽车品牌名,那么该网页中其他具有相同上下文特征的字符串也很可能是汽车品牌类型实体。

图1. 开放式实体抽取示例

开放式实体抽取过程通常包括两个步骤:①候选实体获取;②候选实体置信度计算和排序。其主要方法是:从种子实体出发,通过分析种子实体在语料中的上下文特征得到模板,根据模板得到更多候选实体,选取置信度高的候选实体作为新种子进行迭代,满足一定条件后停止迭代,返回历次置信度高的候选实体作为结果输出。其基本抽取过程如下图所示:

图2. 开放式实体抽取基本流程

目前绝大多数方法都基于上述思路,具体区别在于目标语料来源不同,例如从网页中进行实体抽取,从具有特殊性质的文本(查询日志、网页表格、维基百科)中进行实体抽取等等,以下分别介绍。

使用网页语料:网络上存在大量含有同类实体列表的网页,可以利用这类网页的结构信息辅助类别实例抽取。Wang等人[11][12][13]首先通过搜索引擎返回包含全部种子实体且排名靠

前的前100个网页作为语料;然后从这些语料中学习模板,进而获取候选;最后使用网页、模板和候选以及它们彼此的链接关系构造图,使用随机步算法为候选打分。Whitelaw等人[14]首先根据种子实体在网页文本中的出现情况及上下文获得高质量的训练数据,然后选用有效的特征训练分类器,利用分类器判定候选是否是给定类别的实体。

使用某种具有特殊性质的文本作为语料(查询日志、网页表格、维基百科等):Pasca[15]利用查询日志进行实体抽取,首先利用种子实体在查询日志中的上下文特征抽取出特定模板;然后通过模板获取候选实例;最后对种子和候选实例分别构建上下文向量,通过计算相似度来打分。He等人[16]利用出现在同一个网页中同一个表格中的文本串,很有可能是同类实体这一假设,将文本串和表格作为两类不同的节点构建二分图,通过图算法对文本串进行打分并排序。

综合使用多种资源:Pennacchiotti等人[17]认为对于不同数据源应该根据其特性采用不同方法进行处理,最后将融合结果。他们针对不同数据源设计不同的抽取器来抽取实体,同时从不同数据源中抽取特征,构建排序函数,对于不同数据源抽取得到的实体进行融合和排序,输出最终结果。这种方法有效地利用了多源数据的冗余特性,利用大规模数据中的统计特征对于目标实体进行抽取。实验结果表明准确率得到有效提升。

另外,种子的质量对于实体抽取的结果具有重要的影响。Vyas等人[18]通过定义种子的典型度、歧义度和覆盖度来衡量种子的质量,进而选择更好的种子实体。而为了减少人工校对扩展结果的工作量,Vyas等人在先前的工作基础上提出了一种多次迭代,每次迭代由人工指定一个错误候选之后重新打分的提纯方法[19]。

(3)系统评测和技术水平

实体抽取目前还没有举办过公开的评测,研究工作的数据来源也不统一。通常使用平均准确率(Average Precision, AP)或者P@N作为评价指标。表1是Wang等人[20]对中英文各12种语义类别进行实体抽取的结果。其中,E1、E2是两种不同的模板获取方法,E1表示取3个种子实体的所有命名性指称项的公共上下文作为模板;E2表示取3个种子实体中每个种子的至少1次命名性指称项的公共上下文作为模板。EF、GW是两种不同的打分排序方法,EF(extracted frequency)表示按照抽取出的候选出现的次数进行排序,GW(graph walk)表示按照图漫步方法的输出的结果进行排序。

表1 中英文各12种语义类别进行实体抽取的结果

(a)英文结果

Max. 100 results Max. 200 Max. 300

English Google Sets E1+EF E2+EF E2+GW E2+GW E2+GW

classic-disney 37.62% 79.36% 74.45% 84.42% 88.20% 89.39%

cmu-buildings 0.00% 87.85% 87.75% 87.83% 87.83% 87.83%

Common-diseases 1.12% 17.94% 52.84% 57.46% 75.79% 76.87%

constellations 10.45% 89.61% 99.97% 100.00% 100.00% 100.00%

countries 14.24% 95.95% 97.86% 98.17% 98.67% 98.53%

mlb-teams 70.06% 98.61% 99.50% 99.80% 99.84% 99.81%

nba-teams 90.73% 100.00% 100.00% 100.00% 100.00% 100.00%

nfl-temas 94.26% 99.22% 99.98% 100.00% 100.00% 100.00%

periodic-comets 0.22% 69.24% 79.04% 84.78% 84.77% 84.77%

popular-car-makers 73.61% 79.18% 88.23% 95.16% 96.23% 96.95%

us-presidents 56.77% 91.64% 97.07% 99.99% 100.00% 100.00%

us-states 76.00% 99.96% 93.55% 100.00% 100.00% 100.00%

Average 43.76% 84.05% 89.19% 92.30% 94.28% 94.51%

(b) 中文结果

Max. 100 results Max. 200 Max. 300

中文E1+EF E2+EF E2+GW E2+GW E2+GW

china-dynasties 25.45% 33.86% 65.20% 64.62% 65.22%

china-provinces 94.97% 99.19% 99.21% 99.34% 99.35%

class-disney 80.73% 91.17% 91.68% 91.68% 91.68%

constellations 92.00% 96.25% 99.99% 99.99% 99.99%

countries 94.79% 95.39% 96.94% 97.76% 97.72%

mlb-teams 94.42% 84.05% 99.98% 99.96% 99.96%

nba-teams 90.29% 95.04% 99.90% 100.00% 100.00%

nfl-teams 68.08% 88.43% 95.75% 95.75% 95.75%

popular-car-makers 71.44% 83.29% 94.36% 94.47% 94.55%

taiwan-cities 95.26% 98.04% 100.00% 100.00% 100.00%

us-presidents 62.84% 82.61% 93.03% 94.24% 94.24%

us-states 98.47% 97.08% 99.48% 99.48% 99.48%

Average 80.73% 87.03% 94.63% 94.77% 94.83%

从上表来看,似乎实体抽取问题已经得到很好解决,但实际上并非如此。现有方法对不同类别实体抽取的效果差别很大,有些语义类别比较容易处理,比如“国家”这一类别,主要原因是这些语义类别的相关语料较多(比如在网络上出现的次数多),或者该类别实体的集中程度更好(比如经常在同一个网页中,甚至经常以列表的形式出现)。但是对于一些小的语义类别,由于数据的稀疏性,语义的歧义性,使得抽取结果中噪声严重,影响应用效果。

(4)实体抽取存在的问题

尽管目前存在着各种不同的实体抽取方法,有些方法的实验性能也达到了较高水平,但是实体抽取还存在着很多问题,其中最突出的问题是:

?算法的可扩展性问题

由于缺少相关评测,目前用于测试方法的数据皆由研究者自行构造,不同方法在不同数据上得到的结果难以比较。由于实验中采用的数据类别很少,使得算法的可扩展性差,无法满足面向互联网大规模真实应用的需求。

?模板的获取问题

目前的方法主要依靠模板来获取候选实体,而模板主要包括自定义的语义模板(比如“such as、kinds of”)以及简单统计得到的上下模板。这类模板对语义类别的描述能力有限,而且与特定的数据格式和上下文密切相关,如何挖掘和抽取有效的模板是今后研究的重点。

?目标数据源的置信度问题

目前实体抽取的数据源有普通网页、查询日志、维基百科等,这些数据源的质量层次不齐,严重影响了实体抽取的性能,如何过滤掉低质量的数据源是下一步的重要研究课题。

?开放式中文实体抽取

开放式中文实体抽取,尤其是当不存在网页结构特征的情况下,抽取任务变得更加困难。其中一个重要原因是分词问题,未知实体往往在分词过程中被分开。针对纯文本环境下开放式中文实体抽取的任务,本课题组[21]利用启发式规则来判别目标实体被错分的边界,然后利用上下文特征判别目标是否为实体以及实体类别,在搜狗语料上测试,能够达到70%的准

确率,有效地改善了中文开放式实体抽取的性能,但是这一结果还远远不能达到实用程度,还需进行进一步深入研究。

3 实体消歧

实体歧义指的是一个实体指称项可对应到多个真实世界实体(或称实体概念)的问题。例如,给定如下的三个实体指称项“华盛顿”:

美国开国元勋华盛顿。

美国首都华盛顿特区。

华盛顿州, 位于美国西北部。

它们分别指向“美国的第一任总统”、“美国首府”及“美国的华盛顿州”三个真实世界实体。在许多任务中,需要确定一个实体指称项所指向的真实世界实体,这就是实体消歧。

(1)实体消歧的难点

实体消歧任务与普通的词义消歧(Word sense disambiguation) 任务有很多相似之处[22],但是有其自身的难点。

①实体消歧目标不明确:传统的词义消歧任务是在具体上下文环境中确定多义词的确切词义,其词义候选来源于专家编撰的词典,目标明确。而实体消歧任务中,往往不能提供实体概念列表,或者提供的实体概念列表不完整,实体消歧难以完成。

②指称项的多样性(Name variation):指一个实体概念可以用多种命名性指称项指称,例如全称、别称、简称、拼写错误、多语言名称等。例如:NBA篮球明星Michael Jeffrey Jordan 在文本中可以用Michael Jordan、MJ、Jordan指称。

③指称项的歧义性(Name ambiguity):指一个命名性指称项在不同上下文中可以指称不同的实体概念。例如:“迈克尔·乔丹获得今年NBA的MVP”中有三个歧义实体:“迈克尔·乔丹”可能是篮球明星Michael Jeffrey Jordan,也可能是University of California, Berkeley的教授Michael I. Jordan;NBA可能是“National Basketball Association”,也可能是“National Bicycle Association”;MVP可能是Most V aluable Player,也可能是MVP: Health Care。

(2)现有方法

目前命名实体消歧任务分为两种类型:实体聚类消歧和实体链接消歧,主要解决单语言实体消歧问题,多语言实体消歧有其特有的方法[23][24],由于篇幅限制,本文不再介绍。

?实体聚类消歧

实体聚类消歧任务为:给定一个包含某个歧义实体的网页集合,按照网页中实体指称项所指向的实体概念对网页进行聚类,并抽取一个网页中关于某个实体的特定属性来辅助进行实体消歧。目前,实体聚类聚类消歧一般采用如下步骤:①对每一个实体指称项,抽取其上下文特征(包括词、实体等),并将其表示成特征向量;②计算实体指称项之间的相似度;③基于指称项之间的相似度,采用一定聚类算法将其聚类,将每个类看作是一个实体概念。核心是如何计算实体指称项之间的相似度。

传统方法主要利用上下文的词信息建立Bag-of-words模型(BOW),从而进行实体指称项相似度计算[25][26][27][28][29]。针对人名消岐, 基于图算法[30][31][32],充分利用社会化关系的传递性而考虑隐藏的实体关系知识,在某些情况下(特别是结构化数据,如论文记录、电影记录等)能取得更为准确的实体指称项相似度计算结果。但是,基于社会化网络的相似度度量的缺点在于它只用到上下文中的实体指称项本身的信息,不能利用实体指称项的其它上下文信息,因此通常不能在文本实体消歧领域取得有竞争力的性能。

为了克服基于表层特征的实体消歧方法的缺陷,一些研究者开始使用知识资源来提升实体消歧的效果,所使用的知识资源包括:Wikipedia[33][34]、Web上的链接信息[35] [36]、命名实体的

同现信息[37]、领域特定语料库[38]等。Bunescu and Pasca [39]将Wikipedia中的类别信息用于Wikipedia中的实体消歧;Cucerzan[40]同时利用BOW 和Wikipedia 类别信息对Wikipedia中以及普通网页上的实体名进行消歧;利用Wikipedia条目信息对于目标实体的上下文进行语义表示的优点在于可以更加精确地捕捉目标实体的语义关联度,而缺点在于这种表示具有稀疏性。针对这一问题,本课题组[33]利用Wikipedia中的知识链接信息计算实体指称项之间的相似度,其中采用概念对齐策略来捕捉不同百科条目之间的语义关联度,使得实体消歧的性能得到改善。但是单一使用Wikipedia知识库进行语义表示仍然具有语义稀疏性,针对这一问题,我们综合利用WordNet、Wikipedia、网页信息等多种知识源挖掘实体指称项的上下文语义信息,并提出了基于图的知识表示模型,将异构语义信息融合在统一的基于图的知识表示框架下,以此为基础挖掘概念之间的潜在语义关联,从而同时集成来自于不同知识源的语义知识[34] 。与基于单一知识源的方法相比,该方法显著提升了实体消歧的性能。

?实体链接消歧

基于聚类的实体消岐方法尽管可以将不同语义的实体指称项区分开,但是不能显式地给出实体的语义信息。针对这一问题,现在越来越多的研究者转向实体链接Entity Linking(也称Entity Resolution,Record Linkage和Entity Disambiguation)研究。实体链接消歧任务为:给定一个实体指称项,将其链接到知识库中的实体概念上。例如:将“Michael Jordan has published over 300 research articles on topics in computer science, statistics, electrical engineering, molecular biology and cognitive science.”中的实体指称项“Michael Jordan”链接到知识库中的实体概念“UC Berkeley大学教授Michael Jordan”上,而不是链接到实体概念“NBA球星Michael Jordan”上。

实体链接消歧主要有两个步骤:①候选实体的发现:给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体。例如:对“Michael Jordan is a former NBA player, active businessman and majority owner of the Charlotte Bobcats.”中的Michael Jordan 进行实体消歧,首先要找出Michael Jordan可能指向的真实世界实体Michael Jordan (basketball player)、Michael Jordan(mycologist)、Michael Jordan (footballer)、Michael B. Jordan、Michael H. Jordan、Michael-Hakim Jordan、Michael Jordan (Irish polotician)等等;②候选实体的链接:链接系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体。

候选实体发现目前有两种方法,一种是通过挖掘Wikipedia等网络百科得到,我们可以利用Wikipedia中锚文本的超链接关系、消歧页面(Disambiguation page)以及重定向页面(Redirection page)获得候选实体。另一种是通过挖掘待消歧实体指称项的上下文文本得到,这种方法主要用于发现缩略语的候选实体。缩略语在实体指称项中十分常见,据统计,KBP2009测试数据的3904个实体指称项中有827个为缩略语[41],缩略语指称项具有很强的歧义性,但它的全称往往是没有歧义的。Zhang等人[41]利用规则方法从上下文中获取缩略语候选实体,取得不错的效果。

实体链接的核心仍然是计算实体指称项和候选实体的相似度,选择相似度最大的候选实体作为链接的目标实体。从相似度计算的方式上,可以分成单一实体链接和协同实体链接,以下分别介绍。

单一实体链接:该方法仅仅考虑实体指称项与目标实体间的语义相似度。Honnibal等人[42]和Bikel等人[43]将实体指称项的上下文与候选实体的上下文分别表示成BOW 向量形式,通过计算向量间的余弦值确定指称项与候选实体的相似度,系统选择相似度最大的候选实体进行链接。Bunescu等人[39]考虑到候选实体的文本内容可能太短,会导致相似度计算不准确,加入指称项文本中的词语与候选实体类别的共现特征。Han[44]认为实体链接与三个因素相关:①实体指称项与目标实体之间的关联度;②目标实体在上下文中的语义一

致性;③目标实体在语料中的流行度。基于这三个考虑给出了一种产生式模型,充分融入了候选实体的背景知识与先验信息,显著提升了实体链接的性能。

协同实体链接:传统的单一实体链接只是孤立的单个实体的消岐问题,但是在现实文本存在大量的歧义实体,如果把每个歧义实体看做是一个孤立点,就忽略了实体之间的语义关联。而协同实体链接的目的就是利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束,从而更好地对于文本内的多个实体进行消岐。Cucerzan等人[40]考虑不同实体的类别信息,利用实体类别重合度计算目标实体的语义相似度。Kulkarni等人[45]采用pair-wise策略,将多个目标指称项分解为多个目标对,计算每个对之间的语义关联度,然后累加起来作为文本内部多个实体之间的语义一致性度量。这种方法尽管考虑了目标实体之间的语义一致性,但是pair-wise策略仍然是一种局部寻优方法,在寻优过程中考虑的仅仅是局部语义一致性。因此,本课题组在充分分析问题的基础上,给出了一种基于图的方法,利用图上的计算,充分考虑文本内部目标实体之间的全局语义一致性、指称项与目标实体之间的关联度[46]。相对于传统单一消岐方法以及pairwise方法能够有效地提高消岐的精度。

(3)系统评测和技术水平

目前主流的命名实体消歧评测平台主要有两个:一个是WePS(Web Person Search Clustering Task)评测[47][48],主要针对基于聚类的命名实体消歧系统进行评测;第二个是TAC KBP的Entity Linking评测[49],主要针对基于实体链接的命名实体消歧系统进行评测。

WePS主要针对Web人名搜索结果的消歧技术进行评测,其任务是通过对人名搜索结果进行聚类来消除歧义。目前WePS评测已经开展了两届,正在进行的是第三届:其中第一届评测作为SemEval 2007的子任务进行,共有15家单位参加;第二届评测作为WWW 2009的子任务进行,共有17家单位参加。目前WePS评测共包含三个数据集,分别为第一届的开发集(WePS1_Training)、第一届的测试集(WePS1_Test)和第二届的测试集(WePS2_Test)。这些数据集共包含109个待消歧人名,其中每个人名下大约有100个网页(第二届为150个)。

与WePS不同,TAC KBP评测对实体链接(Entity Linking)任务进行评测。目前,TAC实体链接任务的目标实体知识库使用2008年10月版本的Wikipedia构建,共包含了约82万个实体,其中有人物实体11万,占14%;组织实体5.5万,占6.8%;地理实体11万,占14.2%;其它类别的实体53万,占65%。目标知识库的总大小约为2.6Gb。下表是TAC KBP 2010评测的结果。

图3 TAC KBP 2010 结果

从图3可以看出,各个系统的平均水平在70%,还无法满足真实的应用需求,因此仍然需要深入研究和探索。

(4)实体消歧存在的问题

?空目标实体问题(NIL Entity Problem)

实体链接的一个未解决的问题是空实体问题(实体知识库中不包含某指称项的目标实体),现有的框架使用基于相似性阈值的处理方法,不能很好地建模和解决这个问题。我们正在尝试在语言模型框架下,用一个伪实体语言模型来建模这个问题,从而为有效地解决空实体问题提供一种思路。

?知识库的覆盖度问题

目前的研究表明,基于知识资源设计更精确的实体指称项相似度计算方法可以在某种程度上提升实体消歧的性能,但常常面临知识覆盖度问题。例如,仅仅使用社会化网络并不能对所有特征关联进行建模,如概念之间的语义关联、词汇之间的语义关联。对多源异构网络知识资源进行有效挖掘和集成是解决上述问题的一种途径。

?知识不确切的问题

互联网上的知识源通常面临着不准确的问题,甚至包含错误的知识。通常有两个方面的原因:①知识本身的不可靠:网络百科(如维基百科、百度百科等)本身存在错误;②由于抽取技术不可靠带来的知识不可靠:利用信息抽取、网页抽取等技术从社会化网络以及Web中抽取出来的知识很可能存在错误。因此需要研究能够容错的知识集成和推理技术。

?知识库使用的问题

利用知识库进行实体消歧时,对于知识库的使用目前所有方法都集中于使用单文档特征,例如:对实体概念的描述仅仅使用其Wikipedia页面。但是,单文档特征常常面临数据稀疏问题,不足以描述实体概念。另外,仅仅使用单文档特征也忽略了其它知识,如语料库中存在的聚类结构和网页链接结构、概念或实体的层级结构等。因此,有必要在语言模型框架下提出新的可以有效使用这些知识的方法。

4 开放式实体关系抽取

实体关系抽取指的是确定实体之间是否存在关系并确定其关系类别的任务。例如,给定“国家财政部部长项怀诚发表了重要讲话”这个句子,实体关系抽取需要识别其中的实体“国家财政部”和“项怀诚”之间存在“Employee_of”类别的关系。传统的实体关系抽取大都是给定关系类别,要求在限定语料中判别两个实体之间是否存在给定关系,可以看作是一个模板填充或者槽填充的过程。例如在MUC-6[2]中,其机构模板中包含LOCATE和COUNTRY两个填充槽,分别表示该机构所处的位置和所在国家。MUC-7[50]把命名实体之间潜在的关系从实体的属性值中分离出来,正式引入了模板关系(TR,Template Relation)任务,它要求识别实体之间的三种相互关系(即location_of、employee_of和product_of等)。在TAC KBP Slot Filling任务中,针对不同类型实体,定义了不同的实体关系(是各种属性关系),要求系统从大规模文本中找到指定实体的属性值。

在面对海量网络文本资源时,不同的实体类型具有不同关系(或属性)。传统实体关系抽取研究受到人工定义关系类型的限定以及训练语料的限制,很难适应网络文本快速增长、变化的需求。因此,开放式实体关系抽取的目标就是突破封闭的关系类型限定以及训练语料的约束,从海量的网络文本中抽取实体关系三元组(Arg1, Pred, Arg2),这里Arg1表示实体,Arg2表示实体关系值,通常也为实体,Pred表示关系名称,通常为动词、名词或者名词短语。例如对于下面这句话:

“McCain fought hard against Obama, but finally lost the election”

从中,我们可以抽取出如下两组三元组(McCain, fought, Obama)和(McCain, lost, election)。

(1)开放式关系抽取的难点

开放式实体关系抽取包含两个子任务:①实体关系类型抽取;②实体关系值抽取。

实体关系类型抽取:面对开放领域,如何针对每一领域内实体类别确定其关系类别,是开放式关系抽取的首要难点,这种关系不仅仅包含概念之间的上下位关系、部分整体关系、属主关系等通用关系,也包含不同类别实体概念所特有的语义关系,例如“篮球运动员”的以下属性关系:身高、臂展、命中率、篮板等。Web上存在着大量结构化知识源,其中蕴含着大量易于获取的实体语义关系类别(如维基百科的Infobox),挖掘和利用Web知识源中的语义知识,并充分利用数据冗余性进行知识验证是可行的解决方案。

实体关系值抽取:基于给定类别体系,如何在网络文本中挖掘其关系值是传统关系抽取任务的主要研究点。以往方法依赖于训练语料,通过上下文特征进行关系值抽取。然而,面对开放领域,针对每一个领域构建相应的训练语料不具有可行性。那么面对开放的网络资源,如何利用结构化网络知识与非结构化网络知识的冗余性,自动构建训练语料,同时建立自适应的关系抽取算法,是开放式关系抽取的另一个难点问题。

(2)现有方法

在开放式实体关系抽取方面,Washington大学的人工智能研究组在这方面做了大量代表性的工作,并且开发了一系列原型系统:TextRunner[51]、WOE[52]、ReVerb[53]等。对于关系名称的抽取,TextRunner[51]把动词作为关系名称,抽取过程类似于语义角色标注,通过动词链接两个论元,从而挖掘论元之间的关系。WOE[52]是以Wikipedia为目标,从中抽取实体关系类型,从而构建实体的属性描述框架。在Wikipedia中,在每个概念条目中,通常都会有人工标注的Infobox信息,其中包含了大量实体关系类别,如图4所示。依据Infobox中蕴含的大量实体关系对,WOE对于概念条目正文进行回标,以此来自动产生关系值抽取的训练语料,从而解决了开放式关系抽取训练语料不足的问题。

3

图4. 从Wikipedia中抽取关系

除了从纯文本以及半结构化网页中进行关系类别抽取外,Pasca等人[15]以用户日志为数据源,利用其中实体、属性和关系词的共现信息获取目标实体类别的属性类别列表。比如输入目标类别“电脑厂商”和种子实体“联想、苹果、戴尔”,输出排序后的目标类别的属性类别列表为“笔记本、售后、CEO,…”。实验表明,这种方法在前50个结果中平均可以达到76%的准确率。

在关系值抽取方面,TextRunner直接从网页的纯文本中抽取实体关系,在这一过程中只考虑文本中词与词之间的关系特征,而不考虑网页内部的结构特征。TextRunner首先利用简单的启发式规则,在宾州树库上产生训练语料,提取一些浅层句法特征,训练一个分

类器,用来判断两个实体间是否存在语义关系;然后在海量网络数据上,找到候选句子,提取浅层句法特征,利用分类器判断所抽取的关系对是否可信;最后利用网络数据的冗余信息,对初步认定可信的关系进行评估。但是,TextRunner的问题在于往往从文本中抽取出无信息量的三元组(Un-informative Extractions)和错误的三元组(Incoherent Extractions),其中无信息量三元组在抽取结果中占7%的比例,错误三元组占13%的比例。针对这一问题,Etzioni等人[53]开发了ReVerb系统,提出了利用句法和词汇信息对抽取过程进行约束,实验证明这种方法可以较大幅度地提升关系值抽取的准确率和召回率。

(3)系统评测和技术水平

开放式关系抽取目前还没有举办过公开评测,研究工作的数据来源也不统一。目前,评价指标仍然和传统信息抽取评价指标一样,采用正确率(Precision)、召回率(Recall)以及F值作为评价指标。Wu[52]给出了几个开放式关系抽取系统的实验比较,如图5所示:

(a) 关系名抽取(b) 关系名与关系值抽取

图5 开放式关系抽取系统比较

从图5我们可以看出,对于关系名抽取,目前F值可以达到70%左右的,而综合考虑关系值的抽取,性能下降很多。从面向互联网的真实应用需要来看,未来还需要深入研究。

(4)需要解决的问题

从传统给定类别的关系抽取到开放式的关系抽取,是关系抽取研究思路上的一个转变,目前开放式抽取系统还存在的不足是:

?针对真实网络数据的关系抽取问题

目前的关系抽取研究大多数是在干净的文本上进行的,而网络数据格式不规范,噪声大,质量层次不齐,如何针对真实网络数据研究鲁棒的关系抽取方法是需要重点研究的问题之一。

?单纯利用Infobox抽取关系名覆盖率不高的问题

Wu[52]利用Infobox信息进行回标产生训练集,这种方法对于中文百科页面仍然具有局限性。在中文百科页面中(百度百科、互动百科等)并不是所有的类别条目下都有Infobox信息,这使得Wu[52]的方法具有很大局限性。同时,Infobox中往往是一些同类型条目共有的信息,而大部分条目特有的属性信息散落在百科条目的文本中,以半结构化或者纯文本形式出现。开放式关系抽取不能忽略这一部分信息。

5 结束语

信息抽取技术的研究从上世纪八十年代开始至今走过了二十多年的历程,研究内容和技术手段随着互联网的发展而发展。在研究内容上,已经从面向限定领域、限定类型的信息抽取任

务逐渐发展为开放领域、开放类别的信息抽取任务。在技术手段上,从早期基于人工模板的方法,到基于语料库的统计方法,再到目前Web2.0时代从大规模用户生成内容(User Generated Content,例如网络百科、社区问答等)进行知识挖掘,进而融合知识和统计方法进行开放式信息抽取,技术手段越来越有效。在以上进展过程中,信息抽取技术乃至自然语言处理技术的研究越来越面向互联网应用,而互联网也为信息抽取技术和自然语言处理技术的研究提供了越来越多的宝贵资源和技术创新的源泉。近年来,研究人员利用网络上丰富的数据资源开展了一系列的研究工作,比如利用网络海量数据提升句法分析的性能[54][55]; 利用网络上积累的大量问答对开展社区问答方面的研究[56][57][58][59], 等等。在这种交叉融合的趋势下,信息抽取技术和自然语言处理技术的研究和应用必将得到加速发展。

作为开放式信息抽取技术的应用,大规模知识库的自动构建是一个典型代表。很多互联网应用任务都需要背景知识库的支撑,这个知识库不仅包含WordNet[60]、HowNet[61]等常识知识库中的通用语义知识,而且包含百科全书、领域知识库中的领域语义知识。如果能把多源知识集成为一个大的知识系统,将可能提高很多互联网应用系统的性能,并开创语义网时代的很多应用。现有的知识库如WordNet[60]、HowNet[61]和CYC[62]等大多数依靠专家人工编撰。随着互联网的发展,知识呈爆炸式增长,人工构建知识库特别是领域知识库遇到了很大困难[63]:不仅费时费力,而且知识覆盖率低,数据稀疏,更新缓慢。另一方面,机器自动构建知识库的方法目前仍旧只能完成简单粗浅的任务[64],无法达到构建高质量知识库的要求。开放式信息抽取技术研究的不断深入以及Wikipedia、Freebase、百度百科、互动百科等大规模网络知识库的大量出现,为大规模知识工程的构建提供了新的契机。信息抽取和知识工程领域的研究人员在这方面做出了积极有效的探索。YAGO[65]从Wikipedia的category pages中提取出实体实例和关系实例候选,并与WordNet进行衔接,准确率达到97%。这样,YAGO既具有WordNet干净的概念层级结构,又拥有Wikipedia的海量实例。目前,YAGO 有100万实体及其500万事实。本研究组利用在信息抽取方面的技术积累,以《中国大百科全书》知识体系作为目标知识库的结构,从网络知识库中抽取概念实例并综合利用网络百科网页中蕴含的丰富的语义标签、半结构化信息和非结构化信息进行概念实例挂载,从而将百科知识库从8万条目扩展为目前的百万条目级别,在此基础上进行概念属性抽取,为下一步研发面向开放式的自动问答系统提供了知识资源的支撑[66]。

综上所述,信息抽取在互联网应用中具有非常重要的应用前景。面对互联网的实际需求以及网络文本的特点,传统信息抽取技术已经遇到技术瓶颈,无法得到广泛应用,迫切需要更加系统深入的研究。本文重点介绍面向互联网应用的开放式信息抽取技术,以实体为核心,重点分析介绍实体识别和抽取、实体消歧和实体关系抽取等三个开放式信息任务的研究现状、存在的问题和值得深入研究的方向。从研究方法上来看,研究人员已经开始突破传统的依赖人工标注语料库的统计学习方法,有效地挖掘和集成多源异构的网络知识并与统计方法结合进行开放式信息抽取。因此,研究领域知识的表示、挖掘、集成和推理机制,探索构建高性能、大规模知识系统的方法,为克服传统方法在面向开放式信息抽取时的推导和泛化能力不足的问题提供解决方案,具有重要的学术意义。

致谢:感谢研究生们对本文的贡献,特别是韩先培和张涛(实体消歧),杨帆(多语言实体消歧),齐振宇(实体抽取),刘芳(属性抽取),徐立恒、刘洋和来斯惟(网络知识工程)等。

参考文献

[1] Ralph Grishman. 1997. Information Extraction: Techniques and Challenges[R]. NewYork: New York

University, 1997.

[2] Ralph Grishman,Beth Sundheim. Message Understanding Conference-6: A Brief History[C]//Proceedings of

COLING, 1996.

[3] ACE: https://www.wendangku.net/doc/ff9987137.html,/iad/mig/tests/ace/[OL].

[4] NIST: https://www.wendangku.net/doc/ff9987137.html,/tac/[OL].

[5] Martina Naughton, N. Kushmerichand J. Carthy. Event Extraction from Hetergeneous News Sources[C]//

Proceedings of AAAI, 2006.

[6] D. McClosky, M. Surdeanu, and C. D. Manning. Event Extraction as Dependency Parsing[C]// Proceedings of

ACL-HLT, 2011.

[7] Yu Hong, Jianfeng Zhang, Bin Ma, Jianmin Yao, Guodong Zhou and Qiaoming Zhu. Using Cross-Entity

Inference to Improve Event Extraction[C] //Proceedings of ACL-HLT, 2011.

[8] 刘康. 文本倾向性分析技术研究[D]. 中国科学院自动化研究所博士学位论文, 2010.

[9] 赵军. 命名实体识别、排歧和多语言关联[J]. 中文信息学报, 2009, 23(2): 3-17.

[10] Jun Zhao, Feifan Liu. Product Named Entity Recognition in Chinese Texts[J]. International Journal of

Language Resource and Evaluation. 2008, 42(2): 132-152.

[11] Richard C. Wang, William Cohen. Automatic Set Instance Extraction using the Web[C]// Proceedings of

ACL-IJCNLP, 2009.

[12] Richard C. Wang, William Cohen. Iterative Set Expansion of Named Entities using the Web[C]//Proceedings

of ICDM, 2008.

[13] Richard C. Wang, Nico Schlaefer, William Cohen and Eric Nyberg. Automatic Set Expansion for List

Question Answering[C] //Proceedings of EMNLP, 2008.

[14] Casey Whitelaw, Alex Kehlenbeck and Nemanja Petrovic. Web-Scale Named Entity Recognition[C]

//Proceedings of CIKM, 2008.

[15] Marius Pasca: Organizing and searching the world wide web of facts -- step two: harnessing the wisdom of

the crowds[C]//Proceedings of WWW, 2007.

[16] Yeye He, Dong Xin. SEISA: Set Expansion by Iterative Similarity Aggregation[C]// Proceedings of WWW,

2011.

[17] Marco Pennacchiotti and Patrick Pantel. Entity Extraction via Ensemble Semantics[C] // Proceedings of

EMNLP, 2009.

[18] Vishnu Vyas, Patrick Pantel and Eric Crestan. Helping Editors Choose Better Seed Sets for Entity Set

Expansion[C]//Proceedings of CIKM, 2009.

[19] Vishnu Vyas and Patrick Pantel. Semi-Automatic Entity Set Refinement[C]//Proceedings of NAACL, 2009.

[20] Richard C. Wang and William Cohen. Language-Independent Set Expansion of Named Entities using the

Web[C]//Proceedings of ICDM, 2007.

[21] 齐振宇, 赵军, 杨帆. 一种开放式中文命名实体识别的新方法[C]//(CCIR2009), 上海, 2009.

[22] Philip Edmonds. SENSEV AL: The Evaluation of Word Sense Disambiguation Systems[R]// ELRA Newsletter,

October, 2002.

[23] Fan Yang, Jun Zhao, Bo Zou and Kang Liu. Chinese-English Backward Translation Assisted with Mining

Monolingual Web Pages[C]//Proceedings of ACL, 2008.

[24] Fan Yang, Jun Zhao, Kang Liu. A Chinese-English Organization Name Translation System Using Heuristic

Web Mining and Asymmetric Alignment[C]//Proceedings of ACL, 2009.

[25] Bagga and Baldwin. Entity-Based Cross-Document Coreferencing Using the Vector Space Model[C]

//Proceedings of HLT/ACL, 2008.

[26] Gideon S. Mann and David Yarowsky. Unsupervised Personal Name Disambiguation[C]// Proceedings of

CONIL, 2003.

[27] Cheng Niu, Wei Li and Rohini K. Srihari. Weakly Supervised Learning for Cross-document Person Name

Disambiguation Supported by Information Extraction[C]//Proceedings of ACL, 2004.

[28] Ted Pedersen, Amruta Purandare and Anagha Kulkarni. Name Discrimination by Clustering Similar

Contexts[C]//Proceedings of CICLing, 2005.

[29] Ying Chen and James Martin. Towards Robust Unsupervised Personal Name Disambiguation[C]//Proceedings

of EMNLP, 2007.

[30] Bradley Malin. Unsupervised Name Disambiguation via Social Network Similarity[C]// Proceedings of SIAM,

2005.

[31] Bradley Malin and Edoardo Airoldi. A Network Analysis Model for Disambiguation of Names in Lists[J].

Computational & Mathematical Organization Theory, 11, 119-139, 2005..

[32] Kai-Hsiang Yang, Kun-Yan Chiou, Hahn-Ming Lee and Jan-Ming Ho. Web Appearance Disambiguation of

Personal Names Based on Network Motif[C]//Proceedings of WI, 2006.

[33] Xianpei Han, Jun Zhao. Named Entity Disambiguation by Leveraging Wikipedia semantic

knowledge[C]//Proceedings of CIKM, 2009.

[34] Xianpei Han and Jun Zhao. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity

Disambiguation[C]//Proceedings of ACL, 2011.

[35] Joseph Hassell, Boanerges Aleman-Meza and I. BudakArpinar. Ontology-Driven Automatic Entity

Disambiguation in Unstructured Text[C]//Proceedings of ISWC, 2006.

[36] Ron Bekkerman and Andrew McCallum. Disambiguating Web Appearances of People in a Social

Network[C]//Proceedings of WWW, 2005.

[37] Dmitri V. Kalashnikov, Rabia Nuray-Turan and Sharad Mehrotra. Towards Breaking the Quality Curse. A

Web-Querying Approach to Web People Search[C]//Proceedings of SIGIR, 2008.

[38] Yiming Lu, Zaiqing Nie, Taoyuan Cheng, Ying Gao and Ji-Rong Wen. Name Disambiguation Using Web

Connection[C]//Proceedings of AAAI, 2007.

[39] Razvan Bunescu and Marius Pasca. Using Encyclopedic Knowledge for Named Entity Disambiguation[C]//

Proceedings of EACL, 2006.

[40] Silviu Cucerzan. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]// Proceedings of

EMNLP, 2007.

[41] Wei Zhang, Yan–Chuan Sim, Jian Su and Chew Lim Tan. Entity Linking with Effective Acronym Expansion,

Instance Selection and Topic Modeling[C]//Proceedings of IJCAI, 2011.

[42] Matthew Honnibal and Robert Dale. DAMSEL: The DSTO/Macquarie System for

Entity-Linking[C]//Proceeding of TAC, 2009.

[43] Dan Bikel, Vittorio Castelli, Radu Florian and Ding-Jung Han. Entity Linking and Slot Filling through

Statistical Processing and Inference Rules[C]//Proceedings of TAC, 2009.

[44] Xianpei Han and Le Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge

Base[C]//Proceedings of ACL, 2011.

[45] Sayali Kulkarni, Amit Singh, Ganesh Ramakrishnan and Soumen Chakrabarti. Collective annotation of

Wikipedia entities in web text[C]//Proceedings of KDD, 2009.

[46] Xianpei Han, Le Sun and Jun Zhao. Collective Entity Linking in Web Text: A Graph-Based

Method[C]//Proceedings of SIGIR, 2011.

[47] Javier Artiles, Julio Gonzalo and Satoshi Sekine. The SemEval-2007 WePS Evaluation: Establishing a

benchmark for the Web People Search Task[C]//Proceedings SemEval, 2007.

[48] Javier Artiles, Julio Gonzalo and Satoshi Sekine. WePS2 Evaluation Campaign: Overview of the Web People

Search Clustering Task[C]//Proceedings of WWW Workshop of WePS2, 2009.

[49] Paul McNamee and Hoa Dang. Overview of the TAC 2009 Knowledge Base Population

Track[C]//Proceedings of Text Analysis Conference (TAC-2009), 2009.

[50] MUC-7: https://www.wendangku.net/doc/ff9987137.html,/related_projects/muc/proceedings/muc_7_proceedings/overview.html/[OL]

[51] Michele Banko, Michael J Cafarella. Stephen Soderland, Matt Broadhead and Oren Etzioni. Open Information

Extraction from the Web[C]//Proceedings of IJCAI, 2007.

[52] Fei Wu and Daniel S. Weld. Autonomously Semantifying Wikipedia[C]//Proceedings of CIKM, 2007.

[53] Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam. Open Information

Extraction: the Second Generation[C]//Proceedings of IJCAI, 2011.

[54] Mohit Bansal and Dan Klein. Web-Scale Features for Full-Scale Parsing[C]//Proceedings of ACL-HLT, 2011.

[55] Guangyou Zhou, Jun Zhao, Kang Liu and Li Cai. Exploiting Web-Derived Selectional Preference to Improve

Statistical Dependency Parsing[C]//Proceedings of ACL-HLT, 2011.

[56] Xiaobin Xue, Jiwoon Jeon and W. Bruce Croft. Retrieval Models for Question and Answer

Archives[C]//Proceedings of SIGIR, 2008.

[57] Guangyou Zhou, Li Cai, Jun Zhao and Kang Liu. Phrase-Based Translation Model for Question Retrieval in

Community Question Answer Archives[C]//Proceedings of ACL-HLT, 2011.

[58] Li Cai, Guangyou Zhou, Kang Liu and Jun Zhao. Learning the Latent Topics for Community

QA[C]//Proceedings of IJCNLP, 2011.

[59] Li Cai, Guangyou Zhou, Kang Liu and Jun Zhao. Learning to Classify Large-Scale Questions in Community

QA by Leveraging Wikipedia Semantic Knowledge[C]//Proceedings of CIKM, 2011.

[60] George A. Miller, WordNet: A Lexical Database for English[J]. Communication of the ACM, 38(11):39-41.

[61] HowNet: https://www.wendangku.net/doc/ff9987137.html,/[DB/OL].

[62] Douglas B. Lenat. CYC: A Large-Scale Investment in Knowledge Infrastructure[J]. Communications of the

ACM 38(11): 33–38, Nov. 1995.

[63] Alexander Madche and Steffen Staab. Ontology Learning for the Semantic Web[j]. IEEE Intelligent Systems,

16(2):72–79, March/April 2001.

[64] L. Brainbridge. Ironies of automation[j]. Automatica, 19:775–779, 1983.

[65] Fabian M. Suchanek, Gjergji Kasneci and Gerhard Weikum. YAGO: A Core of Semantic Knowledge Unifying

WordNet and Wikipedia[C]//Proceedings of WWW, 2007.

[66] 徐立恒,刘洋,来斯惟,刘康,田野,王渝丽,赵军. 基于多特征表示的本体概念挂载研究

[C]//(CNCCL2011), 洛阳, 2011.

提取信息,概括内容

提取信息,概括内容 一、提取信息、概括内容的步骤 1、整体把握。通读文本,根据说明文文体特征,把握文章的主要内容。 2、根据题目要求,确定阅读区间,即与题目要求相关信息的确切位置。 3、审读题干,选准角度,有针对性地筛选、概括。 4、比较鉴别,去伪存真。根据筛选标准,仔细辨别,剔除多余的、错误的信息。 5、分条表述题干所要求回答的信息。 二、答题规律 1、根据语言标志获取有用信息。如标题、中心句段、过度句段、总结句段等。 2、筛选关键词句来获取有用信息。找到关键性的词语或句子,抓住能反映概念本质特征 的词语,就得到了相关的显性信息,可直接摘录原词原句来答题。 3、根据命题要求或题干要求来获取隐性信息。要从所确定的范围之内的关键词句入手, 把隐含在材料内的隐性信息提取出来,分点概括归纳。有时候,题目中的分值,往往就隐 含着答案的得分点。 4、找准概括的角度。根据题干要求取舍信息,分条作答,不遗漏。 转基因蚊子 袁越 蚊子不但会咬人,还能传播疾病,比如每年导致全球5000万人感染的登革热就是依靠蚊 子传播的。巴西是登革热的重灾区。在巴西北方热带地区很难通过减少积水来防蚊子,只 能用蚊帐或者喷洒灭蚊剂来控制登革热疫情,但效果都不太好。于是巴西政府祭出撒手锏,于2014年4月10日批准引入了一种转基因蚊子,使得巴西成为全球第一个批准向环境 释放转基因昆虫的国家。这种蚊子是由一家英国公司研制出来的,转了基因的雄蚊子产生 的精子有遗传缺陷,导致其后代没办法正常发育,最终绝大部分夭折在幼虫阶段,无法变 成蚊子咬人。 不过这个方法有个先天缺陷,那就是必须不断地向自然界补充新鲜的转基因雄蚊子,原因 在于转了这个基因的雄蚊子几乎没有后代,转入的新基因遗传不下去,一旦停止人工补充,蚊子的种群数量就会缓慢恢复。转基因蚊子的培育是很花钱的,这就意味着这个方法很难 大面积推广。 为了解决这个问题,英国伦敦帝国学院的科学家改良了这个技术,成功培育了一种新的转 基因蚊子。这种蚊子被转入了一种来自黏菌的基因,其编码的蛋白质专门破坏精子生成过 程中的X染色体,所以它的后代性别比例发生了改变,95%以上都是雄性的。 “这么做有两个好处,一来雄蚊子不咬人,所以转基因蚊子释放后的第二年就可以见到成效。二来转入的基因可以遗传给大约一半的后代,不会消失,所以只要向环境中释放一次,理 论上就可以使这种蚊子最终彻底灭绝。”这项研究的负责人安德里亚·克里桑提博士介绍说,“另外我们还转入了多个拷贝,使得蚊子对这个基因出现抗性的可能性变得非常小。” 为了证明此法可靠,克里桑提和同事们在4个箱子里各引入了100只雌雄各半的蚊子,模拟自然的状态。然后在每个箱子里引入30只转基因雄蚊子。4代之后箱子里的雌蚊子数 量便大幅度减少,又经过了2~3代之后,其中的3只箱子里便找不到一只雌蚊子了,这 就意味着这个封闭种群已经被彻底消灭了。 克里桑提博士将实验结果写成论文,发表在2014年6月10日出版的《自然—通讯》期 刊上,在全球范围内引起了不小的轰动。反对者认为这件事就相当于人类主动地灭绝一种 生物,太不人道了。

文本特征提取方法

https://www.wendangku.net/doc/ff9987137.html,/u2/80678/showart_1931389.html 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

文本挖掘论文:WEB文本信息的提取

文本挖掘论文:WEB文本信息的提取 【摘要】随着网络信息的迅速发展,网络信息量日益增加,怎样从海量的网络上提取有用的信息是web文本挖掘技术的重要应用方向。本文提出一种web文本挖掘系统的设计模型,为实现更深层次的信息处理做准备。 【关键词】文本挖掘 web 信息处理 一引言 web挖掘从数据挖掘发展而来,因此,其定义与我们熟知的数据挖掘定义相类似。但是,web挖掘与传统的数据挖掘相比有许多独特之处,web挖掘的对象是大量、异质、分布的web文档。由于web文档本身是半结构化或无结构的,且缺乏机器可理解的语义,因此,有些数据挖掘技术并不适用于web挖掘,即使可用也需要建立在对web文档进行预处理的基础之上。 二 web文本挖掘系统的设计 web文本挖掘系统能自由漫游web站点,在web上能按照某种策略进行远程数据的搜索与获取,并将挖掘文本集合在系统的本地数据库中。系统原型图,见图1。 1.文档采集器 利用信息访问技术将分布在多个web服务器上的待挖掘文档集成在web挖掘系统的本地数据库中。

2.文本预处理器 利用启发式规则和自然语言处理技术从文本中抽取出代表其特征的元数据,并存放在文本特征库中,作为文本挖掘的基础。 3.文本分类器 利用其内部知识库,按照预定义的类别层次,对文档集合或者其中的部分子集合内容进行分类。 4.文本聚类器 利用其内部知识库对文档集合或其中的部分子集的内容进行聚类。 5.多维文本分析引擎 web文本挖掘系统以引进文本超立方体模型和多维文本分析技术,为用户提供关于文档的多维视图。多维文本分析引擎还具有统计、分析功能,从而能够揭示文档集合的特征分布和趋势。此外,多维文本分析引擎还可以对大量文档的集合进行特征修剪,包括横向文档选择和纵向特征投影两种方式。 6.用户接口模块 在用户与多维文本分析引擎之间起桥梁作用。它为用户提供可视化的接口,将用户的请求转化为专用语言传递给多维文本分析引擎,并将多维文本分析引擎返回的多维文本视

开放式文本信息抽取--非常好的综述

开放式文本信息抽取 赵军,刘康,周光有,蔡黎 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。本文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 关键词:开放式信息抽取;知识工程;文本理解 Open Information Extraction ZHAO Jun, LIU Kang, ZHOU Guangyou, CAI Li (National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, 100190, China) Abstract:The research on information extraction is being developed into open information extraction, i.e. extracting open categories of entities, relations and events from open domain text resources. The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources. This paper firstly reviews the history of the researches on information extraction, then detailedly introduces the task definitions, difficulties, typical methods, evaluations, performances and the challenges of three main open domain information extraction tasks, i.e. entity extraction, entity disambiguation and relation extraction. Finally, based on our researches on this field, we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering, question answering, etc. Keywords:Open information extraction; Knowledge engineering; text understanding 1 引言 文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术[1]。例如从有线新闻和广播电视的文本中抽取相关恐怖事件情况:时间、地点、作案者、受害者、袭击目标等信息。从二十世纪八十年代开始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。MUC从1987年到1997年总共进行了七届,其五大评测任务是命名实体识别、同指关系(Co-reference)消解、模板元素(Template element)填充(类似于实体属性抽取)、模板关系(Template relation)确定(类似于实体关系抽取)和场景模板(Scenario Template)填充(类似于事件抽取)。数据来源是限定领域语料,例如海军军事情报、恐怖袭击、人事职位变动等;ACE从1999年到2008年总共进行了九届,涉及实体检测与跟踪(Entity Detection and Tracking, EDT)、数值检测与识别(Value Detection and Recognition, VDR)、时间识别和规范化(Time Expression Recognition and Normalization, TERN)、关系检测与描述(Relation Detection and Characterization, RDC)、事件 基金项目:国家自然科学基金项目(60875041,61070106) 作者简介:赵军(1966-),男,研究员,博士生导师;刘康(1981-),男,博士,助理研究员;周光有(1983-),男,博士生;蔡黎(1981-),男,博士生;研究方向皆为自然语言处理、信息抽取和问答系统。

2020最新高考语文文本阅读方法与信息的提取筛选

第一、二讲文本阅读方法与信息的提取筛选 一、从语基到阅读,巩固与过渡 [2019 年全国卷I 真题] 阅读下面的文字,完成17-19 题。 中国传统音乐包括民间音乐、宗教音乐、??音乐、宫廷音乐等类别,其中??音乐的 代表主要就是古琴艺术。但随着传统??阶层在中国的消失,古琴艺术逐渐_________ ,甚? 被社会遗忘。直到2003 年,中国的古琴艺术被联合国教科?组织列?“?类?头和非物质遗产代表作名录”,这种过去对?化有着深刻影响的艺术形式,才重新_______了?机。(),但我认为这恰恰是它的?个特点。正因为古琴音量小,使得它是直接和你的?进?交流的乐器,是最个?化的乐器。我国古代就有“琴者,?也”“琴者,禁也”的说法。“琴者,?也”即弹 琴是为了和自?的?灵对话,与?自然交流,与三五“知音”互相欣赏;“琴者,禁也”即弹琴 是为了_______自?,也说明在古??目中,琴不仅是?件乐器,也是________ 的?具。 17.依次填入文中横线上的词语,全都恰当的一项是()(3 分) A. 边缘化获得制约放松身心 B. 私人化获得制约修身养性 C. 私人化焕发约束放松身心 D. 边缘化焕发约束修身养性 18.下列填入文中括号内的语句,衔接最恰当的一项是()(3 分) A.古琴的缺点是音量小,这是很多人的看法 B.音量小作为古琴的一个缺点,被很多人所批评 C.音量小是古琴的一个缺点,很多人都是这么认为的 D.古琴音量小,很多人认为这是它的一个缺点 19.文中画横线的句子有语病,下列修改最恰当的一项是()(3 分) A.正因为古琴音量小,所以使得它是直接和你的心进行交流的最个人化的乐器。 B.正是古琴音量小,使得它是直接和你的心进行交流的乐器,是最个人化的乐器。 C.正是音量小,使得古琴成为直接和你的心进行交流的乐器,是最个人化的乐器。 D.正因为音量小,使得古琴成为直接和你的心进行交流的最个人化的乐器。

文本信息抽取优化关键技术研究与系统实现

文本信息抽取优化关键技术研究与系统实现随着大数据时代的快速发展,企业在日常经营和信息化建设过程 中产生大量富有价值的数据信息。如何从海量分散的数据中快速且准确地分析出真正有用的信息是当前数据挖掘领域的重要研究内容。文本信息抽取技术正是数据挖掘领域的核心问题之一。在一些语义明确的场景下,基于规则的信息抽取方法在抽取的准确率和召回率方面都 有优异的表现。对于较大规模待抽取数据,提升信息抽取系统效率的 关键技术是提高正则表达式的匹配速度。在此背景下,本文对基于正 则表达式匹配的信息抽取技术进行了深入研究,通过对当前正则表达 式匹配加速相关的几种经典算法的比较和分析,针对原始DFA算法状 态跳转查找表中存在的问题,提出了基于字符分组的查找表压缩算法 的设计方案,并依托实验室FPGA硬件平台实现了对正则表达式匹配 速度的优化,并对基于该优化方案的信息抽取系统进行了设计和实现。本文首先介绍了信息抽取系统的主要任务、常用方法和评价标准,又 介绍了正则表达式匹配技术的常用方法和匹配过程的研究现状。然后通过分析现有正则表达式匹配技术的技术瓶颈,提出一种基于字符分 组的正则表达式匹配优化算法,并对算法的性能进行测试和分析。实 验结果表明,经过字符分组优化后的查找表算法,相较于原始查找表 结构,可以实现30%左右的空间压缩率以及超过50%的单个字符平均 匹配周期的缩短幅度。本文基于上述优化算法,对信息抽取系统进行 了设计与实现。该系统主要以裁判文书领域内抽取司法文书、环保部处罚文书及证监会处罚文书关键信息为例,将文本中的主要信息抽取

后结构化存储至数据库中。本文对此系统进行了功能验证和性能测试。实验结果表明,对于符合规范的数据样本,本文提出的方法具有较高 的准确率和召回率,在一定程度上提高了此类系统的抽取性能。

复杂网络构建中信息抽取技术综述

复杂网络构建中信息抽取技术综述 周峰吴斌石川 (北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876) 摘要复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。本文首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。 关键字复杂网络信息抽取实体抽取属性抽取实体解析实体关系抽取 Information extraction technology on construction of complex network (Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing) Abstract: Complex network provide us a new view to resolve the complex problem, so more and more scholars focus on it recently. Information Extraction is the foundation of automated information processing as a maturing technology. Integrating with IE and complex Network, we can extract the information of vertexes and edges through the technology of IE that can provide basic data for the construction of complex network, and greatly expand the complex network applications. In this paper, we introduce the basic concept and type of IE, and then describe and analysis the technology on construction of complex network. Keywords: Complex Network 、Information Extraction 、Entity Extraction、Attribute Extraction、Entity Resolution、Relation Extraction 1.引言 近年来,真实网络中小世界效应和无标度特性的发现激起了各界对复杂网络的研究热潮。复杂网络的研究,为我们提供了一个复杂性研究的新视角、新方法,并且提供了一个比较的视野,可以在复杂网络研究的旗帜下,对各种复杂网络进行比较、研究与综合概括。随着复杂网络分析算法的不断成熟和完善,针对复杂网络的应用,其构建已成为关键。通过网络分析所得到信息的丰富和完整程度,往往取决于其构建过程中每个节点和边所包含的信息量。而现实的大多数应用中,待构建网络的节点和边往往隐藏在非结构化或半结构化的文本信息中,如何从中准确而全面的抽取节点和边信息,成为构建复杂网络的关键问题。 信息抽取是一门正走向成熟的技术,在信息处理自动化中具有基础性的地位,将信息抽取融合到复杂网络中,能够有效的抽取网络的节点和边信息,为复杂网络的构建和表示提供数据准备,这将大大扩展复杂网络的应用范围。XinLi等[1]通过信息抽取技术,将复杂网络的应用范围扩展到web页面,先抽取命名实体构建网络,再通过社区发现等方法在web上挖掘出知识来。Dennis M. Wilkinson等[2]通过信息抽取技术,提取出与某一疾病相关的共现基因,而后构建成网络,划分一些相关基因的社区,从而能够帮助专家们发现出基因间的相互作用和它们之间的一些潜在联系。这些网络构建与分析方法都为复杂网络的应用提供了新的思路。

1.SAP BW开放式数据抽取

SAP BW开放式数据抽取、转换与加载 1概述 除了获取SAP系统的数据外,SAP BW还需要获取其他系统的数据,SAP BW提供了更多类型的数据源,支持从外部系统导入数据。 2 SAP BW的外部数据获取功能 2.1通过Web服务获取数据 在SAP BW系统中,我们可以使用Web服务获取数据,基于该方式,通过一个SAP BW系统向源系统发出请求,(通过“拉” 的方式),数据被传输到SAP的数据仓库中。数据的发送是通过 Web服务的方式进行的。由于基于“拉”的方式,用户通过Web 服务可以实现实时数据的获取,并且数据的获取可以通过后台进 行,基于一点的时间间隔周期性的执行“拉“数据的动作。具体 细节,可以参考SAP BW应用与SAP交换架构的集成。 通过SAP的组件-通用数据连接器(Universal Data Connect ,UDC)实现SAP系统与非SAP系统的连接,该组件使用 SAP Web 应用服务器的J2EE引擎。通过该组件,用户可以连接 所有的关系型或多维的源系统。基于关系型的数据,通用数据连 接器传输扁平结构的数据,对于多维的数据,该通用数据连接器 会把多维数据转换成扁平结构。 通用数据连接器使用J2EE集成架构的BI Java 连接器组件,该组件包括: BI JDBC连接器 BI ODBO 连接器 BI SAP Query连接器 BI XMLA连接器

如下图: 2.2通过数据库连接器(DB Connect)获取数据 通过该方式,SAP BW应用服务器首先会打开与其他数据库的连接,随后,用该连接从数据库中的表或视图中传输数据。在 使用数据库连接器前用户必须在SAP BW应用服务器上安装源系统数据库相关的数据库客户端,并且还有必须安装SAP提供的与源系统数据库相关的数据库接口-DBSL。 具体架构图如下:

文字信息提取题

【课标要求】 1.初步具备搜集和处理信息的能力。 2.能从文章中提取主要信息,进行缩写。 3.重在考察能否从阅读材料中捕捉重要信息。 4.能积极地为解决问题去搜集信息和整理资料。 【考点大聚焦】 信息提取题是近年来中考出题的热点,从长远看也是我们一生必备的一种实用的技能。善于阅读者一目十行也能迅速准确地抓住要点,不善于阅读者虽字斟句仍不得要领。 常见的考点: 1.从体裁特点看,有常见的记叙文、议论文、说明文及新闻信息等的提取; 2.从材料特点看,有文字信息、图片信息及数据资料信息等的提取,大多是教材之外的一些国内外关注或与人们的生活息息相关的重要话题; 3.从提取内容看,有主要内容、中心意思、文段要旨、人物事物特点、故事情节及言外之意等方面的提取; 4.从表述要求看,多是主观表述题,具体有直接提取中心句、下定义、拟标题、一句话新闻、为新闻写导语、写总领句和总结句、用词语概括、用对联形式概括等。 【文字信息提取题型】 这类题目主要考查学生在阅读时,能否抓住一段话或几段话的主要内容,以明确这段文字要表达的主要观点,同时考查学生对语段的理解能力、概括能力以及表述能力。 我们不妨从下面几个方面来研究一下文字信息提取题解题的一般性规律。

一忠于原文,尽量不用自己的话来转述信息。 许多考生在解答这类题时随心所欲地用自己的语言来组织句子,结果考试下来自认为胜券在握却失分严重。为什么呢?因为这些考生没有掌握这类题解答的基本原则。这类题一般来说是要我们概括其信息的,从实用的目的来说,是要我们把自己得来的信息准确无误地传达给别人。要保证信息传达的准确无误,是必须要忠实于原文的,即我们要用原文的词句把自己从文中得来的信息传达给别人。之所以这样,是因为原文作者在表达信息时所选用的词是经过认真选择的,是最能准确地表情达意的。而我们在传达这些信息时,不管我们用怎样贴切的近义词都无法替代原文词语的含义,近义词再近也是有区别的,汉语中几乎没有意义和用法完全相同的词语。即使有,那数量也是极少的。所以,我们不要企图用自己的语言去传达你所得来的信息。 【例】请用一句话概括下面新闻的主要内容(不得超过12字) 11月22日至23日,25所中国重点高校在德国柏林举办推介会,这项名为“2002柏林中国校园”活动的举办目的是:树立中国现代教学和科研形象,吸引更多的德国学生到中国留学和从事科研。我国在德国举办这种形式的博览会还是首次,其对象是德国“非汉学专业的学生”。 解析: 叙述的事件主体是中国重点高校,事件是在德国柏林举办推介会,吸引更多的德国学生到中国留学和从事科研,据题目要求,字数不得超过12字,再次删除次主要的信息(文字),即可得出:中国高校到德国招生。叙述准确、清楚,不会产生歧义,不会丢分。 二、审清要求,明确答题方向,采取针对性措施。 ㈠单个材料: 提取信息之类的题目要求一般有以下几种类型: 1、概括一段话的主要信息(主要内容、中心意思、主要意旨,要旨)。 看到题干中有“主要……”类的字眼,我们就要注意答题时要次)从

文本特征提取方法研究

文本特征提取方法研究 ______________________________________________________ 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。 在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分

文本信息分析

文本信息分析 1.中文文本信息过滤技术研究 1.1文本过滤技术 文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。 1.1.1文本信息过滤技术发展 1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。 20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。 随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1.1.2中文本过滤技术 中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。 然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。 1.2中文文本过滤的关键技术 文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:

提取信息有效整合——“非连续文本”阅读策略

提取信息、有效整合 ——“非连续文本”阅读策略 骆奕雯2009年上海学生首次参加国际PISA阅读测试,结果显示中国学生比较善于阅读小说、散文等“连续性文本”,但阅读表格、清单等整合的“非连续性”文本能力较弱。其实“非连续性文本”是国际PISA测试中的重要文本类型,要求学生通过阅读数据、表格、清单和凭证单、使用说明书、地图等进行说明、解释和讨论。我们的日常生活中处处存在着“非连续性文本”,药品说明书就是其中最常见的一类。但是,我发现很少有学生在生活中会真正地关注药品说明书,在读说明书的时候不知道特别要认真阅读其中有关本品适应证、禁忌证、用法用量、不良反应、注意事项等重要信息的介绍。 对于四年级学生,在以往的学习中已经掌握了一些阅读的基本技巧,会从教师提供的阅读材料中找到有用信息。但是如何利用这些掌握的阅读技巧从生活中的阅读材料中提取有效内容是学生所缺乏的。因此组织学生阅读此类文本时,应着重指向启发、激励学生进行讨论,学会并善于做出陈述或解释等。 一、阅读填写,效果欠佳 在四年级《药物和毒品》一课中,重点是让学生了解药物的适应症、不良反应等重要信息。以往的教学中是让学生看看说说,没有突出重点,学生没有经历思考分析的阶段。因此,在这次教学中我让学生从药物说明书中找到药物的适应症、不良反应进行填写。 1、师:这些不同种类的药物作用是不一样的。想要了解他们的作用,需要查看什么?(说明书) 2、填写活动部分:请你写出你的药物说明书上,它的药物名称以及主要医治的疾病是什么? 生1:百服宁。 生2:治疗普通感冒和流行性感冒引起的发热、头痛、四肢酸痛,喷嚏、流涕、鼻塞、咳嗽、咽痛等症状。 3、师:那你觉得你手上的这种药对人体有不良副作用吗? 4、填写活动部分:这张说明书上描述的不良反应有哪些? 生:有时有轻度头晕、乏力、恶心、上腹不适、口干、食欲缺乏和皮疹等,可自行恢复。

数据抽取系统需求说明书

数据抽取系统需求说明书 数据抽取系统需求说明书 系统
编写成员:Java 动力(第四组) 发布版次:1.1
秦文翠、周园、黄书福、李亮 日期:2011-6-15
Java 动力
第 1 页 共 21 页

数据抽取系统需求说明书 数据抽取系统需求说明书 系统
变更记录 日期 2011-6-14 2011-6-15 1.0 1.1 版本 初始版本 修正版本 变更说明 作者 Java 动力 Java 动力
1
概述........................................................................................................................................................ 3 概述 1.1 目的 ..................................................................................................................................................... 3 1.2 系统简介 ............................................................................................................................................. 3 1.3 范围 ..................................................................................................................................................... 3 1.4 术语定义 ............................................................................................................................................. 3 1.5 运行环境 ............................................................................................................................................. 4 1.6 预期的读者和阅读建议 ...................................................................................................................... 5
2 需求说明 ..................................................................................................................................................... 5 2.1 系统功能层次图 .................................................................................................................................. 5 2.1.1 数据库系统 ................................................................................................................................... 6
2.1.1.1 新建数据库 ..................................................................................................................................................... 6 2.1.1.2 删除数据库 ..................................................................................................................................................... 7 2.1.1.3 操作数据库 ..................................................................................................................................................... 8
Java 动力
第 2 页 共 21 页

WEB文本信息的提取

WEB文本信息的提取 发表时间:2011-08-10T14:22:02.000Z 来源:《学园》2011年5月第10期供稿作者:易丽萍章胜江 [导读] 随着网络信息的迅速发展,网络信息量日益增加,怎样从海量的网络上提取有用的信息是Web文本挖掘技术的重要应用方向。 易丽萍江西航空职业技术学院 章胜江南昌职业学院 【摘要】随着网络信息的迅速发展,网络信息量日益增加,怎样从海量的网络上提取有用的信息是Web文本挖掘技术的重要应用方向。本文提出一种Web文本挖掘系统的设计模型,为实现更深层次的信息处理做准备。 【关键词】文本挖掘 Web 信息处理 【中图分类号】G434 【文献标识码】A 【文章编号】1674-4810(2011)10-0032-01 一引言 Web挖掘从数据挖掘发展而来,因此,其定义与我们熟知的数据挖掘定义相类似。但是,Web挖掘与传统的数据挖掘相比有许多独特之处,Web挖掘的对象是大量、异质、分布的Web文档。由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义,因此,有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。 二 Web文本挖掘系统的设计 Web文本挖掘系统能自由漫游Web站点,在Web上能按照某种策略进行远程数据的搜索与获取,并将挖掘文本集合在系统的本地数据库中。系统原型图,见图1。 图1 Web文本挖掘系统原型 1.文档采集器 利用信息访问技术将分布在多个Web服务器上的待挖掘文档集成在Web挖掘系统的本地数据库中。 2.文本预处理器 利用启发式规则和自然语言处理技术从文本中抽取出代表其特征的元数据,并存放在文本特征库中,作为文本挖掘的基础。 3.文本分类器 利用其内部知识库,按照预定义的类别层次,对文档集合或者其中的部分子集合内容进行分类。 4.文本聚类器 利用其内部知识库对文档集合或其中的部分子集的内容进行聚类。 5.多维文本分析引擎 Web文本挖掘系统以引进文本超立方体模型和多维文本分析技术,为用户提供关于文档的多维视图。多维文本分析引擎还具有统计、分析功能,从而能够揭示文档集合的特征分布和趋势。此外,多维文本分析引擎还可以对大量文档的集合进行特征修剪,包括横向文档选择和纵向特征投影两种方式。 6.用户接口模块 在用户与多维文本分析引擎之间起桥梁作用。它为用户提供可视化的接口,将用户的请求转化为专用语言传递给多维文本分析引擎,并将多维文本分析引擎返回的多维文本视图和文档展示给用户。 三 Web文档的采集 1.Web文档采集器的设计 文档采集器设计图如图2所示,搜索代理模块相当于搜集控制模块的子进程。功能是从管道里获取URL,通过操作系统提供的SOCKET套接字STREAMS通讯方式,利用HTTP协议,获取指定URL的HTML文档。此模块也是一个客户进程,它向远程WWW服务器发出请求,再根据返回状态信息进行处理。 图2 文档采集器设计图 通过对HTML文档的遍历,发现文档中ANCHOR所对应URL于它的相关值。系统中维护一个URL链表,若URL是符合要求的,就把它和相关值写入URL链表。否则忽略掉它,最后把URL链表传给搜集控制模块。 2.Web抓取 搜集代理模块读取管道中URL,根据一个个URL调用loadfile下载网页,同时将这些下载后的HTML文档和图片保持原有的相对关系,放在应用程序所在的目录之下。 搜集代理模块直接对放入管道的URL进行分析,将不符合条件的URL剔除。将符合条件的URL根据它的路径信息一级一级地创建文件

相关文档