文档库 最新最全的文档下载
当前位置:文档库 › 网上信息抽取技术纵览

网上信息抽取技术纵览

网上信息抽取技术纵览
网上信息抽取技术纵览

网上信息抽取技术纵览

Line Eikvil 原著(1999.7)陈鸿标译(2003.3)

第一章导论

信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。

信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。

信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。

信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。

由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库!

信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。

本文首先在第二章简要介绍信息抽取技术,第三章介绍网页分装器(wrapper)的开发,第四章介绍已经开发出来的网站信息抽取系统,第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。

第二章信息抽取技术概述

信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。

第2.1.节IR和IE

IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。就其目的而言,IR和IE的不同可表达如下:IR从文档库中检索相关的文档,而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。

IR和IE不单在目的上不同,而且使用的技术路线也不同。部分原因是因为其目的差异,另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。

第2.2.节IE的历史

自动信息检索已是一个成熟的学科,其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是“消息理解研讨会”(MUC)近十几年来对该领域的关注和推动。

IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差[53]。

八十年代以来,美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。

研讨会的目的是探求IE系统的量化评价体系。在此之前,评价这些系统的方法没有章法可循,测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题,评分标准也随之制定出来。各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。

过去五、六年,IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平,我们已有能力建造全自动的IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来,每届最高组别的有些任务,其成绩一直没有提高(但要记住MUC的任务一届比一届复杂)。一个显著的进步是,越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前,建造能达到如此高水平的系统需要大量的时间和专业人员。另外,目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。

第2.3.节评价指标在

信息抽取技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。经修订后的评价指标可以反映IE可能产生的过度概括现象(Over-generation),即数据在输入中不存在,但却可能被系统错误地产生出来(Produced)[24]。

就IE而言,回召率可粗略地被看成是测量被正确抽取的信息的比例(fraction),而抽准率用来测量抽出的信息中有多少是正确的。计算公式如下:

P=抽出的正确信息点数/所有抽出的信息点数

R=抽出的正确信息点数/所有正确的信息点数

两者取值在0和1之间,通常存在反比的关系,即P增大会导致R减小,反之亦然。

评价一个系统时,应同时考虑P和R,但同时要比较两个数值,毕竟不能做到一目了然。许多人提出合并两个值的办法。其中包括F值评价方法:

其中是一个预设值,决定对P侧重还是对R侧重。通常设定为1。

这样用F一个数值就可很看出系统的好坏。

第2.4.节IE系统设计的两大方法

IE系统设计主要有两大方法:一是知识工程方法(Knowledge Engineering Approach),二是自动训练方法(Automatic Training Approach)。

知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法要求编制规则的知识工程师对该知识领域有深入的了解。这样的人才有时找不到,且开发的过程可能非常耗时耗力。

自动训练方法不一定需要如此专业的知识工程师。系统主要通过学习已经标记好的语料库获取规则。任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。经训练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快,但需要足够数量的训练数据,才能保证其处理质量。

第2.5.节自由式、结构化和半结构化文本

自由式文本:信息抽取最初的目的是开发实用系统,从自由文本中析取有限的主要信息。例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息;又如,从医药研究报告的摘要中提取新产品、制造商、专利等主要信息点。

处理自由文本的IE系统通常使用自然语言处理技巧,其抽取规则主要建立在词或词类间句法关系的基础上。需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。规则可由人工编制,也可从人工标注的语料库中自动学习获得。

自由文本信息点抽取技术的现有水平不可与人的能力同日而语,但还是有用的,不管其抽取规则是人工编制的还是通过机器学习的[52]。虽然自然语言理解是漫长的期待,但是,信息抽取技术确实可行,因为这项技术对其需要搜索的模式类型有很强的限定,而这种限定是有根有据的。

结构化文本:此种文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即可达到目的。所用的技巧因而相对简单。

半结构化文本:这是一种界于自由文本和结构化文本之间的数据,通常缺少语法,象电报报文,也没有严格的格式。用自然语言处理技巧对这样的文本并不一定有效,因为这种文本通常连完整的句子都没有。因此,对于半结构化文本不能使用传统的IE技巧,同时,用来处理结构化文本的简单的规则处理方法也不能奏效。在半结构化文本中确实存在一些结构化的信息,但是,抽取模式通常依赖字符和象ht ml标记那样的分隔标志。句法和语义信息的作用则非常有限。

第2.6.节网页

因特网提供了一个巨大的信息源。这种信息源往往是半结构化的,虽然中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,以不同的形式出现,而且跨网站和平台,全网共享。因此,因特网是一个特殊的挑战,一直推动着从结构化和半结构化文本中抽取信息的研究向前迈进。

有些研究者把所有网页都归入半结构化文本,但Hsu[31]对网页类型做了颇有用的定义:若能通过识别分隔符或信息点顺序等固定的格式信息即可把“属性-值”正确抽取出来,那么,该网页是结构化的。半结构化的

网页则可能包含缺失的属性,或一个属性有多个值,或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性,则该网页是非结构化的。

网页的结构化程度总是取决于用户想要抽取的属性是什么。通常,机器产生的网页是非常结构化的,手工编写的则结构化程度差些,当然有很多例外。

传统的NLP技巧对抽取半结构化文本的信息并不是很有用,因其缺少规范的语法结构,而且,NLP方法的处理速度通常比较慢,这对于网上海量信息来说是一个大问题。

网上大部分内容都以属性列表的形式呈现,例如很多可搜索的网页索引。这种外观上的规律性可被利用来抽取信息,避免使用复杂的语言学知识。

网页上的组织结构和超链接特性是需要认真考虑的重要因素。例如,可能需要打开链接的内容才能找到你想要的信息。网页的组织结构不同,抽取规则也不同。

网上数据库查询的结果通常是一系列的包含超级链接的网页。文献[14]把这类网页分成三类:一层一页,即一个页面即包含了所有的查询结果;一层多页,即需要调出多个链接才能获得所有的结果;两层页面,即第一层是列表式条目链接,点击链接后才能看到详细资料。

第2.7.节小结

IE领域是近十年来新发展起来的研究领域,一是由于“消息理解研讨会”(MUC)的推动,二是由于网上内容的大量增加。

IE对自由文本和结构化文本都能处理。NLP技巧通常用于自由文本,对结构化和半结构化文本并不是太适合。相反,基于分隔符和字符的方法更能奏效。

因特网是包含大量半结构化文本的信息源。网页与传统的文本相比,有许多特点:量大,常更新,变化多,页面的一大半包含结构化的文字块,还可能有超链接。因此,网页为信息抽取研究带来新的挑战。

第三章分装器生成

第3.1.节分装器

第3.2.节从IE发展成WG

第3.3.节分装器生成

第3.4.节分装器的归纳学习

第3.5.节小结

各网站的信息内容互相独立,要收集起来有困难。信息抽取技术就是冲着解决此困难而来的。

因特网上还存在一个被称为“暗藏网”(the hidden web),即那些网上数据库系统。文献[37]估计因特网上80%的内容存在于这种看不见的因特网中。搜索引擎的“网络爬虫”抓不到这些网页。这就意味着需要一种独立的工具从这些网页中收集数据。

从网站中抽取信息的工作通常由一种叫做“分装器”(Wrapper,也译“包装器”)的程序完成。以下3.1.和3.2.节将介绍分装器的概念及分其生成(Wrapper Generation, WG)研究的历史。第3.3.节总结了构

造分装器的不同方法。手工制造分装器的工作繁重,因此,自动生成的研究变得非常重要。机器学习的方法非常诱人,第3.4.节介绍了归纳式学习的相关技巧。

第3.1.节分装器

分装器是一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。在数据库环境下,分装器是软件的组成部分,负责把数据和查询请求从一种模式转换成另外一种模式。在因特网环境下,分装器的目的是把网页中储存的信息用结构化的形式储存起来,以方便进一步的处理。

因特网分装器可接受针对特定信息源的查询请求,并从该信息源中找出相关的网页,然后把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程序代码组成。通常,一个分装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列的分装器程序库。分装器的运行速度应该很快,因为它们要在线处理用户的提问。它还要能应付网络经常变化、运行欠稳定的特点。比如,网络连接失败、文档格式混乱、格式变化等。

建造针对网页的分装器主要有两个好处:一是提高了从某一特定信息源获取相关信息的能力,二是能把不同信息源的信息整合到数据库中,用通用查询语言即可查找信息。

第3.2.节从IE发展成WG

人们需要能从不同网页资源抽取并整合数据的工具。这种需求造就了分装器生成研究领域的发展。分装器生成(WG)领域独立于传统的IE领域。典型的WG应用系统能从网上数据库返回的查询结果网页中抽取数据。这些网页构成一个被WG业内人称之为“半结构化”的信息源。为了能把这些网页的数据整合在一起,必须把相关的信息从这些网页中抽取出来。因此,分装器实质上是针对某一特定信息源的IE应用系统。

传统的IE系统采用基于句法和语义条件相结合的抽取模式。如前所述,对于半结构化信息源,基于语言知识的模式并不是很管用。典型的WG系统生成的是基于分隔符的抽取模式。由于这类网页均是在一个统一的模板上即时生成的,因此,只要学习了几个样本网页后,系统即能识别分隔符特征串,构成不同的模板区域。从网页中抽取信息并不容易,要考虑许多问题,例如信息量膨胀的问题、系统灵活性的问题等。

第3.3.节分装器生成

可用人工或半自动的办法生成分装器。手工生成分装器通常需要编写专用的代码,要花很多时间理解文档的结构并将其转换成程序代码。虽然处理半结构化的网页要容易一些,但并仍然还是比较烦琐而且容易出错。有一些工具可帮助手工生成分装器。使用的方法之一是利用描述性语法对网页结构进行描述,并且提供工具生成代码。不过,编写语法本身就是一项很艰巨和耗时的工作,而且需要高水平的专家。

手工构造的IE系统不能适应处理对象所属领域的变化。每个领域都要有相应的分装器,维护成本很高。对于网上信息源来说,这些缺点尤为明显,因为网页数量庞大,内容和结构繁杂,而且新的信息源不断增加,旧的信息还会改变,因此,帮助生成自动抽取网页信息的分装器的技术变得非常重要。

半自动化生成分装器的技术得益于上述分装器生成的支持工具。一种方法是使用向导让用户告诉系统那些信息是需要抽取的。通过图形界面,用户即可以通过演示编写程序,标示出需要抽取的区域。这意味着在分装器编码过程中不需要专业知识,而且比手工编码少产生错误。但是,用这种方法也需要对新的站点进行重新的学习,因为这种系统不能自己学习新的网站结构,也不能处理旧网站的结构变化。

全自动分装器的生成利用机器学习的技巧,开发学习算法,设计出从非常简单到相对复杂的分装器。即使是全自动的方法也需要人工专家的少量参与。系统必须通过学习阶段,从例子中归纳出规则。通常,这个过程是由人工指导的。

分装器归纳法是一种自动构造分装器的技术。主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页,那么,这些例子就是高质量的。

第3.4.节分装器的归纳学习

用于IE的机器学习方法有很多,如符号化学习法,ILP(归纳逻辑设计法),分装器归纳法,统计法和语法归纳法。在分装器归纳法中,分装器的生成被描述成一种归纳学习问题。

在最高层次,归纳学习法是从一些实例中完成未知目标概念的计算任务,是对现象的一种概括。主要思路是,如果归纳出来的规则能解释观察到的实例,或者在新事例出现时能做出准确的预测,那么,这种归纳是成功的。在分类、知识获取、知识发现等任务中被证明是有用的。

归纳学习法是通过推论来完成的。推论是一种从部分到整体、从个别到一般、从个体到普遍的推理过程。老师提供几个实例给学生,学生则从中归纳出普遍适用的规则。人类的学习是基于实验性的观察过程中的,对于我们来说,提供好的观察事例要比提供明确的完整的规则要容易。总的说来,归纳式学习法是一种建立在假设的基础上的研究方法。

有指导的归纳式学习法可以分为两类:零阶(zero-order)和一阶(first-order)学习法。两者的区别在于其训练数据和所形成的理论的表达方式的不同。

零阶学习法所采用的事例是事先分好类的。每个事例都由对应于固定属性集合的特定值描述。这类系统发展的理论以决策树(Decision Tree)或生成规则(Production Rules)的形式出现,把事例的类和它的属性值联系起来。不幸的是,决策树的学习系统缺少表达能力,因为它们建立在命题逻辑的基础上,不能学习到对象之间的关系(如家族成员的关系)之类的概念。从数据库角度看,他们只能处理“属性-值”这种关系。关系型一阶学习法可在带有结构信息的例子中进行归纳,例如一阶逻辑谓词和函数,无界限结构体(Unbounded Structures,如列表,树)等。尤其是ILP方法,专门研究从例子中归纳一阶逻辑形式的规则,逻辑编程的学习以及其他关系型知识。

ILP的研究介于机器学习和逻辑编程两种传统研究领域之间。许多其他的机器学习算法均限定于处理有限的基于特征表达的例子和概念,而不能处理复杂的关系型和递归型知识。但ILP借助一阶逻辑的表达能力,可以学习关系和递归概念。ILP还可以学习更丰富的表达式和比决策树更复杂的概念,因此,已应用于解决从包含复杂结构和关系的文档中抽取信息的学习中。

ILP算法采用两种不同的归纳方法:一是自下而上(概括),另一是自上而下(具体化)。自下而上的方法是数据驱动的。先选择几个例子,在此基础上提出一个假设,使之能处理这些例子。然后把这个假设推而广之,使之能处理其余例子。自上而下的方法则先从最普遍的假设开始,通过引入反例,把假设规则不断具体化。总的说来,自上而下算法可以归纳出一大类的逻辑程序,但需要相对多的样例。而自下而上算法有为数不多的例子就行了,但只能归纳出一小类的程序。

目前已经有了几个实验ILP系统,包括有名的FOIL[47]和GOLEM[39]。FOIL由Quinlan于1989年开发,采用自上而下的算法。在一个既有正又有反的事实的训练集中,先找出一个只覆盖正例而不涉及反例的逻辑子句(clause),然后把这个子句覆盖的事实从训练集中删除。如此直到训练集中没有正例为止。GOLEM (Muggleton and Feng 1990)采用贪婪覆盖算法(Greedy Covering Algorithm)。子句的生成是自下而上的,建立在更多具体子句的“最少概括”(least-general)的概括生成上。概括一直进行直到所有的正例都被覆盖而无一个反例被涉及。

第3.5.节小结

可以预计,网上结构化信息将不断增加。通过查询网上数据库所获得的网页也将不断增加。这些网页是无法让搜索引擎获取的。因此,越来越需要可以把相关信息从这些网页中抽取出来的工具。

分装器是专门从特定信息源中抽取需要的信息并返回结果的程序。对于从不同信息源中整合信息资料是非常有用的。由于这种需求不断增加,分装器生成的研究领域从传统的IE领域中脱颖而出。相比之下,生成分装器所采用的技术比较少依赖句子的全面语法分析和NLP技术。

分装器可由程序员直接编写,或手工指定网站结构再由程序自动生成规则和代码。无论是哪种情况,这个过程都是费时费力的,而且网页的结构经常变化,新网页层出不穷。这样,必须建造新的分装器。为此,网上信息抽取的研究转向了半自动和自动生成分装器的工作上。

分装器归纳法是用机器学习方法自动生成分装器的方法。在归纳法中,分装器的生成被看成是归纳学习的问题,其任务是从一组例子中计算出一般规则,以解释观察到的事实。教师提供例子,学生在例子的基础上作出归纳,推导出规则。

归纳逻辑编程方法处于传统的机器学习领域和逻辑编程之间,使用一阶逻辑规则。得益于一阶逻辑丰富的表达能力,ILP方法可以学习关系型和嵌套概念。这是大多数基于“属性-值”表达方式的机器学习算法所无法达到的。ILP方法为此被应用到学习如何从复杂结构和关系的文档中抽取信息。

第四章分装器生成系统简介

第4.1.节处理结构化和半结构化网页的系统...

第4.1.1.节ShopBot

第4.1.2.节WIEN..

第4.1.3.节SoftMealy.

第4.1.4.节STALKER.

第4.2.节处理半结构化和非结构化网页的系统...

第4.2.1.节RAPIER.

第4.2.2.节SRV.

第4.2.3.节WHISK.

第4.3.节小结...

早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发一个分装器程序,把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13,25,28,29]系统和“斯坦福-IBM多信息源管理系统(1995)”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。

对于数据量大,结构动态变化的网站而言,需要一种更为有效的分装器建造方法。一般说来,数据库领域的人把注意力放在错综复杂的信息如何进行整合,分装器则用手工建造。另一方面,AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。本章将重点介绍分装器的自动或半自动的生成系统。

分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主要是针对结构化程

度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。

第4.1.节处理结构化和半结构化网页的系统

本节介绍ShopBot, WIEN, SoftMealy 和STALKER系统。这类系统可以说是属于分装器生成系统,专门用来从网站数据库系统生成的网页。采用分隔符为主的抽取规则,无需用到句法和语义知识,局限于处理比较结构化的数据。

第4.1.1.节 ShopBot

开发者:R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。

ShopBot是比价代理系统,专门从网上卖家的网站上抽取信息,因此,比其他系统的局限性要大。其算法主要针对以表单形式提供查询的页面,而且返回的搜索结果是以表格形式显示的产品信息页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式学习。

ShopBot的运行分两个阶段:离线学习阶段和在线比价阶段。在学习阶段,系统分析每个购物网站,获得其符号化描述,然后在比价阶段,利用获得的符号化描述,从网站上抽取信息,找到用户指定的产品的最低价格。

在学习阶段,系统利用简单的启发式方法找到正确的检索表单,学习如何向该表单发送查询请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部等三部分。头尾两部分在所有的结果页面中都是一致的,而主体则包含了想要的产品信息。结果页面的格式是通过三个步骤判定的:

第1步:获取“找不到产品”的失败页面。用不存在的词(如“xldccxx-no-product”)作为关键字查询数据库,然后分析返回的页面。

第2步:找到头尾部分。用可能存在的产品名称去查询数据库,通过分析返回的页面找到头尾部分。

第3步:判定包含产品信息的主体格式。首先用HTML标记和字串对可能的产品信息摘要进行定义和表示。网页主体被切分成“逻辑行”,代表“垂直空格分隔”(vertical-space-delimited)的文本。学习程序用逻辑行比较不同的摘要形式,找到最佳匹配。这样可以找到产品的描述格式,但是不能归纳出信息栏的名称。最关键的价格信息是用手工编码的方法获取的。

第4.1.2.节 WIEN

开发者:N. Kushmerick (1997) [33,34]。

“分装器归纳生成环境”(WIEN-Wrapper Induction Environment)是辅助分装器生成的工具,为网页的自动分析而设计,受到ShopBot的影响。不过,Kushmerick 是第一个提出分装器归纳生成这一术语的。其方法不只局限于某一领域,适用于所有包含表格信息的结构化文本,也不只是用于HTML文本。

这种方法可以处理被他们称之为具有HLRT结构的网页:头分隔符、左右分隔符(在每个待抽取的事实的左右)和尾分隔符。系统寻找标记信息点开始和结尾的统一的分隔符,以及那些把表格信息与其他周围信息分开的分隔符。符合这一规则的页面几乎都是搜索数据库所得的结果页面。

Kushmeric k力图尽量自动化,避免用人工标记样例,因此开发了一系列自动标记样例的方法。标记算法需要输入特定领域(domain-specific)的启发学习规则,目标是找到待抽取属性的值。系统虽然需要输入学习规则,但却不管这些规则是如何获得的,可以手工编制。即使是这样,比起标记整个网站来,其工作量要小。

系统采用归纳学习法,从查询结果样例中生成分装器。归纳算法是:把标记好的网页作为输入,然后搜索由

“HLRT分装器模型”定义的分装器空间(space of wrappers),反复尝试所有可能的分隔符,直到找到与标记网页相一致的HLRT分装器。系统还采用基于机器学习理论的模型来预测需要学习多少个例子,以保证所生成的分装器的出错几率控制在一特定的范围内。

由于WIEN只考虑与待抽取数据紧相邻的分隔符,因此不能包装那些数据不全或信息项次序不固定的网页。系统采用的是多栏(Multi-slot)规则,这就意味着能把相关的信息联在一起,而单栏规则只能抽取孤立数据(例如,若一篇文档包含多个姓名和地址,使用单栏规则不能辨认出哪个地址是属于某人的)。

第4.1.3.节SoftMealy

开发者:C-H. Hsu (1998)[30,31]。

Kushmeric k之后,有好几个别的系统研发出来,力图改进WIEN的分装器归纳算法。SoftMealy是一个通过学习分装器学习从半结构化网页中抽取信息的系统。其分装器被称为“非确定有限自动机”

(non-deterministic finite autom ata)。这种表达模式和学习算法据说可以处理缺失值、一栏多值和变量改变(permutations)的情况。

系统从训练样例中归纳上下文规则。训练样例提供一个有顺序的事实列表以及事实间的分隔符。归纳生成分装器时,把一系列带标记元组(labeled tuples)作为输入。这些元组提供了分隔符的位置和事实次序变化的信息。这些信息被归纳为上下文规则作为结果输出。

归纳生成的分装器是一个“非确定有限自动机”。其状态代表待抽取的事实,状态的转换代表定义分隔符的上下文规则。状态的转换由上下文规则的匹配结果来确定。分装器通过识别事实周围的分隔符来抽取事实。SoftMealy的规则允许使用通配符,而且能处理信息缺失和次序变化。然而,为了能处理不同次序的事实,系统需要学习其各种可能的次序。总的说来,SoftMealy的抽取模式比WIEN规定的要更有表达能力。

第4.1.4.节STALKER

开发者:I. Muslea, S. Minton, C. Knoblock. (1998) [42,43,44]。

STALKER采用指导学习的算法归纳抽取规则。训练例子由用户提供。用户需选择若干样例页面并把有用的数据(即所谓“EC树”的叶子)标记出来。页面被标记好后,系统可生成一符号序列(the sequence of tokens),用来表示页面的内容,还生成代表信息点开始的符号索引。符号系列(字、HTML标记)和通配符被作为定位标志,用于找到页面上的数据。分装器归纳算法产生抽取规则并表示为简单的标志语法(landmark-grammars)。此法可处理文本,但不能处理链接信息。

网页文档用所谓的“内嵌目录”(Embedded Catalog)表示。那是一个树形结构,其内部节点或是同构的(homogeneous)信息点列表,或是异构信息点元组(tuples)。根节点是整篇文档,任一节点的内容代表其父节点内容的一个接续(subsequence)。末节点即是用户需要抽取的数据。

STALKER采用线性覆盖算法(sequential covering algorithm)。首先生成线性标志自动机(landmark autom ata)。这些自动机能产生尽可能多的训练正例(positive training examples)。该自动机实际上是一个“非确定有限自动机”。其状态的变化只有在字符串输入为了目前状态与下一状态间的转换而被接受时才发生。然后系统试图生成新的自动机以覆盖剩余的例子,一直到所有的训练例子都被覆盖为止。这时,STALKER返回一个被称之为SLG(简单标记语法)的解决方法。其每个分支都对应一个学习获得的标记自动机。

STALKER可以包装有任意层结构的信息源。每个节点的抽取与其子节点独立,因此,文档中信息点的次序是没有关系的。对于信息点缺失或次序多变的文档一样能处理。这就比只能处理固定次序的WIEN等系统更灵活。与同样能处理信息点缺失或次序多变文档的SoftMealy不同,STALKER无需把各种可能的次序变化都学习到。

STALKER采用的规则与WIEN的不同,是单栏的。不过由于STALKER利用EC树把从多栏模板中取出的

单个信息点集在一起,因此没有什么缺陷。

第4.2.节处理半结构化和非结构化网页的系统

本节介绍RAPIER,SRV和WHISK系统。这些系统比上节介绍的要复杂一些,能处理的文本类型要多一些。虽然如此,它们并不依赖语义和句法信息,只是在可能的情况下利用这些知识,而且能发挥混合抽取模式的作用。

这些系统更接近传统的信息抽取方法,可以说处于IE和WG中间,因为它们的重点是开发用机器学习方法来解决IE问题。所用的方法以归纳逻辑编程(inductive logic programming)或关系学习(relational learning)为基础,而且与归纳算法有关,比如FOIL算法(SRV,WHISK采用)和GOLEM算法(RAPIER 采用)。

第4.2.1.节RAPIER

开发者:E. Califf (1997) [11,12]。

RAPIER(Robust Autom ated Production of Information Extraction Rules,健壮的信息抽取规则自动生成系统)以半结构化文本为处理对象,学习抽取规则,为整个IE过程服务。系统需要输入指明待抽取信息的“文档-充实模板”(filled tem plate)组对作为训练内容,从中获得模式匹配规则,抽取“填充子”(filler)填充模板中的空槽。

学习算法结合了多个归纳逻辑编程系统所采用的技巧,能学习无界限模式。这些模式包含了对词的限制条件和填充子周围的词性。学习算法由一个从具体到一般(即自下而上)的搜索,从训练中与目标槽匹配的最具体的规则开始。随机从规则库中抽取一对对规则,然后横向搜索(beam search),以图找到这两条规则的最佳概括,采用最少概括的概括方法(a least general generalization),增加限制条件,不断重复后直到不再有进展为止。

RAPIER的抽取规则是建立在分隔符和内容描述的基础上的,即使用了能利用句法和语义信息的模式所表达的规则。系统使用了一个词性标注程序获取句法信息,使用了一个语义类别词典获取语义信息。标注程序以句子为输入单位,把词标注为名词、动词、形容词等,速度和健壮性都比完全句法分析器快和优,但给出的信息有限。

信息抽取规则用模板名和格栏(slot)名索引,由三部分组成:前填充子(pre-filler):一个应匹配目标文本之前的文本的模式(pattern);填充子:一个应匹配目标文本的模式;后填充子:一个应匹配紧接目标文本之后的文本的模式。

一个模式是一串模式信息点(pattern item s),要求一个一个词匹配,或者是模式列表(pattern lists),可匹配N个词。文本必须满足模式规定的条件才算匹配成功。可能的条件包括文本必须是(I)一组词,其中一个必须与文档文本匹配;(II)一组句法标记,其中一个标记必须与文档文本的标记匹配;或者(iii)一组语义类别,文档文本必须属于其中一类。

这种以目标词组为中心设定抽取区域的方法意味着系统只能进行单格抽取。但是,若把文本分成超过三个区域,系统或许能进行多格抽取。

第4.2.2.节SRV

开发者:D. Freitag (1998) [21,22,23]。

SRV(Sequence Rules with Validation,带确认功能的次序规则)是一种自上而下、关系型的信息抽取算法。其输入是一系列的网页,上面标记了待抽取区域的实例(instance),以及一系列基于字串(token)的

特征。输出是一系列的抽取规则。

SRV把信息抽取问题看成是一种分类问题。文本中所有可能的短语(取最长者)都是实例。文档中的候选实例被提交到分类器。系统会给每个短语赋一个测量值,用于反映该短语作为目标格填充子的信度。最初版本的SRV采用的分类器是一个关系型规则的学习器,使用的归纳方法类似于FOIL的自上而下的办法。在文献[23] 中,他们采用了另外两个分类器,机械背诵学习器(rote learner)和简单贝叶斯分类器(na?ve Bayes classifier),并与原来的分类器作了比较。

SRV利用的特征分两种:简单特征和关系特征。字词的长度、类型、拼写、词性等属于简单特征。关系特征反映字词的相邻度。正是这一特征使SRV具有关系型的特点。

SRV的学习素材包括训练集文档中与最短实例区(field instance)一样长(以词的个数计算)的字串,但不能长过最长的实例。抽取过程即是检验长度适合的字串是否与规则匹配的过程。

SRV与FOIL一样,从学习所有正反例子开始。所谓反例是没有被标记为实例区的字串。归纳过程也是用正排除法,即当一条规则覆盖的例子全部是正例,或该规则已无法继续具体化时,所有与之匹配的正例将被从训练集中删除。然后重复以上过程。

SRV的规则具有较强的表达能力,且无需先进行句法分析。SRV与STALKER和RAPIER有类似之处,能把与其他相关信息点独立的特定信息点抽取出来。关系型学习器也与RAPIER的一样用于抽取单格信息点。这与WIEN等抽取多格信息的系统不一样。

第4.2.3.节WHISK

开发者:S. Soderland (1998) [52]。

WHISK系统能处理的文本对象很全面,从结构化程度很强的文本到网页等半结构化文本,还能处理新闻等纯文本。处理结构化或半结构化文本时,WHISK无须事先经过句法分析,但处理自由文本时,最好能先对文本作句法和语义标注。

系统采用指导学习算法,而且需要输入一系列手工标注的训练实例。标注和学习过程是交织在一起的。每次循环,系统将提交一批实例让用户标注,系统则从标注的实例中归纳出规则。

开始时,输入的文本是未标注的,训练集也是一个空集。系统会从文本中挑选一批实例(即小于整个文档的文字单位),让用户把需抽取的部分加上标记。怎样的字串会被选为实例呢?这取决于文档的类型。对于结构化和半结构化文档来说,系统根据HTML标记或其他字符串表达式把文本切成多个实例。对自由文本,实例的切分将由一个句子分析器完成。在这种情况下,一个实例可能是一个句子或者句子的一部分。

训练实例上的标记将指导抽取规则的生成,并且检验规则的效果。如果规则被成功应用到一个实例上,那么该实例则被认为被规则“覆盖”了。如果抽取出来的词组与实例上的标记相吻合,则认为该词组的抽取是正确的。

WHISK属于机器学习算法家族中的覆盖学习法,与自上而下的学习分类归纳法相关。首先,找到一个最宽泛(general)的能覆盖规则种子的规则,然后一次加一个条件,直到错误率为零,或者满足一个事先设定

的标准为止。用来衡量新条件增加的标准是规则的Laplacian期望错误值。计算公式如下:。N是训练集中抽取出来的字串数,e是这些字串中应用规则所产生的错误数。学习过程一直进行,直到能覆盖所有该被覆盖的抽取字串都被覆盖为止。最后把那些过适(overfitting)规则删除掉。

WHISK与SRV、RAPIER等一样可以处理结构化和非结构化文本,但没有“单格”抽取法的缺陷。象WIEN 一样,WHISK通过多格“格框架”(Case Fram e),把有关的信息联系在一起。WHISK与SRV和RAPIER 也不同,操作的对象不是整个文档,而是象句子或类似长度的文本。

WHISK象SoftMealy一样可以处理信息点顺序变化的情况,但需要输入各种例子,以便学习所有可能的排序。由于其特征集的表达能力不强,因此不能表达否定特征(negated features),比SRV的性能要差一些。

第4.3.节小结

本章比较了几个分装器的自动学习系统。表 4. 1总结了这些系统的特点。

第五章商用系统简介

第5.1.节应用范围...

第5.2.节商用系统...

第5.2.1.节Junglee.

第5.2.2.节Jango.

第5.2.3.节MySimon.

第5.3.节小结...

因特网上的海量信息是世界各地的用户都能获得的,因此,能帮助完成信息自动收集和分析的代理程序是非常有用的。具有如此技术的应用程序有很多。

本章第1节介绍了信息抽取应用系统已被试用的几个领域。第2节介绍了首批商用系统。

第5.1.节应用范围

网上有很多有用的信息,例如电话黄页、产品目录、股票行情、天气预报等。这些信息可能不是由一个网上数据库提供,而是分散在多个数据库中。这些数据库可供用户输入关键字等查询条件进行搜索,然后自动生成网页,把结果显示出来。

一般说来,把来源分散的数据集中在一起是非常有用的。但是,以浏览器为界面的浏览方式不直接支持把不同网站的数据集成起来,因此,信息抽取工具便有了用武之地。

前一章节介绍的系统对几种不同的网页信息进行了处理。下面重温一下其中几类:

产品描述

ShopBot专为此设计[17,18],用于比价购物。所抽取的产品信息按价格排序。

●餐厅指引

STALKER被用来抽取不同网站上的餐厅信息,如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。[42,43]

●讲座通知

SRV试用在讲座信息的抽取任务上,把讲者、地点、时间等信息抽取出来。

●招聘广告

RAPIER和WHISK被用于招聘广告的信息抽取。需抽取的信息点包括职位名称、工资、地点等。

●人事更迭公告

这项任务需要处理自由式文本,属于传统的信息抽取任务。WHISK曾被实验从一堆华尔街金融杂志的文章中分析出公司管理层的人事更迭事件[52]。目标是抽取出公司名称、职位、新任人员的姓名、卸任人的姓名。以上只是这种技术可发挥作用的许多应用领域中的很小的一部分。其他还有很多例子,例如,租赁广告、地理信息、假日旅游信息、天气预报、参考书目信息等。

总的说来,具有信息抽取和收集功能的代理程序可以用于处理任何列表式的、分散在一堆网页上的数据。

第5.2.节商用系统

在上节提到的应用中,比价购物是主要的商用领域之一。其原因之一是近来对电子商务的普遍关注以及因特网上与此相关的应用在不断增长。

另一原因是这类网上商店网站专门为用户快速找到商品而设计,具有统一的外观和风格。这就为比价系统自动处理商品信息带来了便利。

由于不同商家经常经营同一商品,因此,从不同商家网站中收集并比较同一产品的价格的服务受到网上购物用户的欢迎。通常,网上商店提供的商品信息是存在数据库系统中的。用户需要这些信息时,系统将根据用户的请求从数据库中提取数据,当即显示给用户。这部分的信息成为了“暗藏网”(hidden web),因为搜索引擎查不到这些数据。比价系统成为除手工收集以外的这类信息获取的唯一途径。

下面将介绍三种商用比价系统:Junglee,Jango和MySimon。它们是市面上最引人注目的系统,实现方法各有千秋。Jango和mySimon用的是在线模式,即当用户发出请求时马上到各网站查找信息。Junglee 则先把数据收集下来,在必要的时候进行更新。

每个系统都是在用户的请求下返回产品清单,用户可对清单上的价格作出比较并决定从哪个商家中购买。下面对以上系统作一简要介绍。

第5.2.1.节Junglee

1996年斯坦福大学的研究生们创建了Junglee。1998年Amazon以大约1亿8千万美圆的价格收购了该系统。Junglee使用的是一种被成为虚拟数据库(Virtual Database, VDB)的技术,并利用HTML和XML 的混合形式表示从多个网站中获取的信息[46,48] 。

VDB把分散的数据收集下来,规范化并整合起来,为程序员提供一个单一数据库的界面。分装器负责与数据源对接,把数据转换成数据库。

VDB有两个主要组成部分:数据整合系统和数据发布系统。前者完成数据的抽取,后者定期完成数据库更新。数据整合系统有三个组成部分:一组分装器、一个影射器和一个抽取器。分装器提供对不同网站的统一接口,用描述性编程语言建造,特别针对网站结构和链接网站间的特点而设计。

影射器用预定义的影射规则,把抽取出来的数据转换成统一的格式。抽取器用字典和语言学规则从非结构化的文本中归纳出其组织结构。两者都采用了特殊设计的语言来编写规则。针对每个网站都有一个单独的分装器,而抽取器则针对所有类似网站。

第5.2.2.节Jango

Jango的前身是ShopBot,是NETbot的产品。发源于华盛顿大学的研究者Oren Etzioni 和Dan Weld 的研究成果[17,18]。1997年10月Excite用3500万美圆收购了NetBot,把Jango整合进其购物频道。Jango由四部分组成[8]:(I)一个自然语言前端,能将用户请求转换成产品描述的逻辑表示;(ii)一个查询路由器(query router),能判定产品类别,找出相关的一系列网站;(iii)一个集成引擎,能平行向选定的网站提交查询;(iv)一个过滤器,能用类似于ShopBot 的方法,把信息抽取出来。

在学习阶段,Jango根据网上商店首页的URL和产品领域知识,学习如何在网站购物,能学得每个商店的产品描述的格式,获取价格等产品属性。在购物阶段,这些学得的描述将被用于抽取用户指定的产品信息。信息抽取是在线平行进行。结果以价格排序显示给用户。

第5.2.3.节MySimon

MySimon是Michael Yang和Yeogirl Yun在1998年4月一起创建的。一种被称为虚拟学习代理(Virtual Learning Agent-VLA)的技术由Yeogirl Yun开发并用于网站的学习中。

VLA生成若干智能代理,能模仿人的采购行为,经过训练可从任何一个购物网站上抽取信息。

代理的训练过程是通过一个图形界面进行的。训练者无须是编程人员。在浏览网上商店的同时,系统会复制其获得的信息。根据训练者的操作行为和复制的信息,系统会生成能使代理运行的编码。

第5.3.节小结

信息抽取技术可以发挥作用的地方有许多。不过,最成功的要数比价购物。最近两年来,比价购物系统已经投入商用。其中比较出色的是Jango, MySimon和Junglee。

Jango在线进行抽取,用机器学习方法学得网站结构。MySimon也以在线方式抽取信息,但使用的学习方法不同。非程序员通过实际上网购物,教会智能代理学习如何从网站上抽取相关的信息。

Junglee把数据抽取出来并储存在数据库中,然后用数据库作为比价系统的信息源。一种专用的语言被用来描述网站结构并生成抽取过程所需的代码。

第六章总结和讨论

第6.1.节总结...

第6.2.节讨论...

第6.1.节总结

信息抽取是近十年来新发展起来的领域。MUC等国际研讨会给予高度关注,并提出了评价这类系统的方法,定义了评价指标体系。

信息抽取技术的研究对象包括结构化、半结构化和自由式文档。对于自由式文档,多数采用了自然语言处理的方法,而其他两类文档的处理则多数是基于分隔符的。

网页是信息抽取技术研究的重点之一。通常用分装器从一特定网站上抽取信息。用一系列能处理不同网站的分装器就能将数据统一表示,并获得它们之间的关系。

分装器的建造通常是费事费力的,而且需要专门知识。加上网页动态变化,维护分装器的成本将很高。因此,如何自动构建分装器便成为主要的问题。通常采用的方法包括基于归纳学习的机器学习方法。

有若干研究系统被开发出来。这些系统使用机器学习算法针对网上信息源生成抽取规则。ShopBot,WIEN ,SoftMealy和STALKER生成的分装器以分隔符为基础,能处理结构化程度高的网站。RAPIER,WHISK

和SRV能处理结构化程度稍差的信息源。所采用的抽取方法与传统的IE方法一脉相承,而学习算法多用关系学习法。

网站信息抽取和分装器生成技术可在一系列的应用领域内发挥作用。目前只有比价购物方面的商业应用比较成功,而最出色的系统包括Jango,Junglee和MySimon。

第6.2.节讨论

目前的搜索引擎并不能收集到网上数据库内的信息。根据用户的查询请求,搜索引擎能找到相关的网页,但不能把上面的信息抽取出来。“暗藏网”不断增加,因此有必要开发一些工具把相关信息从网页上抽取并收集起来。

由于网上信息整合越来越重要,虽然网站信息抽取的研究比较新,但将不断发展。机器学习方法的使用仍将成为主流方法,因为处理动态的海量信息需要自动化程度高的技术。在文献[52]中提出,结合不同类型的方法,以开发出适应性强的系统,这应是一个有前途的方向。在文献[36]中,一种混合语言知识和句法特征的方法也被提出来。

本文介绍的系统多数是针对HTML文档的。以后几年XML的使用将被普及。HTML描述的是文档的表现方式,是文档的格式语言。XML则可以告诉你文档的意义,即定义内容而不只是形式。这虽然使分装器的生成工作变得简单,但不能排除其存在的必要性。

将来的挑战是建造灵活和可升级的分装器自动归纳系统,以适应不断增长的动态网络的需要。

参考文献

[1] S. Abiteboul.

Querying Semistructured Data.

Proceedings of the International Conference on Database Theory (ICDT), Greece,

January 1997.

[2] B. Adelberg.

NoDoSE - A tool for Semi-Autom atically Extracting Semistructured Data from Text

Documents.

Proceedings ACM SIGMOD International Conference on Management of Data, Seat- tle, June 1998.

[3] D. E. Appelt, D. J. Israel.

Introduction to Information Extraction Technology.

Tutorial for IJCAI-99, Stockholm, August 1999.

[4] N. Ashish, C. A. Knoblock.

Semi-autom atic Wrapper Generation for Internet Information Sources.

Second IFCIS Conference on Cooperative Information Syst em s (CoopIS), South Car- olina, June 1997.

[5] N. Ashish, C. A. Knoblock.

Wrapper Generation for semistructured Internet Sources.

SIGMOD Record, Vol. 26, No. 4, pp. 8--15, Decem ber 1997.

[6] P. Atzeni, G. Mecca.

Cut & Paste.

Proceedings of the 16'th ACM SIGACT-SIGMOD-SIGART Symposium on Principles

of Database System s (PODS'97), Tucson, Arizona, May 1997.

[7] M. Bauer, D. Dengler.

TrIAs - An Architecture for Trainable Information Assistants.

Workshop on AI and Information Integration, in conjunction with the 15'th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[8] P. Berka.

Intelligent System s on the Internet.

http://lisp.vse.cz/ berka/ai-inet.ht m, Laboratory of Intelligent System s, University

of Economics, Prague.

[9] L. Bright, J. R. Gruser, L. Raschid, M. E. Vidal.

A Wrapper Generation Toolkit to Specify and Construct Wrappers for Web Accessible Data Sources (WebSources).

Computer System s Special Issue on Semantics on the WWW, Vol. 14 No. 2, March 1999.

[10] S. Brin.

Extracting Patterns and Relations from the World Wide Web.

International Workshop on the Web and Databases (WebDB'98), Spain, March 1998. [11] M. E. Califf, R. J. Mooney.

Relational Learning of Pattern-Match Rules for Information Extraction.

Proceedings of the ACL Workshop on Natural Language Learning, Spain, July 1997. [12] M. E. Califf.

Relational Learning Techniques for Natural Language Information Extraction.

Ph.D. thesis, Depart m ent of Com puter Sciences, University of Texas, Austin, August 1998. Technical Report AI98-276.

[13] S. Chawathe, H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman, J. Widom.

The TSIMMIS Project: Integration of Heterogeneous Information Sources.

In Proceedings of IPSJ Conference, pp. 7--18, Tokyo, Japan, October 1994.

[14] B. Chidlovskii, U. M. Borghoff, P-Y. Chevalier.

Towards Sophisticated Wrapping of Web-based Information Repositories.

Proceedings of the 5'th International RIAO Conference, Montreal, Quebec, June 1997. [15] M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, S. Slattery.

Learning to Extract Sym bolic Knowledge from the World Wide Web.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[16] M. Craven, S. Slattery, K. Nigam.

First-Order Learning for Web Mining.

Proceedings of the 10'th European Conference on Machine Learning, Germany, April 1998.

[17] R. B. Doorenbos, O. Etzioni, D. S. Weld.

A Scalable Comparison-Shopping Agent for the World Wide Web.

Technical report UW-CSE-96-01-03, University of Washington, 1996.

[18] R. B. Doorenbos, O. Etzioni, D. S. Weld.

A Scalable Comparison-Shopping Agent for the World-Wide-Web.

Proceedings of the first International Conference on Autonom ous Agents, California, February 1997.

[19] O. Etzioni

Moving up the Information Food Chain: Deploying Softbots on the World Wide Web. AI Magazine, 18(2):11-18, 1997.

[20] D. Florescu, A. Levy, A. Mendelzon.

Database Techniques for the World Wide Web: A Survey.

ACM SIGMOD Record, Vol. 27, No. 3, Septem ber 1998.

[21] D. Freitag.

Information Extraction from HTML: Application of a General Machine Learning Ap- proach.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),

Madison, Wisconsin, July 1998.

[22] D. Freitag.

Machine Learning for Information Extraction in Informal Domains.

Ph.D. dissertation, Carnegie Mellon University, November 1998.

[23] D. Freitag.

Multistrategy Learning for Information Extraction.

Proceedings of the 15'th International Conference on Machine Learning (ICML-98), Madison, Wisconsin, July 1998.

[24] R. Gaizauskas, Y. Wilks.

Information Extraction: Beyond Docum ent Retrieval.

Computational Linguistics and Chinese Language Processing, vol. 3, no. 2, pp. 17--60, August 1998,

[25] H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman, J. Widom.

Integrating and Accessing Heterogeneous Information Sources in TSIMMIS.

In Proceedings of the AAAI Symposium on Information Gathering, pp. 61--64, Stan- ford, California, March 1995.

[26] S. Grumbach and G. Mecca.

In Search of the Lost Schem a.

Proceedings of the International Conference on Database Theory (ICDT'99), Jerusalem, January 1999.

[27] J-R. Gruser, L. Raschid, M. E. Vidal, L. Bright.

Wrapper Generation for Web Accessible Data Source.

Proceedings of the 3'rd IFCIS International Conference on Cooperative Information

System s (CoopIS-98), New York, August 1998.

[28] J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo.

Extracting Semistructured Information from Web.

Proceedings of the Workshop on Management of Semistructured Data, Tucson, Ari- zona, May 1997.

[29] J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yerneni, M. Breunig, V. Vassalos. Tem plate-Based Wrappers in the TSIMMIS System.

Proceedings of the 26'th SIGMOD International Conference on Management of Data, Tucson, Arizona, May 1997.

[30] C-H. Hsu.

Initial Results on Wrapping Semistructured Web Pages with Finite-State Transducers and Contextual Rules.

Workshop on AI and Information Integration, in conjunction with the 15'th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998. [31] C-H. Hsu and M-T Dung.

Generating Finite-Sate Transducers for sem istructured Data Extraction From the Web.

Information system s, Vol 23. No. 8, pp. 521--538, 1998.

[32] C. A. Knoblock, S. Minton, J. L. Am bite, N. Ashish, P. J. Modi, I. Muslea, A. G. Philpot, S. Tejada.

Modeling Web Sources for Information Integration.

Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.

[33] N. Kushmerick, D. S. Weld, R. Doorenbos.

获取信息的策略与技巧

获取网络信息的策略与技巧 一、教案背景: 1.面向学生是中学 2.学科是信息技术基础 3.本节课属于粤教版信息技术(必修)信息技术基础第二节第二课,在以前学习中学生已经学习到了信息与信息技术有关的知识内容,而且对于计算机也能够较为熟练操作,对计算机操作及网络学习感兴趣。本节课的学习不仅对学生的学习、成长及走向社会后有重要的意义,所以在本节课中学生必须掌握网络信息检索的方法,能够利用网络搜索引擎的使用技巧,同时教师还要引导学生关注使用网络过程中的合法性,培养学生的法律意识。 二、教学课题:获取网络信息的策略与技巧 知识与技能:1、认识网络信息的特点。 2、认识搜索引擎、掌握搜索的方法和技巧。 3、合理合法下载网络中的文件,能根据不同的下载目标和环 境选择不同的下载策略。 过程与方法:1、通过利用问题引导学生实践使学生了解认识网络信息的特 点。 2、通过分组任务驱动实践使学生了解网络信息检索的方法, 认识搜索引擎。 3、通过实践完成任务,总结搜索引擎的使用方法与技巧。 4、引导学生合法下载网络中的文件 情感、态度、价值观:通过本节课的学习,使学生掌握从网络获取信息的方 法与策略,提高学生动手能力,使学生能够对网络有正确 的认识,增强学生思考分析能力,陶冶学生遵纪守法的意 识。 三、教材分析: 目前,学生在理论知识学习上已经掌握了信息和信息技术的相关知识内容,而且在社会生活中学生也经常会接触到网络环境,正确引导学生掌握获取网络信息的策略与技巧是很有必要的;从实际操作上来看,学生对于计算机的认识逐渐加深,操作也越来越熟练,通过实践操作来引导学生学习本节课内容,不仅可以使学生掌握相应的知识而且还可以激发学生学习的兴趣,发挥学生的潜能,还可以熏陶学生的法律观念。基于这一思路,本节采用“情境引入——练习实践——总结归纳——再次巩固”这一线索组织内容,具体如下: 情境引入:本节以教材P24页例子设置利用网络进行信息获取的学习情境,激发学生学习欲望。 总结归纳:在每个知识点的练习实践模块完成后都要求各组进行总结归纳,以小组代表发言形式谈谈实践过程中的做法及相关的情况。 再次巩固:采用一定的课堂练习,再次巩固所学的知识,使学生进一步掌握所学的内容。 四、教学方法: 采用分组任务驱动法、总结交流及学生自主学习相结合的方法。

人教版-信息技术-三年级下册-《保存网上的资料》教学设计

第3课保存网上的信息 教学目标: 1、知识与技能 1)学会根据主题学习的内容在网上搜索有用的信息。 2)学会保存一个网页、网页上的图片、文字。能区别保存网页的不同类型。 3)培养学生利用信息技术对其他课程进行学习和探讨的能力。 2、过程与方法 1)学生积极参与学习的过程,并在这个过程中扮演重要的角色。 2)学生通过自学和通过与同伴交流的方法获取知识,并分享他人学习的经验。 3、情感态度和价值观 1)感受到网上收集资料的乐趣,乐于主动参与探索问题。 2)积积参与小组合作学习,并能在合作中进行愉快的合作和协作。 3)增强学生对信息技术课的学习兴趣,让学生养成遵守网络道德规范的良好习惯,并负责任使用因特网。 4)培养学生在相互的评价和展示交流过程过,学会学习和欣赏别人,并体现自我的价值。 5)通过了解上海世博的知识,让学生了解中国,了解世界。 教学的重难点 重点:利用网络资源,快速地搜索、选取、收集有用的信息。 难点: 1、区分保存网页的不同类型。 2、如何保存网页上的文字。 3、如何选择合理的保存路径和输入合理的文件名。 教学过程: (一)导入,提出整合的任务。 1、出示有关世博图片。同学们,你知道这些都是什么图片吗? 2、对了,这些都是我们世博会馆的有关图片。那你们知道这些图片是从哪里来的吗? 3、老师告诉你吧,这些图片都是从网上保存下来的。

4、今天,老师就要带同学们进行一次特殊的旅游,我们一起去"网上世博会"。 5、揭题。在我们观看的过程中,我们还要掌握一个新的本领,那就是"保存网上资料" (二)保存网页。 1、请同学们跟着老师打开"上海世博会"的网站。 2、我们在ie浏览器的地址栏中输入上海世博会官方网https://www.wendangku.net/doc/c23132443.html,或者网上世博https://www.wendangku.net/doc/c23132443.html, 3、大家可以快速的浏览这个网页。 4、你浏览到哪些信息? 5、网站上的信息还有很多,有些同学还想带回家去看,我们该怎么办呢?(把它保存下来) 方法:菜单栏文件——另存为——选择路径——输入文件名——保存 文本文档的格式简明,文件小,打开快。 网页形式内容丰富,有图片,有超级连接,全部还有网页文件夹完成任务一:保存"上海世博会"网站的首页。 (三)保存网页中的图片。 1、同学们观察的很仔细,下面我们一起来轻松一下,一起来看看上海世博会各个馆的精美图片。 2、要怎么才能把它的图片保存下来, 演示方法:右击图片——图片另存为——选择路径——输入文件名——保存完成任务二:保存一张你最喜欢的图片。 (四)保存网页中的文字。 1、光有图片可不行,我们还得配上文字说明。那么我们该怎样把那个展馆旁边的文字保存下来呢? 2、老师示范。 方法:选定文字——复制——打开字处理软件——粘贴——保存完成任务三:保存网页中的一段文字。 3、把相应的图片插入到word文档中去后,展示自己的作品。 (五)小结 同学们,这节课通过大家自己的努力,已经掌握了如何迅速的查到自己想要的网站,并能够从网上保存各类资料,包括图片、文字等。以后大家就可以利用今天学习的方法,查找和保存其它学科的资料了。

获取网络信息的策略与技巧选择练习题

2.2获取网络信息的策略与技巧(练习题) 1、可以便的检索多个搜索引擎,扩大检索围,同时检索多个数据库 的搜索引擎属于() A、元搜索 B、全文搜索 C、垂直搜索 D、目录索引类搜 索 2、使用全文搜索引擎(如Google)进行搜索时,关键词”综合性大学- 上海"表示()。 A、上海的综合性大学 B、上海的非 综合性大学 C、不包含"上海"二字但包含"综合性大学"的网页 D、上海和综合性大学 3、欲在因特网上使用Yahoo搜索,说法有误的是()。 A、可以使用"分类目录"搜索 B、可以使用"关键字"搜索 C、能交替地使用"分类目录"和"关键字"搜索 D、既不能使用"分类目录"搜索,也不能使用"关键字"搜索 4、某同学在".baidu."的搜索栏输入"高二物理试题",然后单击"搜索"按钮,请问他的这种信息资源检索是属于() A、分类搜索 B、全文搜索 C、多媒体信息检索 D、专业 垂直搜索 5、从网上下载文件时,下列说确的是()。 A、只能用专门的下载工具软件下载文件

B、从网页上直接下载速度较慢,一般只适合小文件的下载 C、只能从网页上直接下载 D、任文件都不能从网页上直接下载 6、搜索引擎其实是因特网上的一类(),搜索引擎一般提供()检索和()检索。() A、、目录、关键词 B、网页、目录、关键词 C、、自动、手动 D、网页、自动、手动 7、将当前浏览的标题为“ happy"的页面保存时(采用默认文件名)可以得到() A、一个index. htm 网页文件和index. files 文件夹 B、一个happy. htm 网页文件和happy. files文件夹 C、一个index. htm 网页文件和happy. files文件夹 D、一个happy. htm 网页文家和index. files文件夹 8、小明想把网上的一些电影下载到自己电脑中,下列法中可以提高下载效率的是() A、直接复制、粘贴 B、单击鼠标右键,选择“目标另存为” C、使用迅雷下载 D、制快捷式 9、利用搜索引擎进行信息检索时,如果关键字为“上海and世博会”,则正确表达其意义的选项是() A、检索有关上海的相关信息 B、检索世博会的相关信息 C、检索上海世博会的相关信息 D、检索除了上海以外的世博会信息

从因特网获取信息(教案)

教学课题:从因特网获取信息课型:新授 本课题教时数:1课时本教时为第 1 教时 一、教学目标 知识与技能 1、掌握从因特网获取信息的常用途径以及搜索引擎的使用。 2、学会下载与保存信息。 过程与方法:' z# x- y4 R7 J; R: w# ^- q 通过探究学习、对比观察、任务驱动等方法,培养学生从因特网获取信息的能力。情感目标: 1、培养学生勇于探索,勇于尝试,不怕失败的意识。 2、培养学生的求知欲。 3、感悟“工欲善其事,必先利其器”。 二、教学重点、难点 教学重点:1、搜索引擎的使用。2、信息的下载与保存 教学难点:搜索引擎的使用 三、教学方法与手段 任务驱动、自主探究、对比观察、讲解分析等 教学过程:教师活动学生活动设计意图情景引入 [教师]:同学们,上星期我们学校举行了运动会,各个班的运动健将都为了班级荣誉奋力拼搏。我们班有没有拿到第一名的同学啊?我们班的团体总分在学校各班级中的排名是多少? [教师]:同学们对自己班级在运动会上的情况都很了解,那么有同学能清楚的说出每个比赛项目都是哪个班的同学获得了名次,学校各个班级的排名情况是怎样的?如果记不清了,那在哪可以找到这些信息? 新课学习 任务一:找到刚才问题的答案。 任务说明:直接用浏览器打开学校主 页,查找相关信息。 [教师]:同学们,从因特网收集信息,是人们获取信息的重要途径之一。在因特网上获取信息主要有两种途径:访问专业、专题网站和使用搜索引擎。[学生]:学生热烈讨论运动 会的事情,踊跃回答。 [学生]:纷纷摇头,表示能 说出一点,但是不清楚全 部的情况。在学校网站应 该能找到相关信息。 [学生]:学生打来学校网站 查找有关运动会的信息并 回答刚才的问题。 [学生]:听教师讲解 以贴近学生生活而且学生 比较关心的实例为引入,使 学生产生思想上的共鸣,快 速进入学习状态。 体会用浏览器可以方便的 查看各种信息。 承前启后,让学生明白操作 的含义。

个人信息储存网络有风险

个人信息储存网络有风险 成都一储户林某存储于网络的个人信息被罪犯王某获取,并利用软件破解了林某的银行卡密码,从而通过银行“e支付”业务从林某账户内转出现金32010元。后林某以银行未尽到安全保障义务提起诉讼。 近日,四川省成都市锦江区人民法院审结此案,法院一审认为林某存款被盗取系银行网银安全交易技术不完善及林某本人未妥善保管个人信息的双重原因造成,双方均有一定责任,并酌定银行、林某分别担责70%、30%,故判决被告银行某支行向林某支付其存款损失21847元及相应利息。 2013年10月14日,原告林某在被告银行某支行开户办理银行卡一张,并预留尾号为11的手机号,同时注册了网上、手机和电话银行功能。次日,林某便将其注销,另开户办理一张银行卡,并预留尾号为63的手机号,也注册开通了相同功能。当时其转款并扣除按揭房贷后,账户余额为32019元。次年3月,其发现账户余额仅为9元,遂向公安机关报案。 而在2014年2月中旬,罪犯王某从网上获取了包括原告的姓名、身份证号码、银行卡号、手机号在内的个人信息资料,后通过使用特别定制的软件对大量数据进行对比碰撞,非法获取了原告在被告处开立的账户的网上银行密码等信息。之后王某先冒用原告的名义开通银行“e支付”业务,短信提示是新开户账户,但绑定了原告已注销账户预留尾号为11的手机号。其后,王某通过网上操作,将该账户绑定的手机号进行了三次更改,并通过更改后的手机以接收动态密码的形式共转账11笔,金额共计32010元。2014年4月,王某被公安机关抓获,同年10月,锦江区人民法院以非法获取公民个人信息罪及信用卡诈骗罪判决其有期徒刑三年零二个月,并处罚金3.1万元。 随后,林某以银行未尽到储蓄资金安全保障义务为由向法院提起民事赔偿诉讼。 法院一审认为,依照我国相关法律规定,商业银行应对储户的存款负有安全保障义务,具体包括为储户银行卡内的信息保密、提供安全的交易技术、设备和环境等具体内容。同时,林某为存款人,亦负有妥善地保管好个人信息、银行卡及密码信息,防止泄露或者被他人盗取的合同义务。 该案中,林某的被盗账户的预留手机号尾号为63,但罪犯王某却利用其另一已注销账户中所预留尾号为11的手机号,开通了其银行卡的“e支付”业务。可以认定,银行作为金融机构,在开通其“e支付”业务的安全交易技术上存在不完善之处,且未能告知林某,以使林某个人能够针对该情况采取一定的防范手段,故被告银行并未尽到严格的安全保障注意义务。而林某将其个人信息存储于

公共信用信息平台项目

公共信用信息平台项目 莱芜市信用信息共享平台项目,于2017年5月正式上线运行,面向政府、企业和社会公众等多种信用主体提供了信用信息归集、查询、公示、共享和政策解读等多种服务,取得了良好的社会效果。 随着国家、省信用体系建设的不断推进,国家对信用示范城市评选的标准更加成熟,城市信用监测的指标更加明确,对信用平台与信用网站一体化,联合奖惩体系,信用双公示系统,省、市、县信用信息互联互通,信用数据安全等方面提出了更高要求,为进一步提升信用体系整体水平,提高信用平台的服务和应用能力,响应新政策,实现新思路,满足区县对信用体系建设的迫切需求,现需要对莱芜市公共信用信息平台与“信用莱芜”网站,围绕功能扩展、服务提升、安全保障等方面进行升级优化。 1、网站续建 根据《国家发展改革委关于加强全国信用信息共享平台一体化建设和信用门户网站一体化建设的指导意见》,充分认识加强全国信用门户网站一体化建设的重要意义,在原有网站“信用莱芜”基础上进行网站风格一体化的统一,完善信用查询报告功能,增加网站实名制认证、新闻考核报送系统、网站效果分析、社会信用服务等功能。 2、平台续建 根据国家有关政策和文件,建设莱芜市政务外网门户、新增内容管理系统、个人工作台、统一异议处理管理、信用关系图谱、消息平台、信用修复、信用查询报告、信用预警、信用大数据分析等功能。 3、联合奖惩系统 根据国家发布的《国务院关于建立完善守信联合激励和失信联合惩戒制度加快推进社会诚信建设的指导意见》建设联合奖惩子系统,根据文件要求及现阶段业务要求,推动联合奖惩相关法律法规建设,经过需求调研,系统应提供知识库管理功能,在原有联合奖惩备忘录的基础上,梳理结构化的梳理法律和政策明确规定的联合激励和惩戒事项,供用户下载、查阅。为贯彻国家建立健全信用信息归集共享和使用机制,系统具备联合奖惩管理功能,通过数据类别分类,资源配置关联、惩戒对象配置、惩戒措施配置、数据分发等功能,实现数据整理、信息推送、信息展示等动态协同功能,确保“应查必查”、“奖惩到位”,健全政府与征信机构、金融机构、等组织部门的信息共享机制,促进政务信用信息与社会信用信息互动融合,最大限度发挥守信联合激励和失信联合惩戒作用。为响应国家建立联合奖惩触发反馈机制,系统还应具备奖惩反馈与反馈情况统计功能,充分建立守信联合激励和失信联合惩戒的发起与响应机制。 4、政务应用建设 为政府机关、企业、个人和信用服务机构等各类用户提供基于服务大厅和服务窗口的现场信用服务。系统可通过现场服务人员为用户提供企业和个人公共信用信息查询、授权查询、信用自查、信用查询报告生成及打印等服务。 莱芜市信用信息共享平台与公共资源交易中心进行对接,将国家、省、市信

《网页信息的保存》教学设计

网上资料库——网页信息的保存 一、教学内容分析 本课内容是在上一节《答案轻松找——网页的浏览》的基础上,进一步让学生学会使用浏览器保存我们所搜索到的图片、文字等信息,在自主探究与实践的过程中,培养同学们对信息收集、处理的能力,使学生在自主学习、合作探究的过程中获得全面发展。 二、教学对象分析 本课的教学对象是小学四年级的学生。学生基本掌握了IE浏览器的使用,并具有访问网页的经验,他们对于利用浏览器上网搜索信息有浓厚的兴趣。由于是异地教学,学生们仅仅是初步学会使用自己的用户名和密码登陆Moodle网络学习平台。四年级学生的自主学习能力正在逐步形成,教师应积极引导学生开展合作探究,鼓励学生创造性地自主学习,使学生养成自主学习、合作探究的学习习惯。在上一节《答案轻松找——网页的浏览》中,学生们已经学会了IE浏览器的使用,这节课就是在此基础上让学生学习保存网页、图片、文字信息的方法。 三、教学目标 1、知识与技能 (1)进一步掌握浏览网页的操作; (2)学会保存网页、文字、图片的操作。 2、过程和方法 (1)任务驱动; 让学生在完成任务的过程中循序渐进地学会保存网页的信息。 (2)合作探究; 通过多种形式的合作、互助、互学、探究,充分调动学生的学习积极性,及时解决学习中遇到的难题。 (3)交互式教学。 利用Moodle网络学习空间构建“一对一”交互式教学环境,针对每个学生的特点、需要,及时给予学生学习上的辅导和帮助,促进学生的全面发展。 3、情感态度和价值观 (1)激发学生对信息技术的浓厚兴趣; (2)培养学生勇于探索、创新的精神,让学生体会到合作学习的喜悦;(3)培养学生热爱祖国、服务社会的精神。 四、教学重点及难点 1、教学重点: 学会保存网页、文字、图片的操作。 2、教学难点: 学会分类保存信息,学会多种保存信息的方法,在交流合作中提高信息素养和能力。

教你几招保存手机信息

本文档来源于关东人科技有限公司 教你几招保存手机信息 随着移动网络时代的来临,人们已经不单单只是使用智能手机这么简单了,相反的已经有越来越多的人合理的运用了手机所带的功能!这也让手机不仅仅只是我们的通讯工具了! 随着手机信息的增加,已经有很多移动网友,向我们百姓问咨询,如何才能保管好手机信息!有相同疑问的亲们,要好好看看本章-教你几招保存手机信息。 1.如何进行安卓手机数据备份 【解决方法】 【经验证】 方法一: 1.打开360手机助手(这里也可以用其他助手,如91助手等),插上数据线,连上手机。点击右下方的“数据备份”按钮。 2.选择你所需要备份的短信,通讯录等,选择备份位置,这里默认桌面。然后继续选择“一键备份”。 3.等待备份完成,显示“恭喜你,数据备份成功” 4.如果手机数据信息遗失的话,可以选择“一键恢复”选项,选择备份好的备份文件,进行还原回复以前的短信和通讯录。 5.等待手机显示“数据恢复完成”即可。 方法二: 1.打开安卓微信客户端,选择“设置”->“功能”选项,找到“通讯录安全助手”,进入通讯录安全助手功能。 2.选择“备份”,即上传手机信息到云端,所以此备份需要手机联网支持。填写安全认证所需密码,立即开始备份。等待备份完成即可。 3.如果需要恢复的话,选择下载云端手机信息到手机的“恢复”选项,进行恢复。等待回复完成即可。 方法三: 1.打开安卓手机360手机卫士,找到“通讯录备份”选项,登录360账号(此方法需手机联网支持)。

2.登录后选择登录到云端私人空间,与方法2相似,等待备份完成。 3.如果需要回复手机数据,则选择从云端下载数据到手机的恢复功能。点击“开始恢复”,等待恢复完成即可。 2.如何备份手机通讯录 【解决方法】 【经验证】 1.首先在电脑上安装豌豆夹程序,打开豌豆夹官方主面,在网站上点击“下载豌豆夹”按钮将程序下载到本地硬盘上。然后运行豌豆夹安装程序进行安装,其安装过程很简单,在此不再陈述。 2.然后用数据线将手机与电脑的USB接口相连,并按如图所示打开手机“USB调试”模式。 3.运行“豌豆夹”程序,则程序自动搜索并下载与手机类型相匹配的驱动程序。驱动程序安装完成后,就可以对手机进行管理了。 4.通讯录的备份:进入豌豆夹主界面,就会发现窗口的右下角有备份按钮,点击”备份“按钮,在弹出的窗口中勾选”备份到本地”,点击下一步。 5.在该窗口中选择要备份的内容,建议全部勾选“联系人”、“短信”和应用程序,然后点击下一步。 6.在弹出的“备份到电脑”窗口中直接按默认点击下一步。 7.在该窗口中可以给要备份的文件命令,还以为更改保存文件的路径,设置完成后,点击“开始备份”按钮进行手机信息的备份。 8.备份完成后就会弹出“备份完成”窗口,在此将会显示已完成的相关备份数据。至此,手机通讯录备份完成。 9.通讯录的恢复:点击豌豆夹主界面右下方的”恢复“按钮”,在弹出的“数据恢复”窗口中选择“从电脑恢复”,然后点击下一步。 10.在打开的“恢复”窗口中选择其中一个要恢复的备份,然后点击下一步。 11.在该窗口中可以选择要恢复的项目,在此只恢复联系人,因此只勾选”联系人“一项即可,然后点击”开始恢复“以执行恢复操作。

网上获取信息教案

一、教学内容分析 本节课是教科版信息技术基础(必修)第二章第二节内容。主要内容包括:搜索引擎的概念、搜索引擎的分类和搜索技巧三个方面。本节课是在学生学习了信息获取一般过程的基础上进一步学习的,重点难点在于对搜索引擎的使用方法上。通过这节课的学习让学生能够掌握网络信息检索的几种主要策略和技巧,能够在网络上快速准确地获取自己所需要的信息,提高学生搜索信息的能力,培养学生的信息素养。 二、教学对象及学习者特征分析 高一年级。学生基本上已经有过网上信息搜索经历,也掌握了搜索引擎的部分使用方法,知道如何利用网络来获取信息,但是学生搜索的效率还是不高,搜索技巧的使用方法还没有掌握。 三、计划学时 1课时 四、教学难点及重点 教学重点:搜索引擎的分类及两种常用的检索方法; 教学难点:根据不同内容,采用相应的搜索引擎进行快速查找。 五、教学目标 知识与技能: (1)知道什么是搜索引擎; (2)掌握搜索引擎的分类查找和关键词查找方法; (3)会根据不同内容运用不同的搜索策略获得高效的搜索结果。 过程与方法: 能够根据实际问题分析信息需求、选择合适的搜索策略,有效快速地获取到有价值的信息,进行问题解决。 情感态度与价值观: (1)培养学生寻找多种途径解决问题以及探究解决问题最佳途径的意识; (2)在多渠道获取信息的过程中,形成积极主动的学习信息技术、参与信息活动的态度,认识多渠道获取信息的重要性,合法、合理、快速

教师活动学生活动设计意图一、创建情境 同学们,农历八月十五日,是 我国传统的中秋节,也是我国 仅次于春节的第二大传统节日。那么关于“中秋节”我们知道的有多少呢? 问题:(1)中秋节有哪些传说故事呢?(2)你能例举出一首你最喜欢的关于中秋节的诗词吗? 如果你不知道这些,我们可以求助于什么,从而可以快速地获取答案? 二、引入新课 通过上节课的学习,我们知道了获取信息的方式也是多种多样的,而目前上网成为了我们获取大量信息的理想方式。我们都知道,因特网作为一个巨大的信息资源库,为我们提供了浩如烟海的信息。那么,如何在网上准确快捷的找到我们需要的信息呢?这就是我们这节课共同探讨的话题——《网上获取信息的策略》。 【活动一】:同学们试着在网上查找中秋节的相关信息,来学生思考问题, 并交流讨论回答 学生上机实践, 体验如何在网上 寻找答案,并汇 报自己的搜索结 果和所使用的方 法 贴近生活,导入主题, 激起学生学习欲望,同 时为后面学习内容作好 铺垫 对本节课学习内容做简 单的概述 地获取信息。 六、教学方法及策略 讲授法、演示法、练习法七、教学环境及资源准备 多媒体网络教室,PPT课件八、教学过程

如何保存网上输入的痕迹

如何保存网上输入的痕迹 手动清除电脑痕迹当然可以,只是操作起来麻烦,又容易漏掉一些。找点资料给你: 1.清除最近使用过的文档记录 以WindowsXP为例,右键点击“开始”按钮,选择“属性”,在弹出的设置任务栏和开始菜单属性对话窗中点“自定义”按钮,在“自定义开始菜单”对话框中的“高级”标签下点“清除列表”。若要让系统永不自作多情记住使用文档的记录,请去掉“列出我最近打开的文档”前的钩。 小提示:XP会把最近访问文档的快捷方式放在 C:\DocumentsandSettings\用户名\Recent中,手工删除它们也能让文档菜单“失去记忆”。 2.删除临时文件夹中的内容 当执行过安装软件、打开文档等操作时,在临时文件夹中会留下相应文件,可以手工清除在下列位置中的内容:C:\Windows\Temp、C:\DocumentsAndSettings\用户名\LocalSettings\Temp。如在删除时提示有文件在使用,就需要关掉相关程序,最好重启一次再删除。 3.清除“运行”、“查找”等处的历史记录 清除“运行”对话框中记录的输入内容,可修改注册表。这些记录被保存在“HKEY_CURRENT_USER \Software\Microsoft\Windows\CurrentVersion\Explorer\ RunMRU”分支下,将其完全删除后重启。此外,该主键下的“DocFindSpecMRU”项,在右侧栏目中显示的是“查找”的历史记

录,可一并删除。 4.隐藏在IE中的行踪 上网后,会有大量信息反映你的所作所为,这还了得? ①清空Internet临时文件夹 别人查看“Internet临时文件夹”下的图片、Flash等文件便能大体知道你曾到过的网站。要清除它们,可依次单击IE菜单栏中的“工具”→“Internet选项”,打开“Internet选项”对话框,在“常规”标签中点击“删除文件”按钮,在弹出的“删除文件”窗口中勾选“删除所有脱机内容”,最后点击“确定”。 ②我不要“小甜饼”(Cookie) Cookie也可能是泄密的一个“罪魁祸首”,在“Internet选项”对话框的“常规”标签中单击“删除Cookies”按钮,待弹出窗口后单击“确定”按钮,可删除它们。 小提示:一种保险的办法是在上网后,进入Internet临时文件夹(该文件夹可在Internet选项对话框的“常规”选项下点“设置”来查看具体位置),删除其下所有内容,这样,临时文件及Cookie等都会被清除。 ③消除访问网页的历史记录 IE会将最近三周的访问历史记下,要“踏网无痕”可得清除它们,只要删除“C:\DocumentsandSettings\用户名\LocalSettings\History”文件夹中的所有内容即可。也可在Internet选项对话框的“常规”标签下点“清除历史纪录”按钮。 要让IE不记录访问历史,请在Internet选项对话框的“常规”选

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著(1999.7)陈鸿标译(2003.3) 第一章导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。 由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库! 信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。 本文首先在第二章简要介绍信息抽取技术,第三章介绍网页分装器(wrapper)的开发,第四章介绍已经开发出来的网站信息抽取系统,第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。 第二章信息抽取技术概述 信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。 本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。 第2.1.节IR和IE

人教版-信息技术-五年级下册-《网页下载与保存》教案

《网页下载与保存》教案 教学目标: 1.知识与技能: ①掌握下载、保存网页和图片的方法。 ②提高学生在网上搜集信息、保存信息、整理信息的能力。 2.过程与方法:利用任务驱动,通过学生分组探究、协作学习,在完成具体任务的过程中学会下载、保存网页和图片的方法。 3.情感态度与价值观: ①培养学生主动探究知识和获取信息的兴趣; ②培养学生利用因特网解决实际生活中相关问题的能力;③培养学生合作学习的意识和能力。 教学重难点: 重点:保存整个网页和保存网页上的图片。 难点:将下载的网页、图片分类整理保存。 教具准备: (极域)电子教室、NetBox2.8、《网页下载与保存》学习网站、flash小游戏若干、“喜羊羊与灰太狼”动画海报若干。 教学过程: 一、激趣设疑,引入新知 师:同学们喜不喜欢玩游戏啊?生:喜欢。 师:那你们是怎样从网上找到游戏的?哪位同学愿意上来给大家演示一下?请一位学生到教师机上演示操作。 师:好,大家来看一下,他先找到百度,然后打上关键字……/谁还有其他方法?/你们是不是也是这样找的?/大家还记得我们前面几节课学过搜索引擎吗?……同学们看看他做的对不对啊? 引导学生进行评价。 师:老师这里有个网站(演示打开https://www.wendangku.net/doc/c23132443.html,),大家看里面的游戏多不多啊?演示打开其中一个游戏的步骤。 师:大家想一下,如果咱们每次打开电脑玩游戏的时候都这样一步一步的去找,麻不麻烦啊?

引导学生思考。 师:那么有没有一种简便的方法呢?是什么方法?大家互相讨论一下。学生思考、小组讨论。 师:如果我们把自己喜欢玩的游戏的网页保存下来的话,是不是简便多了呢?引导学生回答。 师:好,今天我们就来学习“第10课网页下载与保存”。(板书课题) 二、任务驱动,探究新知 师:还记得我们以前是怎么保存写字板文档的吗?(打开写字板演示),那网页的保存方法是不是应该和保存写字板文档的步骤差不多呢? 引导学生回答。 师:那么我们应该怎样保存网页呢?下面给大家1分钟的时间,快速从书上找出保存网页的方法。 学生自主学习,通过查阅课本找出问题答案。 师:哪位同学找到了?谁愿意上来给大家示范一下? 请一位学生到教师机上演示,并引导学生归纳保存网页的方法(文件→另存为) 师:大家看看他做的对不对啊?好,现在网页保存了以后,我们发现同时出现了两个图标,我们应该打开那一个呢? 引导学生回答(打开蓝色图标的那一个,因为黄色图标的是文件夹)※任务一:练习保存游戏网页 师:下面请大家登陆4399网站,下载、保存你喜欢的游戏网页。给大家3分钟的时间,咱们看哪个组的同学保存的最多。(板书:文件→另存为) 学生动手练习,教师巡视指导。 师:保存过程中,我们最好给要保存的网页起一个名字,要不然以后保存的网页多了,不知道该打开那一个了。 师:保存完2个的同学请举手,……保存了5个的同学请举手。(表扬保存网页最多的一组) 利用电子教室的分发功能,奖励任务完成最好的一组同学,每人一幅“喜羊羊与灰太狼”的动画海报。 师(小结):通过刚才的活动,大家基本上把自己喜欢的游戏都保存下来了,以后随时玩都可以了,不用再按部就班的打开百度,输入关键字一步步的进行搜索了。

浏览、保存网上信息(教案)

浏览、保存网上信息 学科:信息技术七年级123班执教人:谢景红 一、教学目标: 1、认识浏览器,学会浏览万维网中的信息。 2、了解上网时应注意哪些问题。 3、掌握保存网上信息的方法。 二、教学重难点: 如何浏览、保存万维网中的信息。 三、教学方法:自主、合作、探究学习方式 四、教学准备:CAI课件 五、教学时间:1课时 六、教学过程: (一)认识浏览器 1、什么是浏览器? ?浏览器通常是指用来浏览网页的一种软件。 ?浏览器是一个把在互联网上找到的文本文档(和其它类型的文件)翻译成网页。网页可以包含图形、音频和视频,还有文本;结果是,网络激发了人们对从前是基于文本的互联网的兴趣。 ?浏览器是一个在你的硬盘上的应用软件,就像一个字处理程序一样(如Microsoft Word)。 2、常用浏览器软件 ?Internet Explorer ?傲游(Maxthon)浏览器 ?世界之窗(The World) ?火星浏览器(Gogo Explorer) ?万能浏览器

?飞鱼(Flyfish)浏览器 ?腾讯TT浏览器 3、启动 Internet Explorer浏览器方法 双击Windows桌面上的“Internet Explorer”图标,即可打开IE浏览器窗口。 4、Internet Explorer 窗口简介 IE的工作窗口自上而下由标题栏、菜单栏、工具栏、地址栏、正文显示区和状态栏组成。 (二)问题一:如何浏览万维网中的信息? 任务分析: 在IE浏览器的地址栏中,输入要访问的网站地址(网址是https://www.wendangku.net/doc/c23132443.html,),就可以链接到指定的网站,选择感兴趣的内容就可以阅读浏览了。 (三)问题二:上网时应注意哪些问题? 1、要加强网络安全意识,不要随便泄漏有关个人的信息; 2、要遵守网络法规,不要发表违反国家法令、社会公德的言论; 3、要自觉抵制网络中不健康的内容; 4、要合理安排上网和学习时间,不要沉迷于网络,影响正常的学习。 (四)问题三:如何保存网上的信息? 在浏览WWW时,可以随时把自己感兴趣的内容保存下来。 1.浏览“青少年宫在线”网站内容。 2.保存网页中的图像 3.保存网页中的文字 4.保存网页 5.保存网页地址 (五)布置作业 1、复习教材P70—81内容,掌握所学知识。 2、上机操作:教材P74、P82中的“思考与练习”。

【百度搜索记录怎么保存】网上搜索和保存信息》教学设计

【百度搜索记录怎么保存】网上搜索和保 存信息》教学设计 【教学目标】 1. 了解“搜索引擎”的概念和作用; 2. 掌握如何利用“搜索引擎”查找信息; 3. 学会熟练运用“关键字”和“分类项目”方法查找信息; 4. 学会保存已搜索到的页面和图片。 【教学重点】 1. 如何运用“关键字”的方法查找信息; 2. 如何保存已搜索到的页面和图片。 【教学难点】 运用“关键字”和“分类项目”查找信息的过程和搜索到所需信息的操作技巧。 【教学提高】 如何正确使用“关键字”。 【教学任务】 1. 认识“搜索引擎”并掌握常见的几个“搜索引擎”; 2. 利用“关键字”查找信息的过程、方法及技巧; 3. 利用“分类项目”查找信息的过程、方法及技巧; 4. 页面和图片信息的保存过程和方法。 【教学方法】

启示法、提问法、举例法、任务驱动教学、演示操作法、利用多媒体网络教室、巡视辅导法、cai课件。 【教学策略】 在整个教学过程中,通过科学合理地运用多种教学方法和手段,在教师启发式和学生思考参与及师生共同演示操作的教学方式下,运用任务驱动式教学帮助和带动学生逐步完成各项教学任务,根据学生的接受能力情况使内容由简单逐步过渡到复杂程度,尽量发挥学生的思维能力、想象和创造能力,培养学生的积极参与兴趣,激发和锻炼他们的动手操作能力,创设轻松活泼的学习环境,使他们能轻松容易地学好课本知识和课本外的知识。 【教学设计过程】 一、导入新课 问题:同学们,平时在上网要查找自己需要的资料时,一般用什么网站查? (引出“搜索引擎”的概念和作用,并掌握几个常用“搜索引擎”名。) (采用提问、引导法、启示法、cai课件。) “搜索引擎”:指专门提供查询服务的网站。 二、讲授新课 任务:通过“搜狐”网站查找并保存一幅动物图片,同时保存该页面。(采用举例法、利用多媒体网络教室进行演示讲解。)(一)利用关键字查找信息

获取网络信息的方法与技巧

《获取网络信息的方法与技巧》说课稿 通榆县实验高中李春荣 (一)教材分析 教材选用的是广东基础教育课程资源研究开发中心编著的《信息技术基础》第二章第二节的内容,利用搜索引擎获取信息在本章中占有重要的地位。在网络成为人们获取信息的主要渠道之一,利用网络来获取信息,必然是学生必须学习的重要内容之一。本节课的内容将为其他内容和选修内容的学习提供了实践基础。 (二)教学目标 知识与技能: 中使用搜索引擎获取信息是重中之重,它是新课标下提升学生信息素养的重要环节,在本节课中,让学生掌握各类网络信息检索方法及网络信息检索的主要策略与技巧; 过程与方法: 能够根据任务的需求利用信息技术加工信息、表达意图。 情感与价值观: 培养学生热爱家乡、关注家乡的发展和建设意识。培养学生认识到保护知识产权的意识,合法地获取网上信息。 教学的重点: 是让学生掌握搜索引擎的分类查找、关键词查找方法;能根据不同的下载目标与下载环境,选择不同的下载策略。 教学的难点:

是如何使用搜索引擎实践中搜索方法和技巧,搜索技巧需要在实 践中不断地积累经验。 (三)学生分析 对新入学的高一学生来说,由于在初中阶段,多数学生在初中阶段已经学习了使用计算机的一些简单的操作、图文编排的应用软件和IE浏览器浏览网页,但是,由于多种原因,他们的信息技术水知识和技能了解和掌握水平参差不齐。在教学中,我按信息技术掌握水平的高低来进行分组学习的方法,可以取长补短,让学生在相互合作中 学习,协作完成学习任务。 (四)教学方法 在多媒体网络教室,采用诱导启发式教学,为学生创设“开放式” 的学习环境。 1、新课理论学习 根据本章的教学重点和教学难点,制作相应的课件。通过讲解——演示——讨论——概括来鼓励和激励学生的求知欲望,鼓励学生克 服畏难心理、增强信心。 2、任务驱动式学习 根据本章的内容,结合学生的实际,制定了具体的学习任务,学生能够通过任务加深对知识的理解和应用,满足学生表现成功的欲 望。 3、诱导启发式学习

保存网上的信息教案

《保存网上的信息》 一、教学目标: 1、知识与技能 1)学会根据主题学习的内容在网上搜索有用的信息。 2)学会保存一个网页、网页上的图片、文字。能区别保存网页的不同类型。 3)培养学生利用信息技术对其他课程进行学习和探讨的能力。 2、过程与方法 1)、 2)学生积极参与学习的过程,并在这个过程中扮演重要的角色。 3)学生通过自学和通过与同伴交流的方法获取知识,并分享他人学习的经验。3、情感态度和价值观 1)感受到网上收集资料的乐趣,乐于主动参与探索问题。 2)积积参与小组合作学习,并能在合作中进行愉快的合作和协作。 3)增强学生对信息技术课的学习兴趣,让学生养成遵守网络道德规范的良好习惯,并负责任使用因特网。 4)培养学生在相互的评价和展示交流过程过,学会学习和欣赏别人,并体现自我的价值。 5)通过了解上海世博的知识,让学生了解中国,了解世界。 二、! 三、教学的重难点 重点:利用网络资源,快速地搜索、选取、收集有用的信息。 难点:1、区分保存网页的不同类型。 2、如何保存网页上的文字。 3、如何选择合理的保存路径和输入合理的文件名。 四、教学过程: (一)、导入,提出整合的任务。 @ 1、出示有关世博图片。同学们,你知道这些都是什么图片吗 2、对了,这些都是我们世博会馆的有关图片。那你们知道这些图片是从哪里来的吗 3、老师告诉你吧,这些图片都是从网上保存下来的。 4、今天,老师就要带同学们进行一次特殊的旅游,我们一起去"网上世博会"。 5、揭题。在我们观看的过程中,我们还要掌握一个新的本领,那就是"保存网上资料" (二)、保存网页。 1、请同学们跟着老师打开"上海世博会"的网站。 2、我们在ie浏览器的地址栏中输入上海世博会官方网或者网上世博、大家可以快速的浏览这个网页。 ' 4、你浏览到哪些信息 5、网站上的信息还有很多,有些同学还想带回家去看,我们该怎么办呢(把它保存下来)方法:菜单栏文件——另存为——选择路径——输入文件名——保存

小学信息技术_网上信息可保存教学设计学情分析教材分析课后反思

《网上信息可保存》教学设计 教学目标: 知识与技能:能够根据需要将网上的图文信息复制到word中并保存,掌握利用word初步整理下载信息的方法。 情感态度与价值观:通过情景化、故事性的学习场景,让学生在交流中发现问题,在合作学习的过程中探究解决问题的方法,选择恰当的信息技术工具存储信息。 让学生体验利用信息工具解决生活中实际问题的需求,提高学生主动获取信息的兴趣。 教学重点: 通过情景化、故事性的学习场景,让学生自主学习、主动探究,在与伙伴共同参与的制作活动中提高获取信息、筛选信息的能力。 教学难点: 通过情景化、故事性的学习场景,让学生自主学习、主动探究,在与伙伴共同参与的制作活动中提高获取信息、筛选信息的能力。 教学过程: 三人一起讨论家人关于饮食与健康的观点,产生困惑,小丽提出合理膳食对健康有利,大强决定查查怎样吃才是合理的,能能也表示赞同。 一、新发现:有选择的保存网页信息 1.选择有价值的信息

打开“家庭营养配餐知识”网页并浏览信息。确定自己感兴趣的部分信息,学生浏览之后,让学生知道哪些是有价值的信息,从而学会甄别信息。 2.保存图文信息到word 为了方便整理、加工、可以将自己感兴趣的部分保存到word。根据操作步骤动手实践,用“复制—粘贴”的方法将图文信息保存到word。 二、发现二:无格式文本巧粘贴 网页上的信息直接复制到word中会将网页格式也复制过来,即影响美观,又给排版带来不必要的麻烦,通过word中的“选择性粘贴”命令可以去掉网页格式。 一点通:保存到word好处多 通过讨论、交流,认识到将网页上的信息有选择地保存到word 中能方便编辑、节约存储空间。 三、去探索:了解自己家里老人爱吃的水果,根据查到的信息和老人的健康状况,给老人停工一个科学选择水果的建议。 四、教学总结 结合最后的漫画式和知识卡进行集体讨论交流,让学生自己总结合理膳食对健康的积极作用。 《网上信息可保存》学情分析 大部分学生好奇心强,上课兴趣都比较浓,能掌握计算机的基础知识,会开、关机,会熟练使用键盘、鼠标等的操作。特别是一些家里有电脑的学生,不仅自己的操作比较熟练,还能经常帮老师辅导其它学生,下课时帮忙关机,整理机房。学生基本上

网上获取信息的方法

广东省佛山市高明区沧江中学 “在因特网中获取信息”教学设计 广东省佛山市高明区沧江中学 授课人:赵建初 二〇一〇年一月二十五日

《在因特网中获取信息》教学设计 佛山市高明区沧江中学 赵建初 教学目标知识目标 ○1让学生了解在Internet上搜索信息的意义,了解搜索信息的基本 方法,掌握门户网站的使用方法; ○2使学生掌握从网上下载图片、下载网页的方法; ○3内化学生的知识结构。 能力目标 ○1培养学生在网上迅速搜集信息、保存信息、整理信息的信息素养; 扩大学生的知识面、丰富学生的内涵。 ○2培养学生协作学习、与人合作的意识; 情感目标 陶冶学生的情操,激发学生的爱国热情。 教学 重点会利用Internet查询、收集信息 教具 多媒体网络教室(一人一机) 教学结构教师:任务呈现→指导、咨询→考察学习情况 ↓↓↓交流评价讨论学生:接受任务→利用网络自主协作学习→反馈→利用素材 完成任务 教学过程

教师活动学生活动达到目标 一、情境导入 播放一段从Internet 中搜索的有关“神六”的两名宇航员在太空中的生活情境来引入本节课的内容。学生观看影片 激发学生的上网兴趣,引导 学生自动的上网搜索信息。 二、提问:“神七”的 发射时间、地点。先让学生自己利用因特网查找。 互相讨论、自已探索查找 信息的方法 培养高中生的自主探究能力 与协作精神。 三、提问学生刚才都用 了什么方法进行查找,然后老师做总结并进一步讲解搜索引擎的使用及关键词。 学生回答老师的问题 并边听老师的总结,边做笔 记 使学生初步掌握了搜索引擎 的使用方法。 四、要求学生分组查找有关神舟一号、二号、三 号、四号、五号的相关信息(并填入“神舟之路”word文档中);看看哪个组查的最快最准。 各组之间应合理分工,积 极利用Internet进行查找 考察学生的掌握程度和拓宽 学生的视野,了解我们国家的时 事政治,丰富学生的内涵。 五、分析表中的信息并找出其中的规律。 在word中利用表格来整 理信息,考虑其中有什么规 律 使学生的知识前后融会贯 通,并培养学生的观察问题、分 析问题的能力。

相关文档
相关文档 最新文档