文档库 最新最全的文档下载
当前位置:文档库 › 信息检索原理与技术考试大纲重点整理培训讲学

信息检索原理与技术考试大纲重点整理培训讲学

信息检索原理与技术考试大纲重点整理培训讲学
信息检索原理与技术考试大纲重点整理培训讲学

《信息检索原理与技术》

第1章信息检索概论

(1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。

(2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。

(3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。

(4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。

(5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。

(6)文献的特征:知识性(文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着)

(7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。

(8)文献信息流有序化阶段的三个环节:

①替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。

②改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。

③综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。

文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。

(9)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。

(10)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。

(11)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。

(12)信息检索的一般原理:P7

(13)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)

(14)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。

(15)检索系统的功能:报道功能、存储功能、检索功能。

(16)信息检索理论:标引理论、检索模型、检索结果的可视化。

(17)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。

第2章信息检索模型

(1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。

(2)信息检索模型的类型:P18

(3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。

(4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)

(5)布尔运算的运算次序:P24

(6)传统布尔检索模型的优缺点:

优点:1)逻辑运算符较少,便于用户学习。2)模式较易构造,可以通过简单的关系来体现检索项的联系。

3)可以将复杂的检索过程以简单的检索式表达出来。4)检索提问式较灵活,方便修改。

缺点:1)布尔检索中的关键词没有权重区别。2)检索结果分输出没有重要性是排序。3)查全率很难控制。

4)布尔检索要求用户具有很高的素质和语义提取能力。

(7)向量空间模型:一种基于统计学方法的数学模型。

(8)向量空间模型的工作原理:P27

(9)向量空间模型的优缺点

优点:1)采用自动标引技术与文献提供标引词。

2)采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。

3)改变了布尔检索只有两种情况0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。

4)由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。

5)检索结果可以按照与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。

6)布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。

7)向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。

缺点:1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。

2)由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。

3)由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。

4)有很多是假定的,在实际工作中有时会不能解决。

(10)扩展布尔检索模型:P31

(11)扩展布尔检索模型的工作原理:P32

(12)扩展布尔检索模型的优缺点:

优点:拥有矢量处理的思想,体现了加权的特点;继续保留布尔检索的直观的操作符,具有很强的描述能力;对于输出结果可以很好的控制和排序;通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;与传统倒排文档一致,更易接受。

缺点:扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。

(13)概率模型:一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。

(14)贝叶斯定理:P37

(15)概率模型的优缺点:

优点:文档可以按照他们相关概率递减的顺序来计算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。

缺点:索引词权值计算方法没有考虑到词频加权因素。沿用了索引词之间相互独立的基本假设。开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。

(16)概率模型在处理实际问题时的困难:初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。

(17)古典逻辑模型的特点:1)逻辑模型不是一个经典模型。2)逻辑检索要借助外部信息进行评价。3)逻辑检索对关键词的语境更加重视。4)对信息的联想法控制。5)逻辑检索具有不确定性。6)对多词一义的把握。7)适应信息的不完全性。

(18)逻辑模型的优点:逻辑理论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、

(19)逻辑模型的缺点:在逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。基于实质蕴涵的情报检索古典逻辑模型自然也并不能完全表达出文献d与信息需求q之间的真实联系。它关注的仅是前后件之间在真假方面的逻辑关系,而并不关心前件和后件中所涉及的信息延展性问题。由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。

(20)限词检索模型:通过限制检索范围,达到优化检索结果的方法。

(21)字段检索:把检索词限定在某个或某些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。

第3章自动索引和文档组织

1、索引:著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名称,并把它们按照一定的方式编排起来,指明出处是一种检索工具。

2、索引的发展历程:人工索引阶段、机辅索引阶段、自动索引阶段

3、索引的功能:检索功能、分解功能、梳理功能、聚类功能、追踪功能、导航功能、预测功能

4、常见索引的类型:主题索引、著者索引、名称索引、地名索引、题名索引、数字或代码索引、分类索引

5、索引的过程:为了方便查询而对信息指定索引款目的过程。包括信息采集、信息标引、建立索引。

6、索引建立的步骤:选题,建立主索引文件;对主索引关键词进行抽词倒排,建立目标格式文件;排序与归并。

7、信息标引分为受控标引和自然语言标引。受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标引和主题标引;自然语言标引是指采用自然语言语词作为标识来表达主题概念的标引方式。

8、分类标引:依据一定的分类语言,对信息资源的内容特征进行分析、判断和选择,赋予分类标识的过程。

9、分类标引的要求:准确性、充分性、一致性、适用性。

10、分类标引规则:基本标引规则、一般标引规则、特殊标引规则。

11、主题标引:对信息内容进行主题分析、确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。

12、标引方式:根据文献或信息特点和使用需要确定的标引和揭示主题的形成。包括整体标引、全面标引、对口标引、综合标引和分析标引等。

13、标引方法:标题法、元词法、叙词法。

14、标引规则:

(1)选用标引词的基本规则:正式词标引规则;相对专指标引规则;标引方案优先顺序规则;适度标引规则;一致标引规则

(2)叙词组配标引的基本规则:叙词组配必须是概念组配;组配结果要求所表达的概念清楚;叙词组配中要注意次序。

15、自然语言标引:是一种采用自然语言作为标识表达主题概念的标引方式。

16、汉语语词的切分方法:词典分词法、切分标记的分词法、基于语法语义理解的分词方法、基于神经网络的分词方法。

17、自动标引:指利用计算机从各种文献信息中自动提取有关标识的过程。

18、层次聚类法:依据一种事先决定的相似性或非相似性度量和类间距离,经过计算建立聚类图,在根据聚类图决定分类结果。

19、文献自动分类:指首先分析被分类对象中的特征,将其与各种类别中对象所具有的共同特征或一定的分类标准、分类参数进行比较,然后将被分类对象划归为特征最相近的一类,并赋予相应的分类好的过程。

20、自动分类的基本流程:文本的预处理、文本特征的选取、分类模型的构建等。

21、决策树:P82

22、顺排文档(主文档):按照某一属性(字段)的字符顺序存入了数据库的全部记录。

23、顺排文档的检索:将用户检索表达式与顺排文档中的文献记录依次比较,就可以判断是否有匹配的文献记录。检索可以使顺序检索,也可以使分块检索和折半检索。

24、顺排文档组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护。但在查询的时候需要对所有的文档进行扫描以确保没有遗漏,这样就使得检索时间大大延长,检索效率低下。

25、倒排文档:将主文档中的可检字段(如主题词、著者)抽出,按某种顺序重新排列起来所形成的一种索引文档。

26、倒排文档的建立:索引词选择;对抽出的内容进行排序,便于归并相同内容;对相同内容进行归并,把合并后的内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。

27、倒排文档的更新:P86

第4章词汇控制

1、词汇控制:通过对词形、词义和词间关系等的控制,达到信息源语言、标引语言和检索语言三者之间的有效沟通,从而实现信息的有效组织以及用户对信息的有效检索和利用。

2、词汇控制的原则:正确性、单义性、简明性、兼容性、系统性、稳定性、族性

3、词汇控制的内容:

(1)词量控制:对词表所收词汇的数量的控制。

(2)词量控制的方法:词汇组配、词汇替代、语义分解法、词汇合理选择

(3)词类控制:对词表所收词汇的种类的控制。

(4)词类控制的方法:确定选词范围、设置停用词表

(5)词形控制:根据主题标引和检索的需要对字面形式不同,但含义相同的词汇加以控制使一个主题概念只具有一个语词形式。

(6)词形控制的方法:控制语词形体、控制外来语和数字的用法、控制外文的词形、控制词序、控制语词长度。

(7)词义控制:对多义词或同形异义词加以控制,使其意义明确,含义单一。

(8)词义控制的方法:加限义词、加注释、加定义

(9)词间关系控制:对语词之间的等同关系、属分关系和相关关系等加以控制,以形成一个便于揭示词间关系的语义网络。

(10)先组度控制:对语词先组程度的控制。

(11)句法关系控制:按照事先确定的句法关系,把若干词汇组合起来表示某一特定的论题,以避免产生语义含混的现象。

(12)句法控制的方法:P94

4、词汇控制工具包括分类词表、主题词表、分类主题一体化词表。

(1)分类词表:《杜威十进分类法》、《国际十进分类法》、《冒号分类法》、《中国图书馆分类法》

(2)主题词表:《医学标题表》、《汉语主题词表》

(3)分类主题一体化词表:是指分类系统与主题系统实现完全兼容,既能充分发挥各自特有的功能,又能互相配合,发挥最佳的整体效应。

5、词表评价体系:P115

/6、受控词表的使用:P119

第5章自动文摘技术

(1)文摘:用浓缩、简明的短文,描述信息载体的主要内容和原始数据,向使用者报道、传递最新信息和信息查询线索的一种工具。

(2)自动文献:利用计算机自动地从原始文献中提取文摘。按照文本分析方法的不同,自动文摘分为基于统计分自动文摘、基于理解的自动文摘、基于结构的自动文摘、基于模板的自动文摘。

(3)自动文摘的处理过程:第一步是文本分析,这个阶段是自动文献的基础,主要是寻找最能代表原文内容的成分;第二步是转化过程,通过摘录或概括的方法压缩原文;第三步是重组原文内容,生成文摘。

(4)基于统计的自动文摘(摘录型文摘):根据统计学的方法将权重高的句子作为文摘句。不足:摘要内容不完整;摘要内容不简洁;语句不连贯。

(5)基于统计的自动文摘一般步骤:待摘文本信息录入;词频信息统计;计算句子权重;选取候选句子;加工生成摘要。

(6)基于理解的自动文摘:建立在人工智能、自然语言处理的基础上的,它利用语言学知识对文字进行复杂的语法分析,语义分析和语用分析,获取语言结构,还利用相关学科领域知识进行分析、推理和判断,最后生成文摘。优点:简洁精炼、全面准确、可读性强。不足:语料范围限制;框架的拟定。P136

(7)基于理解的自动文摘步骤:待摘文本信息录入;文本分析(语法分析、语义分析、运用分析和信息提取);文摘初稿形成。

(8)基于结构的自动文摘;:将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句子即可侯成摘要。

(9)基于结构的自动文摘不足:P140

(10)自动文献的评价P140

(11)自动文献技术的研究进展P147

第6章用户接口

(1)用户接口,全称是系统-用户接口,又称用户界面、人机界面或人机接口,是指用户使用计算机系统的综合操作环境,它是由人、计算机硬件和软件三者结合而成,承担用户与系统之间的交流功能,是两者之间实现通信不可缺少的模块。

(2)用户接口模块流程:识别用户;接收提问;提问校验;转化问题;检索;输出结果。

网络信息检索及其检索工具

摘要 进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。 网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。 关键字:网络信息检索;检索工具;因特网;web资源检索

目录 摘要 .......................................................................................................................................... I 1 信息检索的定义. (1) 2网络信息检索简介 (1) 2.1网络信息检索定义 (1) 2.2 网络信息检索的原理 (1) 2.3网络信息检索与传统信息检索的区别 (2) 2.4网络信息检索技巧 (2) 3网络信息检索工具类型 (3) 3.1非web资源检索工具 (3) 3.2web资源检索工具 (3) 4网络信息检索工具的功能 (4) 5网络信息检索展望 (5) 5.1网络信息检索的展望 (5) 5.2网络信息检索工具展望 (5) 参考文献 (6)

浅谈网络信息检索及其检索工具 1 信息检索的定义 什麽是信息?信息是消息,人们在学习、工作、日常生活中随时随地都在接受和利用信息;信息是资源,它具有使用价值和价值;信息是财富,且是无价之财富;信息是生产力要素,更是一种不可估量的促进生产力发展的新动力。因此,人类社会的发展,科技技术的进步,都离不开信息资源的开发和利用。而且,信息资源的真实状况及开发利用程度,已经成为衡量一个国家经济、文化、科技以及综合国力的重要指标。我们怎样快速的查找信息和有序的整理信息?信息检索是最快的途径。 信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。 2网络信息检索简介 随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。 2.1网络信息检索定义 网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。 2.2 网络信息检索的原理 网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。 (1)布尔逻辑模型——这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询

信息检索原理与技术资料整理

信息检索原理与技术 资料整理 华中师范大学 信息检索原理与技术

第一章信息检索概论 1.1信息检索基础简述 1.信息:事物发出的信号所包含的内容。 2.知识:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于 事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。 3.知识的分类: ①“知事”(know-what):指关于事实方面的知识,也可理解为know-when、know- where,即在什么样的时间(know-when)、什么样的地点或条件下(know-where) 能解决什么样的问题。 ②“知因”(know-why):指自然原理和规律方面的科学理论,知识的产生是在专门研 究机构如实验室和大学完成的。 ③“知道怎样做的知识”(know-how):指做某些事情的技艺和能力,被称为技术情报 和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。 ④“谁以及是怎样创造知识的”(know-who):侧重对创造思想、方法、手段、过程及 特点等的了解。 4.文献:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。 构成三要素:①构成文献内核的知识信息 ②负载知识信息的物质载体 ③记录知识信息的符号和技术 特点:知识性(本质)、传递性、动态性。 分类标准: 内容加工程度划分: ①一次文献信息:指作者以自己的研究成果为基础创作和撰写的、未经过加工的原始 文献。 ②二次文献信息:指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书 目信息,它具有汇集性。 ③三次文献信息:是对一次、二次信息综合、分析等深加工的产物,如评论、进展报 告、评述、百科全书、年鉴、指南、期刊书目等。 载体形式划分:书写型、印刷型、缩微型、声像型、机读型五大类。 5.文献信息链:文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再创造, 直至产生新知识,是一个不断演进的运动过程。 6.信息、知识和文献三者之间的关系(重点):信息>知识>文献 信息、知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的; 知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的; 文献是知识的一部分,是进入人类社会交流系统的运动着的知识。 具体来说,三者之间的关系为:信息>知识>文献。

百度搜索引擎工作原理

以及其他信息。 搜索引擎基本工作原理

与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注),在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。 百度谷歌 编辑 查询处理以及分词技术 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

网络信息检索与利用参考试题与答案

网络信息检索与利用 一、名词解释题: 网络信息资源:是将文字、图像、声音、动画等各种形式的信息,以数字化形式存储并借 助计算机与网络通讯设置发布,收集、组织、存储、传递、检索和利用信息资源。www:信息检索 数据库:是至少有一个文档组成并能满足某一特定目的或某一特定数据处理系统需要的一 种数据集合。 联机检索:指用户利用计算机联合通过通讯网络与世界各地的信息检索系统联机,从检索系统的数据库中查找出所需信息的过程。它允许用户以智能机对话,联机会话,这样交互的方式直接访问检索系统及数据库、检索是实时在线进行。 查全率:是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的 比例。 查准率:是指检出文献中合乎需要的文献的数量占检出文献的全部数量。 关键词:关键词又称自由词,它属于自言语言范畴。关键词是直接来自文献本身,能够反映文献主题概念,具有实际检索意义的词语。以搜索引擎为代表的基于关键词的检索工具能够利用全文索引技术。 布尔逻辑检索:又称布尔代数是指使用,and,or,not等运用符,查找含有某种词语特定 主配形式的网页。 搜索引擎:是一个可以用文件名查找文件的系统。 元搜索引擎:是一种基于搜索引擎的网络检索工具。它是将多个搜索引擎集合在一起,通过一个统一的检索界面接收并处理用户的查询提问。在进行检索时调用一个或者多个独立搜索引擎的数据库。 桌面元搜索引擎:顾名思义,桌面元搜索引擎不是通过网上调用方式在线使用,而是直接在用户的计算机上进行,相当于用户自己拥有一个元搜索引擎,所以称之为桌面元搜索引擎。 All-in-One式元搜索引擎:又称搜索引擎元目录,它将主要的搜索引擎集中起来,并按类 型或检索问题等编排组织成目录帮助导引用户根据检索需求来选择适用的搜索引擎。联 合书目数据库:联合目录是揭示报道若干个文献收藏单位的文献入藏情况,汇总若干个单 位馆藏的书目信息的目录。 参考信息:是指人名、地名、机构、事件、统计数据等一类数据,事实信息,是人们的工 作研究和日常生活中经常要查考、引用的信息。 二、简答题和论述题: 1. 网络信息资源的种类分哪几种? 答:可分为五种:1.web信息资源。其中有www有关的重要概念:(1)超文本传输协议HTTP(2)超文本标记语言HTML(3)通用资源定位程序URL(4)主页(home page)(5)链接(link)(6)浏览器 2.Telnet:是通过远程登录后,可以访问共享的远程系统中的资源。 3.FTP信息资源,是因特网适用的文件传输协议。 4.用户组信息资源,是有一

《信息检索工具的工作原理》教学设计

《信息检索工具的工作原理》教学设计 江苏省盐城市滨海县獐沟中学汤凤池 【教材分析】 本节课教材是《网络技术应用》选修教材第一章第三节因特网信息资源检索的第二部分。在高一信息技术必修教材中已经对网络检索,搜索引擎内容有初步涉及。本节内容旨在让学生了解搜索引擎工作原理,知识相对来说抽象,不易理解。因此选择理论和实践结合的方法,通过对预设情境任务的完成结合教材内容理解相关概念。“兵”教“兵”的模式确保了学生作为学习主体所发挥的作用。 【学情分析】 现在的高二学生经过了高一年级一学期的信息技术学习,对搜索引擎的概念已经有所了解,再加上目前计算机和网络的普及程度,绝大多数学生使用网络搜索自己想要的信息已经是很平常的事情了。但不排除在部分信息建设滞后的地方读初中的学生对网络了解的不足,因此本节课既要照顾到已经对网络搜索熟悉的同学,也要注意那些相对来说不熟悉网络的同学的掌握情况。 【教学目标】 知识与能力:在学生能够熟练掌握网络检索工具的基础上了解网络搜索引擎的基本工作原理,能够了解全文搜索引擎和目录搜索引擎的概念和特点 过程与方法:使用小组模式,采用“兵”教“兵”的形式,让熟悉网络搜索的同学去带那些平时很少上网的同学,同时小组间采用竞赛的形式来激发学生的积极性, 教师做适当的讲解引导。 情感价值观:培养学生团结互助的小组协作精神,并强化公平竞争的理念。 【教学重难点】 搜索引擎的基本原理,全文搜索和目录搜索的区别和应用 【教学方法】 任务驱动小组竞赛 【教学过程】 一、导入 我们已经可以用网络搜索引擎来检索需要的信息了,但是用了这么久的网络搜索,网络搜索引擎的原理是什么呢?这就是本节课我们一起学习的内容。 二、全文搜索引擎的工作原理 学校要建立一个主题网站,但是缺少相关的材料。 任务一:使用全文搜索来查找“我们学校”的相关资料。 任务要求:必须使用指定全文搜索引擎(百度,谷歌),每位同学至少独立搜索一项相关信

王乃成信息检索工具的工作原理

课题:信息检索工具的工作原理 课型:新授课 课时:1 课时 教学目标: 1.了解常用的英特网信息检索工具类型;能描述信息检索工具的基本工作原理和特点。 2.体验因特网信息检索工具的优缺点。 3. 掌握常用因特网信息检索工具的使用方法,能熟练使用信息检索工具获取所需信息。 内容分析: 本节为“因特网信息资源检索”中的重点部分,介绍了全文和目录索引类搜索引擎的工作原理,这是学习的重点。教材中通过搜索奥运信息的例子来说明在网上检索信息的过程, 以达到简化原理、帮助学生理解的目的。教学中应尽量选取贴近生活的例子来说明复杂的工 作原理,降低难度,以提高学生的检索能力为最终目的。 教学过程: 1.情境引入 已搜索一首歌曲为基础,提出问题:同学们想像一下信息检索工具该如何工作呢?有几种方法能达到,让学生们互相讨论,并展开对比讨论,选出最恰当的方法。 2.教学过程 方法一:全文搜索引擎的工作原理 (1)提出问题 ①去超市购买一枝钢笔的过程。 购物→描述商品特征→取货→交给顾客 ②利用全文搜索引擎查找夏季奥运会的由来,并观察操作的一般过程。如图 1-1 ~ 1-3 所示。 图 1-1 百度检索首页

图 1-2 百度检索结果页面 图 1-3 百度检索答案举例页面 总结 全文搜索引擎检索信息的过程: 搜索关键字或词→数据库中检索→搜索结果。 (2)通过上述范例引申 从专业的角度拓展给学生讲解搜索引擎的组成。 ①搜索器:负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持 续不断地抓取网页。 ②索引器:把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器 的数据库中。 ③检索器:面向用户,接收用户提交的查询字串,在索引数据库中查询,并将结果 反馈给用户。 巩固练习:搜索江苏省2012年高考方案 进一步总结,得出全文搜索引擎的工作包括三个过程。 ①搜索器在因特网中发现、搜集网页信息。 ②索引器对所搜集的信息进行提取和组织,并建立索引库。 ③由检索器根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查询内容的相关比较,对检出的结果进行排序,并将查询结果返回给用户。 方法二:目录索引类搜索引擎的基本工作原理 (1)提出问题 ①如果去学校图书馆借阅“短篇小说集”,该怎么去做,描述一般过程。 借阅图书→找书目→找相应书籍→从书架拿出 ②利用目录类搜索引擎查找“北京大学”的信息,如图 1-4 ~ 1-7所示。

网络信息检索期末考试试卷及答案

绵阳师范学院历史文化与旅游管理学院 第一部分(基础知识部分,共三大题,共60) 一、填空题(每空1分,共30分) 1 ?信息是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。 2. 知识是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。 3. 情报是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。 4. 文献是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。 5 ?会议文献是指在国内外学术或非学术会议上发表的论文或报告。 6 ?学位论文是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。 7.著录是对文献内容和形式特征进行选择和记录的过程。 8 ?数据检索是指特定的数值型数据为对象的检索。 9. 在印刷型资源时代,事实与数据检索工具主要依靠各类参考工具书完成各种数据或事实的查询。 10. Internet 是基于TCP/IP协议的网络。 11. 二级域名https://www.wendangku.net/doc/7e2173345.html,是指教育机构。 12. 目前WW环境中使用较多的网页浏览器有Microsoft公司的IE浏览器和360公司的360安全浏览器。 13. 每种网络信息检索工具一般由信息米集子系统、数据库和检索代理软件三部分组成。 14. 大多数搜索引擎允许用户使用布尔逻辑运算符,以及与之对应的: “ +”表示限定搜索结果中必须包含的词汇,“-”表示限定搜索结果中 不能包含的词汇。 15. 一些搜索引擎提供了按链接和网域等进行搜索范围的限制,比如, 用site表示搜索结果局限于某个网站。比如,用in title 表示到某个URL地址指定的网页标题内进行检索。比如,用UnJ表示到某个URL地址指定的地址内进行检索。 16. 搜索引擎中,在普通查询词前面加一个filetype 表示对文档类型限定。或例如:访问百度文档的地址也可以达到此效果,它的网址是: https://www.wendangku.net/doc/7e2173345.html,/ 17. CNKI数据库下载的全文格式很多,如:caj,pdf,nh,caa,kdh 需要下载安装CAJViewer全文浏览器软件或亚全文浏览器软件才能阅读这些资源。 18 .维普资讯网的高级检索中,查询语句“ K= (CAD+CAM*R=a械”表示的意思是查找文献或文摘中含有“机械”,并且关键词中含有CAD或CAM勺文献或文摘 19. OPAC中文或者英文的解释是联机图书馆公共检索目录 20. 国内提供电子图书服务的网络站点很多,常用的有书生之家数字图书馆、方正Apabi数字图书馆、中国数字图书馆等。 二「单项选择题(每题1分,共20 分) 1. 下面哪项不是情报构成的三 要素之一( D ) B .经过传递 D.通过购买获取 B?最主要的信息资源 D.按知识门类或专题组织、浓缩而 A ) o A. 期刊文献 B.科技报告 C?专利文献 D.学位论文 4. 报纸区别于其它文献的特征是( B )o A. 创新性 B.及时性 C.学术性 D.全面性 5. 有法律约束力和一定的时效性,经权威机构批准的规章性文献是 (A )o A.标准文献 B.学位论文 C?档案文献 D.科技报告 6. 一般存在相应二次文献的是( A ) A.期刊 B.产品样本 A.本质是知识 C?经过用户使用产生效益 2. —次文献是(A )0 A.最原始的信息资源 C.对文献的集中提炼和有序化 成 3. 下面哪一项是白色文献(

信息检索工具

浅谈信息检索工具

————————————————————————————————作者:————————————————————————————————日期: 2

摘要 文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。 关键词:信息检索工具、技术、评价标准、发展趋势 Abstract Post by information retrieval and analysis of development, and expounds a number of commonly used information retrieval tools and related technologies.Then used the information retrieval tools to do a brief evaluation, and then discuss the status of information retrieval tools and trends. Keywords: information retrieval tools, techniques, evaluation criteria, trends

第一章信息检索分析及发展状况 步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。然而网上的信息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。 信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。 1.1从传统检索到信息分析 目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,从而使传统检索信息向信息分析层次发展。例如,在ISIWeb of Science检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:①按照论文发表时间进行分析,了解不同时间阶段课题研究的状态;②按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;③按照机构分析,了解领域的主要研究机构;④按照作者分析,了解该领域的核心研究人员;⑤按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;⑥按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。很显然,通过对检索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解。 1.2信息检索的发展状况 信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。 目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化。 传统检索技术与网上检索技术的比较 传统检索技 网上检索技术 术

网络信息检索的工具

致力于打造高品质文档 网络信息检索的工具 [摘要] 搜索引擎是人们使用Internet信息资源的重要工具。本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。[关键词] 信息检索中文搜索引擎存在的问题发展方向 随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。一、搜索引擎的概念和及类型 搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。 目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。 1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。 2.机器人搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百度,google、天网为代表。它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。 机器人搜索引擎具有庞大的全文索引数据库。其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。 3.元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定影响的中文元搜索引擎。 二、现阶段中文搜索引擎存在的主要问题 1.信息覆盖面有限。现阶段搜索引擎所覆盖的数据库的规模是非常有限的,据美国科学期刊Natures一篇报告中称,全球最大的搜索引擎也只能覆盖现有网页的16%。中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部网络信息的5%)等原因在这方面尤为突出。 2.查全率不高。查全率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比,是判断检索系统质量的度量之一。

网络信息检索期末考试试卷及答案

绵阳师范学院历史文化与旅游管理学院 一、填空题(每空1分,共30分) 1.信息是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。2.知识是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。3.情报是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。 4.文献是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。 5.会议文献是指在国内外学术或非学术会议上发表的论文或报告。6.学位论文是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。 7.著录是对文献内容和形式特征进行选择和记录的过程。 8.数据检索是指特定的数值型数据为对象的检索。 9.在印刷型资源时代,事实与数据检索工具主要依靠各类参考工具书完成各种数据或事实的查询。 10.Internet是基于TCP/IP协议的网络。 11.二级域名https://www.wendangku.net/doc/7e2173345.html,是指教育机构。 12.目前WWW环境中使用较多的网页浏览器有Microsoft公司的IE浏览器和360公司的360安全浏览器。 13.每种网络信息检索工具一般由信息采集子系统、数据库和检索代理软件三部分组成。 14.大多数搜索引擎允许用户使用布尔逻辑运算符,以及与之对应的:“+”表示限定搜索结果中必须包含的词汇,“-”表示限定搜索结果中不能包含的词汇。 15.一些搜索引擎提供了按链接和网域等进行搜索范围的限制,比如,用site表示搜索结果局限于某个网站。比如,用intitle表示到某个URL地址指定的网页标题内进行检索。比如,用link表示到某个URL地址指定的地址内进行检索。 16.搜索引擎中,在普通查询词前面加一个filetype表示对文档类型限定。或例如:访问百度文档的地址也可以达到此效果,它的网址是:https://www.wendangku.net/doc/7e2173345.html,/ 17.CNKI数据库下载的全文格式很多,如:caj,pdf,nh,caa,kdh 需要下载安装CAJViewer全文浏览器软件或Vip全文浏览器软件才能阅读这些资源。 18.维普资讯网的高级检索中,查询语句“K=(CAD+CAM)*R=机械”表示的意思是查找文献或文摘中含有“机械”,并且关键词中含有CAD或CAM的文献或文摘 19.OPAC中文或者英文的解释是联机图书馆公共检索目录 20.国内提供电子图书服务的网络站点很多,常用的有书生之家数字图书馆、方正Apabi数字图书馆、中国数字图书馆等。 二、单项选择题(每题1分,共20分) 1.下面哪项不是情报构成的三要素之一( D )。 A.本质是知识 B.经过传递 C.经过用户使用产生效益D.通过购买获取 2.一次文献是( A )。 A.最原始的信息资源B.最主要的信息资源 C.对文献的集中提炼和有序化D.按知识门类或专题组织、浓缩而成 3.下面哪一项是白色文献( A )。 A.期刊文献B.科技报告 C.专利文献D.学位论文 4.报纸区别于其它文献的特征是( B )。 A.创新性B.及时性 C.学术性D.全面性 5.有法律约束力和一定的时效性,经权威机构批准的规章性文献是(A )。 A.标准文献B.学位论文 C.档案文献D.科技报告 6.一般存在相应二次文献的是( A )。 A.期刊B.产品样本 C.档案 D.报纸 7.常见的事实和数据检索工具书不包括( D )。 A.百科全书B.年鉴

4文献检索的原理方法与步骤1

重点:文献检索的方法步骤 难点:文献检索原理 授课内容:第四章文献信息检索原理及方法步骤 4.1 检索原理 文献检索包含文献的存储与检索两个部分,对用户而言,后者更为重要。只有经过组织有序的信息集合体才能提供检索的途径,才有用于检索的功能。文献的编排、组织与检索查询有对应的关系,因此了解一个文献系统的组织方式也就找到了检索的根本方法。 ⑴检索点:每件信息都包含有其内部及外部特征(即信息的属性),文献与课题的主要特征信息可以用来作为检索的出发点和匹配依据,它们称作检索点(access point),这些检索点包括分类、主题、著者、题名、机构名称、代码等。 ⑵检索手段:检索是通过检索工具(系统)和检索方式方法来实现的。无论是用手工检索书本式的工具,还是用计算机检索数据库获取文献资料,都有分类、主题、代码等多种检索途径。 ⑶检索系统:包含网络条件、技术设备(存储服务器、计算机)及文献信息集合体(数据库)。 检索系统按存储的媒体和技术手段来分,检索系统有两种:手工检索工具(印刷型的检索性刊物与参考工具书)和计算机检索系统(各种数据库)。

文献存储和检索原理:是使用户的课题提问标识与检索系统中的信息特征标引标识尽相一致地选择与匹配。如图1—3: 图6—1 信息用户的需求和信息集合的比较与选择,即匹配的过程。从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则指出(命中)相关信息。 各种检索系统的检索原理基本相同。简单地讲,就是检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。 信息检索的全过程包括存储和检索两个过程。存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。具体来说,信息的存储包括对信息的著录、标引以及编排正文和所附索引等。所谓信息的著录是按照一定的规则对信息的外表特征和内 容特征加以简单明确的表述。信息的标引是就信息的内容按一定的分类表或主题词表给出分类号或主题词。检索过程则是按照同样的分类表(或主题词表)及组配原则分析课题,形成检索提问标识,根据存储所提供的检索途径,从信息集合中查获与检索提问标识相符的信息特征标识的过程。因此

信息检索知识点92382

信息检索考点整理 1.信息检索的概念 广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。 2.信息检索的原理 就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。 3.为什么说信息存储和检索是两个不可分割的有机体 检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。检索过程是存储过程的逆过程。因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。 4.信息检索的方法 (1)顺查法

(2)倒查法 (3)抽查法 (4)追溯法 (5)循环法 5.信息检索的途径 (1)内部特征途径 a)分类途径 b)主题途径 (2)外部特征途径 a)题名途径 b)着者途径 c)文献编号途径 d)目录检索途径 e)机构检索法 f)引文检索途径 6.布尔模型的优缺点 优点:(1)简单,形式简洁,易于理解; (2)可操作性强,应用广泛; (3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念; (4)能处理结构化提问。

信息检索原理与技术考试大纲重点整理培训讲学

《信息检索原理与技术》 第1章信息检索概论 (1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。 (2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。 (3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。 (4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。 (5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。 (6)文献的特征:知识性(文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着) (7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。 (8)文献信息流有序化阶段的三个环节: ①替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。 ②改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。 ③综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。 文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。 (9)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。

2.信息检索工具2018

信息检索工具2018 1、免费电子期刊按免费卷期范围不同可划分为全刊免费,()和少量文献免费三种类型 * ? A.过刊免费 ? B.并行出版刊 ? C.纯电子版免费期刊 ? D.试用期内免费刊 2、医学文献只有经过()后,才能进入检索系统,提供使用 * ? A.编排 ? B.编号 ? C.标引 ? D.分类 3、《中华内科杂志》在Medline光盘检索所得的医学文献著录格式中刊名形式是() * ? A.Zhong –hua– Nei– Ke– Za–Zhi ? B.ChungHua – NeiKo – TsaChih ? C.Zhonghua – Neike – Zazhi ? D.Chung – Hua – Nei – Ko – Tsa – Chih 4、搜集2018 年的哪种类型的信息最能表征未来一段时期的研究内容() * ? A.PubMed 收录的2018 年发表的论文 ? B.2018 年向美国国家专利与商标局申请的专利 ? C.美国国立卫生研究院(NIH)2018 年立项/启动的项目 ? D.中华医学会2018 年召开的学术会议 5、下列哪些方式不可以帮助筛选某个领域内的综述类、述评类或观点性文献() * ? A.文献类型为Review ? B.主题词组配副主题词trends ? C.文献类型为Clinical Trials

? D.标题中出现“the future of …”“Trends in …”的文献 6、中国图书馆图书分类法的分类号由() * ? A.字母与数字混合编制 ? B.纯数字编制 ? C.纯字母编制 ? D.数字分级编制 7、Medline收录的文献起源于()年 * ? A.1966 ? B.1978 ? C.1981 ? D.1990 8、索书号的组成是() * ? A.分类号和期刊号 ? B.标准书刊号和登录号 ? C.标准书刊号和书次号 ? D.分类号和书次号 9、CBMDisc中的有关中医方面的文献是按照()进行主题标引的 * ? A.医学主题词表(MeSH) ? B.中国图书资料分类法 ? C.中医药学主题词表 ? D.杜威十进制分类法 10、国内大多数大学图书馆采用的图书分类法是() * ? A.中国大学图书馆图书分类法 ? B.中国人民大学图书馆图书分类法 ? C.中国图书馆图书分类法

信息检索原理与技术考试大纲重点整理

信息检索原理与技术考试大纲重点整理

序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。 (1)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。 (2)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。 (3)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。 (4)信息检索的一般原理:P7 (5)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子

系统、查询子系统、用户与系统交互子系统、匹配子系统)(6)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。 (7)检索系统的功能:报道功能、存储功能、检索功能。(8)信息检索理论:标引理论、检索模型、检索结果的可视化。 (9)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。 第2章信息检索模型 (1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。 (2)信息检索模型的类型:P18 (3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。 (4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻

网络信息检索试题及答案1.

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有(C特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含(B: A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是(。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉

4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面(是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的(信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?(A A.文摘 B.会议文献 C.辞典 D.百科全书

8、“文章草稿”、“私人笔记”及“会议记录”属于(A。 A.零次文献 B.一次文献 C.二次文献 D.三次文献 9、下列选项中哪一项属于“国内统一刊号”(C。 A.ISBN7-04-014623-1 B.ISSN0254-4164 https://www.wendangku.net/doc/7e2173345.html,11-2127/TP D.0254-4164/TP 10、根据国标GB/T7714-2005规定,下面的横线上的信息是对(C参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL].(2001-12-19[2002-04- 15].http:∥www.….htm. A、标准文献 B、期刊(杂志 C、电子文献 D、会议文献 11、根据国标GB/T7714-2005规定,下面的横线上的信息是对(B参考文献的著录条目描述。

相关文档
相关文档 最新文档