文档库 最新最全的文档下载
当前位置:文档库 › 信息检索复习(名词解释)

信息检索复习(名词解释)

信息检索复习(名词解释)
信息检索复习(名词解释)

1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。

2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:

查全率=(检出相关文献量/系统中相关文献总量)*100%

3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:

查准率=(检出相关文献量/检出文献总量)*100%

4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:

漏检率=(漏检相关文献量/系统中相关文献总量)*100%

5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。

6、单库检索:在选定的单一数据库中进行检索。

7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。

8、相关度优先:和查询的条件内容最相关的文献优先排在前面。

9、最新论文优先:发表时间比较新的文献优先排在前面。

10、精确匹配:检索结果中包含与检索词完全相同的词语

11、模糊匹配:检索结果包含检索词或检索词中的词素

12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。

13、倒查法从最新时间查找起,直到满足检索要求为止。

14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。

15、二次检索是指在前一次检索结果的范围内,继续进行检索。

16、定题检索 SDI (selective dissemination of information)查找有关特定主题最新信息的检索。

17、回溯检索 RS (retrospective search)查找一段时期内有关特定主题信息的检索。

数据库的基本复习:

数据收录文献范围,有哪些数据库?

二、信息检索的原因

1、信息检索是获取知识的途径

2、信息检索是科学研究的向导

3、信息检索是终身教育的基础

信息检索语言与检索途径

(1)分类语言(2)主题语言(3)分类主题一体化语言(4)代码语言(5)引文语言

1、内容特征检索途径

(1)分类途径(2)主题途径(3)分类主题途径

2、外部特征检索途径

(1)责任者途径(2)题名途径(3)序号途径(4)引文途径

第二节事实数据信息的检索工具

一、字典、词典(辞典)二、百科全书三、手册四、年鉴五、名录

第三节文献检索工具简介

一、目录型检索工具;题录型检索工具;文摘型检索工具

第四节索引介绍

著者索引、主题索引(关键词索引)、分类索引、题名索引、其他索引

一、《 Ei Village 数据库》

Ei Compendex Web(EI 网络版)

INSPEC 是《科学文摘》(Science Abstracts ,简称SA)的电子版,

专利 (Patents): USPTO Patents 为美国专利和商标局的全文专利数据库。

Techstreet 标准 (Techstreet Standards)世界上最大的工业标准集之一

Scirus 是迄今为止因特网上最全面的科技专用搜索引擎

什么叫信息

在西方英文中 information 一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。

教材定义:信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。

信息具有以下特征:

(1)普遍性

(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。

二、ISI Web of Knowledge 平台信息资源组成

Web of Science

(WOS )

INSPEC

MEDLINE

Derwent

Innovations

Index ISTP(Index to Scientific & Technical Proceedings ISSHP(Index to Social Science & Humanities Proceedings Science Citation Index Expanded Social Science Citation Index Arts & Humanities Citation Index Index Chemicus(IC) Current Chemical Reactions (CCR) 3个引文数据库 2 个会

议论文引文数据库 2个化学数据库ISI Chemistry

(3)传递性

(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把图像转化成了数字。

(5)可再生性

(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少

(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。

(8)可存储性:信息是可以通过各种方法存储的。

二、信息检索

1、定义

(1)从通信的角度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。(2)从信息检索过程的角度认识信息检索,这种观点认为,信息检索就是查找出含有用户所需信息的文献的过程。

(3)从信息处理的角度认识信息检索:信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统文献的范围,图像、声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。

(4)从信息获取方式来认识信息检索分为:

直接检索:直接从信息源中获取信息,获取方式直接,但很难广、快、精、准地查到所需的全部信息(5)从实际检索工作的角度出发,对信息检索这样表达:

?广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。

?狭义:仅仅指信息查找的过程。即取的环节。

间接检索:通过信息检索工具或检查系统获取所需的信息。(本课程主要学习)克服了直接检索的缺点,在掌握一定检索技巧前提下可以较全面、准确、快速地检索到相关信息。

信息存储与检索流程图

信息检索(information retrieval):信息用户为处理解决各种问题,运用检索工具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。

2检索语言又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话的交流语言。

检索语言可划分为:分类语言、主题语言、分类主题语言、代码语言、引文语言等。

3检索工具

是用来报道、存储和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。

检索工具必须具备的条件:

(1)对所收录的信息资料的各种特征(包括外部特征和内容特征)要有详细的描述。

(2)每条描述记录都要标明可供检索用的标识,以便按某种方式将这些描述记录组织起来,为编织各种索引做准备。

(3)全部描述记录要科学地组织成一个有机的整体,使这些记录存放有序,方便存取。

(4)具有多种必要的检索手段以满足用户从多种角度查找信息的要求。

4、检索系统:

由一定的检索设备(如探针、选卡机、电子计算机等)和加工整理并存储在相应的载体(如穿孔卡片、磁带、磁盘等)上面的文档或数据库及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个子系统或模块构成,需借助专门设备进行检索。

穿孔卡片检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、网络信息检索系统

三、信息检索的发展

?1、第一阶段:完全手工检索阶段

?2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段

?3、第三阶段:计算机检索系统的发展阶段

?4、第四阶段:基于Internet 的网络化检索系统阶段

二、信息资源的分类:

1、信息源可分为自然信息源和社会信息源。

自然信息源广泛存在于自然界中,是物质运动和生物生存活动的结果。如山川、土地、气候、能源、动物、植物、微生物等,它们是人类生存最基本的自然环境和物质条件,是自然信息的发生源。社会信息源则存在于人类活动中,是社会的直接产物。无论是自然信息源还是社会信息源,其开发利用均在社会中进行,社会信息源是信息源的主体。

?2、按信息资源所依附的载体划分

?(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。

?(2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。

?(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。

?(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。

?3、按信息资源传递的范围划分:

?(1)公开信息资源:又称共享信息资源或白色信息资源(white information),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。

?(2)半公开信息资源:又称灰色信息资源(grey information),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。

?(3)非公开信息资源:又称黑色信息资源(black information),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。

4、信息可分为可检信息和不可检信息,自然信息均属于不可检信息。

三、文献信息资源

1、按信息资源所依附的载体的物质形态划分

(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。

(2)印刷型:其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。

(3)缩微型:如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。

缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。

(4)声像型:如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。

其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。

5)电子型:其优点是存储密度高,读取速度快,更新及时,并利用电子手段随时对内容进行增、删、改,可以高速度、远距离传递信息,具有交互性,便于信息交流和共享。

?电子文献种类很多,按出版类型划分有电子教科书、电子专著、电子工具书、电子杂志、电子报纸、电子版书目数据、计算机软件等。

?按电子文献载体形式划分其类型有磁性型文献、光盘型文献和网络型文献。

?按信息结构组织形式划分有文本型、多媒体型、超文本型及超媒体型。

2、按信息资源的加工深度和结构等级划分

(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。

(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。

(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。

(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。

一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。

总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无

组织到系系统化,由博而精的对知识信息进行不同层次的加工的过程。

3、信息的不同出版类型划分

(1)图书:包括专著、教科书、各种科普读物及专业参考工具书等,特点是:内容系统、成熟、定型、信息经筛选,可靠性强,出版周期长,更新速度慢,从检索角度,图书一般不作为主要检索对象。

(2)期刊:定期或不定期刊行的连续出版物,如杂志、年度报告、年鉴、丛书、学会的会议录、学报和纪要等,特点是:数量大、品种多,内容丰富多样、出版周期短、报道速度较快、发行、流通面很广泛,连续性强,伴随着相应的学科领域发展前进。职能:记录正式的公开的科学技术活动,传播科技信息的主要工具。

(3)科技报告:又称研究报告、报告文献。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。

特点:①反映新的科研成果迅速。②内容多样化。③保密性。④报告质量参差不齐。⑤每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。

(4)会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料。

会议文献的特点是传递情报比较及时,内容新颖,专业性和针对性强,种类繁多,出版形式多样。它是科技文献的重要组成部分, 同一会议上的文献论题集中、新颖、丰富、专深、学术性强,一般是经过挑选的,质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是了解各国科技发展水平和动向的重要文献来源。会议文献没有固定的出版形式,有的刊载在学会协会的期刊上,作为专号、特辑或增刊,有些则发表在专门刊载会议录或会议论文摘要的期刊上。一些会议文献还常常汇编成专题论文集或出版会议丛刊、丛书。还有些会议文献以科技报告的形式出版。此外,有的会议文献以录音带、录像带或缩微品等形式出版。

(5)专利文献:专利文献是各国专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。作为公开出版物的专利文献主要有:专利说明书、专利公报、专利文摘、专利索引和专利分类表等。特点是:内容具体、可靠、详尽,具有新颖性、创造性和实用性。能反映科学技术最新的水平,大量重复,增加用户信息识别和去掉重复的负担。

(6)技术标准和规范:对工农业产品和工程建设的质量、规格、参数及其检验方法等方面所作的技术灰顶,特点是:制定、审批有程序,适用范围明确专一,叙述严谨,可靠性和现实性,新陈代谢频繁。(7)政府出版物:政府出版物是由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的文献。可分两类:一类是行政性文献(包括宪法、司法文献),主要涉及政府法律、经济方面的国会和议会记录、议案、决议、司法资料、听证记录、法律、法令、规章制度、政策、调查统计资料等;另一类是科学技术文献,主要指政府部门出版的科技报告、标准、专利文献、科技政策文件,公开后的科技档案、经济规划、气象资料等。政府出版物的内容涉及人类生活的各个领域:政治、社会、经济、财政、工农业生产、教育、历史,也有自然科学和应用科学的各个领域。政府出版物是了解一个国家方计、政策、科学技术和经济、生活现状的权威性信息来源。

特点:政策性、综合性、指导性强,对经济、科技发展政策导向明显、可靠。

(8)学位论文:学位论文是指为了获得学位,要求被授予学位的人所撰写的论文。根据《中华人民共和国学位条例》的规定,学位论文分为学士论文、硕士论文、博士论文三种。

特点:质量参差不齐,内容专深,有独到见解,较难获取。

(9)产品资料:产品目录、产品说明书、产品样本等,是对产品的性能、结构、原理、用途、使用方法、技术规范及产品规格等进行描述或说明的文献。

特点:图文并茂,形象直观,出版及时,更新迅速,反映的技术信息可靠。

(10)技术档案:在生产或科研过程中形成的,是具体工程和研究对象的技术文件的总称,包括任务书、技术经济指标、研究计划、方案、试验设计、实验记录、调查材料、总结报告等应入档的资料。它是生产和科研中用以积累经验、吸取教训和提高质量的重要依据,具体较高的参考价值。技术档案有一定的

保密性,一般在内部控制使用。

(11)报纸:报纸指以刊载新闻和新闻评论为主,通常散页印刷,不装订、没有封面的纸质出版物。有固定名称,面向公众,定期、连续发行。现在多数报纸每日出版一次或数次,也有每周出版几次或每周出版一次的。特点:传播信息快,传播信息量大,现实感强,传播面广,具有群众性和通俗性,是重要的社会舆论工具和信息源。

附:美国四大科技报告(AD,PB,NASA ,DOE )

1、AD报告1951年开始出版。现由美国国防技术情报中心负责收集整理和出版。报告内容以国防部各个合同户的研究报告为主,其报告号冠以AD,A原先为Armed、D则为Document之意,现在则可理解为入藏报告(Accession Document)。统化,由博而精的对知识信息进行不同层次的加工的过程。

2、PB报告产生于二战结束之后,当时美国政府为了整理和利用从战败国获得的数以千吨计的秘密科技资料,于1945年6月成立了一个专门的出版局,即美国商务部出版局(Publication Board),负责收集、整理、报导利用这些资料

3、NASA报告是美国国家航空航天局NASA科技情报处编辑、出版的专业性检索刊物,它是检索航空航天科技报告的重要工具。

4、DOE 报告,是美国能源部DOE技术情报中心编辑出版的半月刊。收录能源部部属科研机构和各大学等一切与能源有关的科技文献,以科技报告为主。

一、按检索对象的内容区分:

(1)文献检索(document retrieval)

文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献,文献是一种相关性检索而非确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相关文献或文献的属性信息与来源指示供用户参考和取舍。所以其检索对象是包含特定信息的各种文献。

(2)数据检索(data retrieval)

数据检索是将经过选择、整理、鉴定的数值存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种确定性的检索,即直接提供用户所需要的确切数据。而且检索结果一般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查出数据,还提供一定的运算、推导能力。

例如,可以回答“某人生于何年何处”;“某年的国民生产总值”等。

(3)事实检索(fact retrieval)

事实检索是检索关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理论、方法、公式、事件等。

事实检索属于数据,因为事实也是一种数据,即非数值性数据。

二、按检索方式区分;

(1)手工检索:以手工操作的方式,利用检索工具书进行信息检索。手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。

优点:直观、灵活,便于控制检索的准确性。

缺点:查找比较复杂,检索速度慢,工作量较大。

(2)机器信息检索:主要是指计算机检索,是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。

按机器检索的处理方式分类,有脱机检索、联机检索;按照存储的方式分类,可分为光盘检索、网络检索。

优点:大大提高了检索效率和检索的全面性,而且拓展信息检索领域,丰富了信息检索的研究内容。

手检和机检的比较

?手检:检索点少,通常只有分类、主题、号码、著者等几个途径;查准率高,查全率低,直接性灵活性差,浏览功能强,检索效率低

?机检:检索点多:除虚词外的所有词汇;查全率高,查准率高,检索效率高;直接性灵活性好,浏览功能差

三、按检索对象区分:

(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至今占据主要地位。

(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。

?多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。

?在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。

四、按检索对象的信息组织方式区分

(1)全文检索(full text retrieval)

是将存储于数据库中的整本书、整篇文章中的任意内容找出来的检索。它可以根据需要获得全文中的有关章、节、段、句、词等的信息,也可以进行各种统计与分析。如某个词在文章中出现的次数。

以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。

(2)超文本检索(hypertext retrieval):

超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。

五、按检索要求区分:

(1)强相关检索:

强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。

(2)弱相关检索:

强调检索的全面性,向用户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。

?要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查全率和查准率。

六、按时间跨度区分:

(1)定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。

?其特点:只检索最新的信息,时间跨度小。

?定题检索在文献信息库更新时运行,即每当信息库加入新的文献信息时,就用根据用户检索需求拟定的提问检索一遍,查找出特定主题的最新信息,分析整理检索结果并以一定的方式提供

给用户。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。(2)回溯检索RS (retrospective search)查找一段时期内有关特定主题信息的检索。

?其特点是既可以查找过去一段时间的特定主题信息,也可以查找最近的特定主题信息。与每个定题检索需要多次运行不同的是,每个回溯检索一般只运行一次,从已有的文献信息库中查找出某个时间内特定主题的信息,并提供给用户。

?目前,用户利用最多的是回溯检索,但定题检索发展也很快,科研课题进行中需要定题检索,对企业来说,也非常需要利用定题检索获得和掌握市场的持续信息。

七、按检索途径的特点区分

(1) 常用法,工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为顺查,倒查,抽查

顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。

倒查方式则相反。从最新时间查找起,直到满足检索要求为止。

抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅文献发表的数量多,质量也高。

(2) 回溯法,引文法,利用文献末尾所附的参考文献或引文为检索入口,查找到越来越多的文献。但这种方法,查找到最后,查找到的文献与检索主题的相关性会越来越差。

(3)综合法,综合常用法和回溯法的检索方式。如先用一般检索途径,再利用原始文献后的参考文献作为检索入口,分阶段交替使用两种方法。

第一节信息检索语言与检索途径

一、定义

?信息检索语言(retrieval language)又称为情报语言、情报存储和检索语言、信息组织语言,是用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。

?信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于信息的组织和整序;用于对检索系统中索引标识或提问标识的规范和控制。

?不同的检索系统由于所覆盖的学科领域不同,包含信息资源类型不同,通常采用不同的信息检索语言(例如EI与CNKI所使用的分类语言);

?同一个检索系统往往也同时采用多种检索语言,以形成多种检索途径和角度。(例如:中国知网期刊文献与专利文献所使用的分类语言)

二、分类

1、根据结构原理划分

(1)分类语言

(2)主题语言

(3)分类主题一体化语言

(4)代码语言

(5)引文语言

(1)分类语言

?分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。

?①等级体系型分类语言:是一种最传统的分类语言,是一个直接体现知识分类和概念逻辑的标识系统。所有类目按照学科专业的等级、层次划分,一一列举,构成一个由总体到个体,由一般到特殊,由全部到局部的分类标识体系。这种结构符合人们通常的研究思维习惯,能保证较高的查全率。

目前我国广泛采用《中国图书馆分类法》(简称《中图法》)进行分类,该分类法由5大部类、22个大类组成

?2)主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、描述和整序,借用自然语言的语词,作为文献信息和检索提问的内容标示。

?特点:按特定的事物集中文献信息,有较强的直接性。

?构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。

①标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物--主题,并将全部标识按字顺排列。

?例:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语来叙述它的研究对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。

②关键词语言

关键词语言(keyword):以关键词(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。

关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然语言,属于受控语言。

③元词语言:以元词(从文献中抽选出来的,从字面上不可分割的表达最基本的概念单元的词汇)作为主题标识,通过字面组配来表达主题概念的

?例:“物理”、“贸易”就是元词

?“知识组织”就不是元词,而要拆分为:知识、组织

?元词语言创立了检索时进行组配的后组方式,可以用较少的词汇表达几乎无限的主题,但由于元词不象标题词那样采用词组或说明语搭配词语之间的组合关系,其仅为字面组配,因而利用元词检索时错搭配、假联系的现象在所难免,已被淘汰。

④叙词语言(descriptor):以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言,提高标引的专指性和检索的灵活性。

?叙词是经过规范化处理的以基本概念为基础的表达文献信息和检索提问的主题的词和词组。叙词语言对元词语言的单词组配原理,标题语言的词汇规范和参照系统,以及分类语言知识分类的方法进行了继承和发展。

?叙词语言的基本原理是概念组配,与元词语言的字面组配有本质区别。前者是词语概念意义的拆分和组合,其本质是语义层次上的组合,后者是词语字面的拆分和组合,其本质是字符层次上的组合。

?如:“儿童病理学”用元词为“儿童”和“病理学”

?叙词为“儿童”“消化系统病理”、“内分泌系统病理”、“呼吸系统病理学?叙词的组配,按照叙词意义之间的语义关系,存在如下几种类型:

? a.交叉组配:指两个或两个以上语义交叉的叙词之间的组配。

?例:“人工林”和“防护林”的组配表达“人工防护林”的主题

? b.限定组配:指将一个表示事物的叙词与表示事物属性、部分或方面的叙词进行组配。例如:“电

子计算机”和“存取速度”的组配表示“电子计算机的存取速度”

? c.组合组配:又叫并列组配,是指除上述两类叙词组配之外,任何两个或两个以上的叙词之间的组配。例如:“计算机”、“应用”和“图书馆”的组配表达“计算机在图书馆中的应用”

?叙词语言的特点是:

?规范性强,叙词语言事先进行规范化处理,列于叙词表中,标引和检索都从叙词表中选词,保证了标引和检索的一致性。

?利用叙词的组配,可使用有限的叙词表达各种复杂的主题,尤其是最新出现的主题。

?叙词语言从单元概念出发提示文献内容,有助于准确、全面地揭示文献的主题,提高标引深度和专指度。

?检索入口多,能满足多元检索的需要,检索范围改变也相当灵活,大提高了检全率。

?同时适用于手工检索和计算机检索系统。

?叙词语言是我国目前使用最广泛的受控主题语言。

2、根据组配方式划分

?(1)先组式语言:表达信息主题概念的标识已事先用固定关系组配好,并编制在词表中,标引人员在标引信息或用户在检索信息时,必须根据词表选用组配好的主题进行操作。如:体系分类法和标题词法。

?(2)后组式语言:表达信息主题概念的标识在编制词表时不曾预先规定组配关系。当标引信息时,只能根据词表中选用单独的主题词来描述信息的主题概念;检索时,用户可以根据需要将不同的检索词组配在一起,用来表达复杂的主题概念。如:元词、叙词。

3、根据规范化程度划分

?(1)规范化语言

?(2)自然语言

?(3)两者结合的发展趋势

4、根据描述的文献特征分

?(1)描述文献内容特征的检索语言

?内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。

?主题语言、分类语言、分类主题一体化语言

?(2)描述文献外部特征的检索语言

外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等。

代码语言、引文语言

三、检索途径及其选择

1、内容特征检索途径:内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。

?(1)分类途径

?(2)主题途径

?(3)分类主题途径

2、外部特征检索途径:外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等?(1)责任者途径

?(2)题名途径

?(3)序号途径

?(4)引文途径

第二节事实数据信息的检索工具

一、字典、词典(辞典):字典是为字词提供音韵、意思解释、例句、用法等等的工具书。在西方,是没有字典的概念,全是中国独有的。字典收字为主,亦会收词。词典或辞典收词为主,也会收字。为了配合社会发展需求,词典收词数量激增并发展出不同对象、不同行业及不同用途的词典。

例:《新华字典》、《现代汉语词典》《牛津英语词典》、《建筑大辞典》

西文词典一般都是按本国文字的字母顺序排列,查询时按字顺查找;日文字典大多按五十音顺排列,查找时按音顺查找;中文字典排列方法较多,有部首法、笔画笔顺法、汉语拼音法、四角号码法等。

二、百科全书:常被誉为“没有围墙的大学”

概要记述人类一切知识门类或某一知识门类的工具书。百科全书在规模和内容上均超过其他类型的工具书,它集各类。百科全书的主要作用是供人们查检必要的知识和事实资料,其完备性在于它几乎包容了各种工具书的成分,囊括了各方面的知识。

百科全书可按收录范围分为综合性百科全书(如:《中国百科全书》、专业性百科全书(如:《化工百科全书》;还可按编辑规模分为:大百科全书(20卷以上)、小百科全书(10卷以下)、百科词典(单卷)。

编排方式有三种:按字顺编排、按分类编排和分类与字顺相结合编排。目前,按字顺编排条目已成为百科全书编排方式的主流,也有采用分类与字顺相结合的形式编排的。

百科全书一般都有各种索引,其中最主要的是主题索引,就是把条目的条头、释文的隐含主题和参见主题按字顺排列以供检索。

世界ABC三大百科全书:美国百科全书、不列颠百科全书、科利尔百科全书

美国百科全书》名为Encyclopedia Americana,简称EA,

《不列颠百科全书(Encyclopedia Britannica)》(又称《大英百科全书》,简称EB)

科利尔百科全书(Collier' Encyclopedia)简称EC

三、手册:

顾名思义是放置于手边可以方便地参考的一种工具书。是汇集某一学科或某一主题等需要经常查考的资料,供读者随时翻检的工具书。手册就是各行各业、不同地域、不同职业的人在进行某种行为时所需要的一种了解相关信息的材料。手册主要为人们提供某一学科或某一方面的基本知识,方便日常生活或学习。手册中所收的知识偏重于介绍基本情况和提供基本材料,如各种公式、规章、条例、事实、数据、图表等等。通常按类进行编排,便于查找。

如:《图书情报工作手册》、《数学手册》

四、年鉴:是一种按年编纂出版的参考工具书。以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书。汇辑一年内的重要时事、文献和统计资料,按年度连续出版。年鉴内容丰富、新颖,叙述简明,编排得当,具有可靠性、统计性、新颖性、连续性、知识性、检索性等特点。其主要作用是向人们提供一年内全面、真实、系统的事实资料,便于了解事物现状和研究发展趋势。它所收集的材料主要来源于当年的政府公报、国家重要报刊的报道和统计部门的数据。因此,年鉴有较大的总结、统计意义和比较系统的连续参考作用。通过年鉴,可查找近年来国际国内时事,各部门各行业的进展及各学科各专业的研究动态;可查找政府颁布的重要法规文献和逐年可比的统计数据资料。

年鉴大体可分为综合性年鉴和专业性年鉴两大类,前者如百科年鉴、统计年鉴等;后者如经济年鉴、历史年鉴、文艺年鉴、出版年鉴等。

五、名录:名录是提供有关专名(人名、地名和机构名录等)简要工具书,内容涉及比较广泛。人们可

以从名录中查找关于人物生平、机构组织和某一行政区划沿革等信息。名录是一种事实便览性的工具书,虽只提供有关机构、人物等的简要资料,但能起指引情报源的作用,对沟通信息、促进交流、加强协作提供了很大的方便。名录按收集信息的内容的不同,可分为人名录、地名录和机构名录。

1、人名录又称“名人录”,是介绍某一方面人物生卒年、学历经历、荣誉、著作等资料的检索工具。如:《世界名人录》。

人名录分为综合性、国别或地区性的、专业或职业性的三类,每类又有回溯性的(也称人名辞典)和当代人物两种。

2、地名录

是收录经审定的规范化的地方名称,并注明所属的国家、行政区划以及在地图集上的具体位置的工具书。主要提供各行政区域(国家、城市、省、县、乡、街道)、山川、河流、岛屿等的规范化名称、地理位置、人口、历史沿革、地产和矿产等资料。如:《中国行政区划大辞典》、《世界地名录》。

3、机构名录又叫机构指南

是汇集机构名、人名、地名等专名及与之相关的资料的一种工具书。一般提供公司或组织机构的名称、地址、电话号码、历史与现状、机构的主要业务与人事、主要负责人等情况,许多公司和厂商名录还要介绍其规模、资产、经营范围、产品、设备等情况。具有简明、新颖、确实等特点。如:《中国企事业名录大全》

第三节文献检索工具简介

文献检索工具是用于报道、存贮和查找文献线索的工具,它通过对文献特征的描述,并按一定的科学方法排列、提供多种检索途径,使我们能从文献的汪洋大海里找到特定的文献。

检索工具必须具备四个条件:

第一,必须详细描述文献的外部特征和内容特征。

第二,每条描述记录都必须具有各种检索标识。(所谓检索标识是指描述文献外部特征和内容特征的专门用于信息检索的词、词组或代码,如主题词、分类号、著者姓名、文献序号等。)

第三,全部描述记录要科学地组织成一个有机的整体

第四,能够提供多种检索途径。

检索工具的类型:

?按检索手段分,有手工检索工具、机械检索工具和计算机检索工具;

?按出版形式分,有书本式、期刊式、卡片式、缩微式和机读式;

?按收录范围分,有综合性、专业性、专题性和单一性;

?按文种分,有中文、西文、日文、俄文等;

?按著录方式分,有目录型、题录型和文摘型。

?其中按著录方式划分体现了检索工具对文献内容揭示的深浅程度,体现了检索工具的性质,这是检索工具最主要的划分方法。

一、目录型检索工具

?目录是以出版物(如一本图书、一种期刊等)为报道对象,揭示出版物外部特征的检索工具。所以目录对文献的描述比较浅显,一般只描述文献的外部特征,有时也通过简单的内容提要介绍文献的内容,但它不涉及文献中的具体章节或具体文献。目录主要用于报道、登记出版物的出版发行情况,揭示其收藏情况,供人们选购、查阅和获取文献时使用。目录的著录项目通常包括出版物名称、责任者(著者、编者或译者)、出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格等)。

?目录型检索工具主要有图书馆馆藏目录、联合目录、出版社目录、国家书目等。

二、题录型检索工具

?题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。由于它是以单篇文献为单位来

报道和存储文献的,所以对文献的揭示程度比目录要具体、深入。但题录与文摘相比,对文献内容的揭示又相对较浅,不过,它也因此具有加工容易、可以缩短报道的时差、文体简短、可以增加检索刊物的容量的优点。题录的著录项目一般包括题录号、文献题目、作者及其工作单位、出处、原文文种、主题词、文中所附图表数及参考文献数等。

?《Index to Scientific & Technical Proceedings》是由美国科学信息研究所(ISI)出版的,是专为检索会议录、会议出版物及其会议论文题录而编制的综合性检索刊物,内容涉及基础学科、工程技术及应用科学等领域,每年收录约4000次重要科学会议的论文。目前,全球正式出版的重要会议文献约有75%~90%被ISTP收录,是快速、全面了解会议文献的重要检索工具,并作为评价科研工作者学术水平的重要指标,它与SCI《科学引文索引》(Science Citation Index)、EI 《工程索引》(The Engineering Index)、并称为“三大索引”。其正文按会议号的顺序排列,著录每个会议的名称、会议事项、会议录及其出版情况和该会论文的题录。

三、文摘型检索工具

?文摘(abstract)是指对一份文献或一个文献单元的内容所做的简略、准确的描述,通常不包含对原文的补充、解释和评论。文摘的报道对象与题录相同,但它对文献内容的揭示程度较题录更深入具体,它不仅描述文献的外部特征,还进一步描述文献的主题内容。对内容的介绍主要由其中的“文摘”部分完成。文摘是最常用的文献检索工具。

文摘的主要著录项目为:

?(1)文摘号、入藏号(abstract number ,reference number , accession number )。它是在文献处理完以后,为每条文摘编的号码,起排序并帮助读者识别特写文摘的作用。它可以是简单的顺序号,也可以是含有某种情报内容的代码符号。

?(2)文献名称(document title)。即文献的题目(篇名),它是读者识别特定文献的重要标志之一。文献名称一般是逐字照录,有时也可以删去某些引导性的词,或对含义不清及不完整的名称加以改写、补充。外文文献一般要同时著录译名和原名。有些英文检索工具对非拉丁文字的文献一般不著录原名,而著录原名的音译名。

?(3)著者(author)及其工作单位(affiliation)。是读者迅速鉴别文献的依据之一,著录著者姓名可以用全称,也可以用简称。许多国家的人名表述是名在前,姓在后,一般姓用全称,名可以缩写。但大多数检索工具都采用姓在前、名在后的形式。英文检索工具对非拉丁文姓名用音译法著录。

(4)合同号(contract number)或拨款号(grant number)。如果该文献是在某项合同或拨款的支持下进行的,一般都要标明该项合同的编号或拨款文件的编号。科技报告都有这一项目。

(5)原文出处。指刊载原文的地方。原文如果是某种期刊中的论文,出处包括该刊的刊名、出版地、卷期号、出版日期和起讫页码;如果是图书或其中的一部分,出处就是书名、编著者、出版地、出版者、出版时间和起讫页码。科技报告的出处就是入藏号、订购号或原来的报告号。专利说明书的出处就是专利申请书或专利说明书的编号。原文出处的著录是读者顺利找到原文的重要线索。

(6)原文文别和译文来源。原文文别一般用某种语言的简称标明,放在文献出处之后,有的放在文献的译名之后。若所摘录的文献是一篇译文,应给出译文的来源(被译文献的出处),如“译自X刊X卷X期X页”。此项的用处是免得使读者去找他所不能阅读的东西。

(7)主题词或索引词。指用来描述该文献的主题内容的若干个词或词组。该项的用途很多,既可以帮助读者了解原文主题,也可以用以查找其他相关文献,或供计算机识别和进行逻辑组配检索。

(8)文摘正文。对文献内容所做的简略描述。可以有报道性文摘和指示性文摘之分。前者需概述原文的内容要点,特别是创新点,向读者提供原文中的定量信息(如距离、最大值、最小值、公式等)和定性信息(如发现、结果、新方法、新设备、结论等)。它是原文内容的浓缩,基本上能反映原文的技术内容、信息量大,字数也较多。后者则是为了把原文的主题范围、目的和方法概略地指示给读者的一种文摘,一般不包含具体的数据、方法、设备、结论等内容。它指示读者将在原文中发现什么,帮助读者判断原文是否与自己的需要相关以及是否需要阅读原文,字数也相对较少。

第四节索引介绍

一个完整的检索工具包括四个部分:

1、说明部分

2、正文部分

3、辅助索引部分

4、附录部分

索引通常不提供文献内容本身,只指明文献的物理位置,是一种检索文献的系统指南,使读者能准确地找出文献或文献集合体中的特定信息。

?最常用的索引有著者索引、主题索引、分类索引、题名索引。

主题索引是以主题词为标目,按照主题词的字顺排列组织的索引。按照组织主题词的原则和方法上的不同,

一、著者索引

二主题索引可分为四种:

1、标题索引

2、关键词索引

3、单元词索引

4、叙词索引

关键词索引

关键词索引是按关键词的字顺排列的索引。关键词是直接从原文的标题、摘要或全文中抽选出来的,具有实质意义的、未经规范化处理的自然语言词汇。被抽选出来的关键词都可以作为标引词在索引中进行轮排,作为检索词进行检索。由于关键词表达事物和概念比较直接,不受词表控制,能及时反映新事物、新概念,目前被广泛地应用于手工检索和计算机检索系统中。但关键词索引不显示词间关系,不能进行缩检和扩检,影响检索效率。不过,在计算机检索系统中,利用关键词之间的逻辑组配,在一定程度上解决了这个问题。计算机检索系统还采用编制禁用词表和关键词表等方法,以提高关键词抽取的准确性,并对词间关系进行控制,提高了检索效率。

三、分类索引

分类索引以科学分类为基础,运用概念划分的方法将知识按一系列的标准和逻辑规则进行层层划分,形成一个严格有序的直线式的知识门类等级体系,用概括事物本质属性的概念作为类目名称,并给出相应的标记符号作为类号,按照分类号编排。分类的方法能较好地体现学科的系统性,反映事物之间的平行、隶属和派生关系,适合人们认识事物的习惯,有利于从学科或专业的角度进行族性检索。目前我国广泛

采用《中国图书馆分类法》。

不过《中国图书馆分类法》作为体系分类法是先组式检索语言,缺乏进行多概念灵活组配的能力,分类表类目是根据编制时的学科专业情况设置的,无法反映新学科和新技术的内容,且体系分类法是按学科性质建立的直线式序列结构,对全面检索跨学科跨专业的文献信息有一定难度。但它仍然是一种不可缺少的检索工具,特别是在网络检索工具中,使用分类方法浏览、搜索信息十分普遍。在一些专门领域,如专利、标准文献的检索中,都有特定的分类索引。

四、题名索引

?题名索引是以书名、刊名或篇名为标目,并按题名的字顺排列的一种索引。

?如:有些期刊在每年最后一期后会附上全年刊登的文献的题名索引。其按字顺排列,在每个题名后列出其所在的期号,甚至所在页码。

五、其他索引

为适应某些专业的特殊需要或某些文献的特点,会根据需要编制一些专用索引。这类索引所用的索引词形式很专一,通常是某一专业领域的专用名词,如化学物质名称、动植物名称、药名、矿物名、地名、商品名、机构名等等,以及专用的符号代码,如元素符号、化合物分子式、专利号、报告号、标准号、合同号等。这些专用名称和符号代码表示文献的某一种特征,有一定的检索意义,特别是在相应的专业领域内,其检索价值尤为显著。

第五节计算机信息检索基础理论

一、检索技术及其实现

1、布尔逻辑组配检索技术

布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑运算符表示两个检索词之间的逻辑关系,将检索提问转换成逻辑表达式。常用的运算符有:

①逻辑“与” —AND

②逻辑“或” —OR

③逻辑“非” —NOT

练习:

头孢菌素钠Ⅴ或磺胺甲恶唑治疗呼吸道感染的引起的副作用研究

检索式:(头孢菌素钠ⅤOR 磺胺甲恶唑) AND 呼吸道感染AND 副作用

布尔检索的特点

优点:

(1)形式简洁,结构化强,语义表达力好。

(2)布尔运算关系有利于准确表达检索概念之间的逻辑关系

(3)由于布尔运算以比较方式在集合中进行,故软件易实现

缺点:

(1)它不承认文献内容所涉及的多个概念的重要性,即没有规定每个检索词的权重,一个概念要么与文献内容完全相关,要么不完全相关,这常与实际情况不一致。

(2)它把各个概念看成相互独立的,忽略了概念间的相互关系;它把概念与文献的关系简单化,忽略了概念与文献内容形式和结构的关系。

(3)它不能妥善区别和处理检索式中较多的概念标引的文献和用检索式中较少的概念标引的文献。如处理提问式: “A AND B AND C…AND Z”时,系统把含有若干个提问词和不含任何一提问词的文献认为一样差,同样加以排除;在处理提问式“A OR B OR C…OR Z”时,不能把含有所有提问词的文献看做比只含有一个提问词的文献更好一些。

(4)它不能对检索结果按与检索要求相关的程度排序输出。

(5)过分依赖检索语言的文字化、规范化,往往要求较复杂的表达式。(如对同义词的全面表述)

为缩短检索式和醒目起见,DIALOG检索系统中“AND”、“OR”、“NOT”算符可分别用“*”、“+”、“—”代替。

附:DIALOG国际联机检索系统简介

美国DIALOG系统是目前世界上最强大的国际联机检索系统,也是目前运作最成功的联机商业数据库系统之一,它拥有80多个国家约10万多个终端用户,主机系统位于美国加利福尼亚州。DIALOG拥有近600个联机数据库,其内容涉及40多个语种和占世界发行总量的60%的6万多种期刊。DIALOG是世界最著名的商用联机数据库系统之一,它的服务是收费服务。

2、截词技术

所谓截词(Truncation),是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符的文献,都为命中的文献。

截词符根据检索系统的不同而不同,常用截词符有“?”、“﹡”、“¥”、“!”等。通常用“﹡”表示无限截断,“?”表示有限截断。

截断方式也有后截、中截、前截等

1)后截断

是最常用的截词检索技术。将截词符号放置在一个字符串的右方,以表示其右的有限(?)或无限个字符(﹡)不影响该字符串的检索。

如“Computer ﹡”,则词典中存储的前8个字符为Computer的所有词均满足条件,因而能检出含有Computers、Computering、Computerigation、Computered等词的文献。

Computer? ?可检索出含有Computer、Computers、Computered等词的文献。

可见,截词检索具有隐含的OR运算特性。

后截词主要使用在以后4 个方面:

①词的单复数,如bag?、box??

②年代,如199??(90年代),19??(20世纪)

③作者,如用Lancaster ﹡,可检索出所有姓Lancaster的作者。

④同根词,如用poltic ﹡检索出political、politicalize、poltically、poltician等同根词。

(2)前截断

例如:“﹡magnetic(有磁性的),可以检索出electro-magnetic(电磁的)、paramagnetic(顺磁的)、thermomagnetic(热磁的)等词汇。

(3)中截断

例如:

m?n。可以检索出含有词man、men的文献。

3、字段限定检索技术

文献数据库的每条记录通常都由多个代表不同信息内容的字段组成,几乎所有机检系统均设置了限定检索的功能,以满足用户检索某一特定字段信息的要求。

在DIALOG联机检索系统中,数据库提供的确可供检索的字段通常分为基本字段和辅助索引字段两大类。基本字段表示感谢文献内容特征,如题名、主题词、文摘等;辅助索引字段表示文献

外部特征,如著者、文献类型、语种、出版年代等。每个字段有一个字段代码,字段代码通常用两个大写字母表示。

如DIALOG联机检索系统中,字段限定符主要有:

?AU = 限查作者CS = 限查作者机构

?JN = 限查特定刊名Ti = 限查题目字段

?LA = 限查语种AB = 限查文摘字段

?PN = 限查特定专利号DE = 限查主题词字段

?PY = 限查特定年份ID=限查关键词或自由词

4、词位限定检索技术

1)(W)算符与(nW)算符

(W)算符是“Word”或“With”的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间可以有一个空格,或一个标点符号或一个连接号外不得夹有任何其他单词或字母,且词序不得颠倒。(W)算符严密性较强,它基本等同于词组检索。

目前绝大部分搜索引擎都具有词组检索的功能,一般用“”表示。

例如:SQL(W)SERVER 可以检索出

SQLSERVER或SQL SERVER

gone(2W)wind 可以检索出

gone with the wind

(2) (N)算符和(nN)算符

(N)是Near的缩写,它表示:在算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒。

(nN)表示允许在连接的两个词之间夹插入至少n个单词,且这两个检索词的词序任意。

例如:Railway(2N)Bridge,可以表示

Railway Bridge,

Bridge of Railway,

Bridge of the Railway

(3)(S)算符

在某些情况下,特别是对查全率有较高要求时,可放松词位置检索要求,改用同句检索。所谓同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。同句检索的位置算符是(S)。S是sentence的缩写。

例如:electronic(S)optical ,可以检索出题名为Cutting and polishing optical and electronic materials的文献。

(4)(L)算符

(L)是link的缩写,它要求检索词在同一主题词字段中,并且具有词表规定的等级关系。因此,该算符只适用于有正式词表,且词表中的词具有从属关系的数据库。

如:railroads (L) traffic control ,表示traffic control是railroads的下一级主题词。

(5)(F)算符

(F)是field的缩写,表示在此处符两侧的检索词必须同时出现在数据库记录的同一字段中,词序可变,字段类型不限。

从限制的严格性看,F、S、L、N、W依次渐严,而且都比AND严。在执行优先级上比NOT、

AND、OR优先。

计算机信息检索的一般步骤为:

1、根据检索课题,选择适用的数据库;

2、确定检索词;

3、编制检索式;

4、显示及判断检索结果;

5、修改检索策略。

6、索取原文

非控制词汇是极为灵活有效的检索词。对于自由文本检索和全文检索而言,关键词更是最重要的检索词。

温医 2018文献检索知识点整理

答题格式 填空题、选择题只用填写答案即可,不用写其他 操作题三要素: 检索结果数量、检索表达式、题录信息(题目会要求你写什么就写什么) 举例: #1 34567 分类号=R512.6/扩展/复分-025/ 题名:xxxxxxxxxxx 作者:xxx 文摘型数据库 只有题录信息、全文链接信息,没有全文信息的数据库。 1.中国生物医学文献服务系统(CBMweb) 2.PubMed 1.中国生物医学文献服务系统(CBMweb) 基本检索 智能检索:在“缺省”字段,自动实现检索词、检索词对应主题词及该主题词所含下位词的同步检索。不支持逻辑组配检索。 精确检索:适用于关键词、主题词、特征词、分类号、作者、第一作者、刊名、期字段。 限定 每次限定检索结束后,谨记点“清除”按钮 主题检索 加权检索 主题词“加权”表示主题词的重要程度,反映文章论述的主要内容。加权主题词用“* ”表示 加权检索表示仅对加星号(*) 主题词( 主要概念主题词) 检索 非加权检索表示对加星号主题词和非加星号主题词(非主要概念主题词)均进行检索。 扩展检索 扩展检索是指同时检索当前主题词及其下位词,可提高查全率。 非扩展检索则仅限于当前主题词的检索。 分类检索 期刊检索 作者检索

检索历史 系统退出后,检索历史清除 CBM检索检索规则 布尔逻辑符 优先级:() > NOT > AND > OR 截词检索 ?:表示一个字符 例:血?动力,可搜索“血液动力、血流动力”等 % :表示任意个字符 例:肝炎%疫苗,可搜索“肝炎疫苗、肝炎病毒疫苗、肝炎灭活疫苗”等等模糊检索/精确检索 短语检索 用半角双引号将检索词括起来,系统视其为不可分割的固定短语在指定字段中检索。 例:”1,25-(OH)2D3” 2.PubMed 基本检索 可对任何具有实质意义的词都可以进行检索,分类如下: 自动词语匹配检索自动匹配功能 著者检索 期刊检索 精确检索用“”进行强制短语检索 截词检索用通配符?,*检索 字段限定检索P47 表4-2 布尔逻辑检索AND OR NOT 高级检索 MeSH主题词检索 确定规范检索词 款目词(入口词)、主题词(叙词) 查看词义注释、树状结构表 副主题词、扩展、主要主题词 其他检索方法 Single citation matcher(单篇引文匹配器) 查找某一篇文献的准确信息 Clinical queries 专门为临床医生设计的检索服务。 临床研究、系统评价、医学遗传学三类临床医学资源中进行检索 每次筛选检索结束后,需进行clear all 操作。

文献检索复习题(名解-简答)

文献检索复习题(名解-简答)

文献检索复习题 一、名词解释 1.二次文献信息:二次文献也称二级文献,它是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。 2.学科化服务:指图书馆设专人与某一学科专业作为对口单位建立联系,在院系、学科专业与图书馆之间架起一座桥梁,相互沟通,为用户主动地,有针对性的收集和提供文献信息的服务。 3.网络电子图书:以电子图书形式发行,以互联网为流通渠道,以数字内容为流通介质,以网上交易为主要支付手段的图书。 4.专利文献:是实行专利制度的国家、地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。 5.引文分析法:引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。

6.书目数据库:是指存储某些或某一个领域的二次文献书目数据的一类数据库。 7.个性化导读服务:又称阅读指导服务,是图书馆针对各类型读者,采取各种措施主动诱导读者的阅读行为,提高其阅读意识,阅读能力和阅读效益的一种教育活动。 8.双词频控制检索:指对一个检索项中的两检索词分别实行词频控制,也就是一个检索项使用了两次词频控制。是针对单项双词组合检索而设置的。 9.专利法:专利法是确认发明人(或其权利继受人)对其发明享有专有权,规定专利权人的权利和义务的法 10.网络信息资源:网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。 11.参考数据库:指为用户提供信息线索的数据库,它可以指引用户获取原始信息。参考数据库包括书目数据库(Bibliographic Database)和指南数据库(Referral Database)。

信息检索复习资料

文献的定义 最简明的定义:记录有知识的一切载体。 定义:记录知识的一切载体,即用文字、图形、符号或声频等技术手段记录知识的物质载体,或固化在物质载体上的知识。 二次文献 将大量分散、无序的一次文献经过筛选、分析、整理,按其内容特征和外部特征进行提炼、浓缩,并按照一定的逻辑顺序和科学体系编制而成的系统化的文献。 特种文献 会议文献、学位论文、专利文献、标准文献、科技报告、政府出版物、产品资料、档案8种类型文献是一种介于图书与期刊之间的文献类型,通常在出版发行方面或获取途径方面比较特殊,因而也被称为特种文献或灰色文献。 文献检索式 或:A or B 或 A + B;用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。 与:A and B 或 A * B; 用于对检索词进行限定,从而缩小检索范围,有利于提高检索结果的查全率。 非:A not B 或 A – B;表示检索记录中凡含有A不含B的记

录被检出。能够缩小命中文献的范围,增强检索的准确性。 网上的文献格式 期刊、专著、论文集、学位论文、报告、专利论文、[国际、国家标准]、报纸文章、电子文献。 文献信息源 用一定的记录手段将系统化的信息内容存储在各类载体上而形成的一类信息源。文献信息源是信息源的主体部分,是信息搜集、存储、检索和利用的主要对象。 CA美国化学文摘数据库收录文献 期刊论文、会议论文、图书、学位论文、专利、技术报告。 什么数据库能检索会议文献 国外:ISI会议录数据库、会议论文索引数据库、OCLC PapersFirst 与ProceedingsFirst、STN联机系统中的CONF会议论文数据库、美国物理所电子会议录数据库、美国光学工程师学会会议文献数据库、美国航空航天协会电子图书馆。 国内:中国重要会议论文全文数据库、万方数据知识服务平台会议论文数据库、中国国家科技图书文献中心会议论文数据库、中国学术会议文献通报、上海图书馆会议资料数据库。

信息检索名词解释图文稿

信息检索名词解释集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-

一、名词解释 信息检索:信息检索最普通的理解就是信息查找。它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。信息检索又叫做信息存储与检索(information storage and retri)。信息检索可以分为事实检索、数据检索、文献检索。 特性检索:也称强相关性检索,强调向用户提供高度对口的信息。强调检索的准确性,对检索结果的数量不作要求。 族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。 特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。 OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。 参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。

年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。 手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。 名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。 搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。 图书:论述或介绍某一领域知识的出版物。 期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。期刊论文内容新颖,报道速度快,信息含量大,是传递科技情报、交流学术思想最基本的文献形式。 学位论文:学位论文是指为申请硕士、博士等学位而提交的学术论文。学位论文的质量参差不齐,但都是就某一专题进行研究而作的总结,多数有一定的独创性。 连续出版物:具有统一题名、印有编号或年月顺序号、定期或不定期在无期限内连续出版、发行的出版物。包括期刊、报纸、年鉴连续出版的

信息检索复习资料

信息检索复习要点 第一章 一、情报和文献 1.情报(P4 1.2.3) 情报就是为了解决一个特定问题从一定文献资料中提取或经过传递获得的知识。 知识性、传递性、针对性是情报的3个基本属性。 2.文献(P5 1.2.5) 记录有知识的一切载体叫文献。 知识内容、信息符号、载体材料、记录方式是文献的4个基本要素。 二、文献按载体划分(P5~6 1.3.1) 1.印刷型 2.微缩型 3.视听型 4.电子型 三、文献级次划分(P6 1.3.2) 1.零次文献:非正式出版物或非正式渠道交流的最原始的文献。如手稿、演讲、听取经验交流,甚至包括口头言论。 2.一次文献:依据作者本人的研究或成果制作成果创作的文献,即通常所说的“原始文献”、“第一手资料”。如图书、期刊论文、科技报告、学位论文、专利说明书等。 (原创性) 3.二次文献:按一定的方法对一次文献进行加工,使之有序化而形成文献。如目录、索引、文摘等。(有序性) 4.三次文献:一般是围绕某个专题或出于特定目的,根据二次文献提供的线索,选用大量一次文献的内容,经过筛选、分析、综合和浓缩等深度加工而形成的文献。 如各种评述、进展报告、教科书、词典、年检、百科全书等。(综合性) 四、ISBN和ISSN(P7~9 1.3.3) 1.ISBN(国际标准书号)

(1)它是由国际标准化组织1972年公布的一项国际通用的出版物统一编码。它是由10位数字组成,共分4段【组号、出版社号、书序号、校验码(1位数,ISBN最后一位数值)】。 (2)校验方式:将ISBN 1~9位数字顺序乘以10、9、8、7、6、5、4、3、2这9个数字,将这些乘机之和再加上校验码,如果能被11整除,则这个ISBN号是正确的。2.ISSN(国际标准连续出版物编号) (1)实现对全世界文献的管理。由8位数字组成分2段,每段4位数字。中间用“-”隔开前7位是刊名代号,最后一位是计算机检验位。 (2)检验方式:将ISSN 1~7位数字顺序乘以8、7、6、5、4、3、2这7个数字,将这些乘机之和再加上检验号,假如能被11整除,则这个ISSN号是正确的。 第二章 一、信息检索(P12) 从广义的角度讲,文献检索是指把文献按一定方式组织和存储起来,并针对用户的需求找出所需的文献过程,亦叫信息检索。而人们一般所指的文献检索,是指狭义的文献检索,即最后一个过程——信息检索,文献的查找过程。 二、信息检索的类型(P13 2.1.2) 1.按照检索的对象的不同,人们将信息检索分为文献检索、数据检索和事实检索。2.按照检索的方式的不同,人们还常将它分为手工检索和计算机检索。 三、图书的四大常用检索点(P20 2.3.1) 1.书名 2.作者 3.主题词 4.分类号 四、检索语言的基本种类(P19 2.3) 检索语言是文献检索中用了描述文献特征和表达信息提问内容的一种专门化的人工语言,是信息组织和文献检索共同使用的语言。 检索语言大致分为分类语言(P19)和主题语言(P24)两种。 (1)最早的图书分类法(P20 2.3.1 2) 我国西汉刘向、刘歆父子所著的《七略》。它首创的“七分法”对后世我国的分类思想的形成和发展影响极大。 (2)四库全书(P21 小资料) 纂修与清乾隆年间的《四库全书》,从收集编纂到成本,共用10年(1173-1782),集我国古代文献典籍之大成。共著录图书3461种,79309卷,36000余册。《四库》将各种书籍分为经部、史部、子部、集部。各部下分若干类,类下细分为属。 (3)全球使用最广的分类法(P21 2.3.1 3) 《杜威十进分类法》(DDC)是当今世界上影响最大、用户最多的图书馆分类法。

文献检索复习题及参考答案

医学文献检索复习资料 第一章 一、信息、知识、情报、文献(选择、判断改错) 1、信息:是物质存在或运动方式与状态的表现形式或反映,是现实世界事物的反映,它提供了客观世界事物的消息、知识,是事物的一种普遍属性。 2、知识:是人类在认识和改造客观世界实践中获得的对事物本质的认识和经验的综合,是人们通过实践对客观事物及其运动过程和规律的认识。 3、情报:是指人们以各种方式传递与交流的具有一定目的与时效的信息,是人们为一定目的搜集的有使用价值的知识或信息。 情报的重要属性:知识性、传递性、效用性。 4、文献:是指以文字、图象、公式、声频、视频、代码等手段记录或描述在一定的物质载体上,并能起到存储和传播信息情报和知识作用的一切载体。(记录有知识的一切载体。)文献由三个基本要素构成:内容上的知识或信息;揭示和表达知识信息的表示符号;记录信息符号的物质载体。 信息、知识、文献、情报的包含关系:信息、知识、情报必须固定在一定的物质载体上,形成文献后才能进行传递,才能被人们所利用,文献是信息、知识、情报存储、传递、利用的重要方式。信息可以成为情报;信息是知识的重要组成部分,但不是全部;情报是知识或信息经传递并起作用的部分。 第二章医学文献信息资源 一、文献信息资源类型的划分 1、按载体类型划分: (1)书写型文献:古代文献、书法作品、手稿、书信、原始记录等 (2)印刷型文献:图书、期刊、会议文献、政府出版物、专利文献、技术标准、产品资料、学位论文、技术档案 (3)缩微型文献:微缩胶卷、微缩胶片、微缩照片等 (4)视听型文献:唱片、录音带、录像带、科技电影、幻灯片、电视片等 (5)电子型文献: 电子型文献按发布形式分为:①参考数据库:A.书目数据库:中药在线、CBM、PubMed B.文摘和索引数据库 ②全文数据库 ③事实数据库 ④搜索引擎/分类指南 ⑤网络学术资源学科导航 ⑥FTP资源 ⑦其他 2、按出版类型划分: (1)图书:是现代出版物中最普通的一种类型,有封面、书名、作者、出版地、出版者,并装订成册。在每一种正式出版图书的版权页或其他明显部位都标有一个由10位或13位数组组成的国际标准书号ISBN,形式如ISBN 978-7-117-10172-1,这是一种国际通用的出版物代码,代表某种特定图书的某一版本,具有唯一性和专指性,读者可借此通过某些文献信息系统查询某种特定图书。图书基本上有两类:一类是供读者阅读的图书,包括专著、教材;一类是供读者查阅的图书(工具书)。 (2)期刊:是一种连续出版发行的文献。(期刊的内容新颖、出版周期短,通报速度快,信息量大,是情报的主要来源。) 期刊特点:①有固定的名称(刊名) ②相对固定的版式、篇幅和内容范围 ③定期连续出版发行 ④按一定的卷期号或年月顺序号连续出版 每种期刊均有一个由8位数字组成的国际标准连续出版物号ISSN,例如 ISSN 0317-8471 前7位代表期刊代号,末位是校验号。

《化学文献检索》知识点总结

《化学文献检索》 第一章绪论笔记 第二章期刊笔记 第三章题录索引 美国《化学文摘》Chemical Abstracts(CA) 一、C A概况 CA的出版者和创刊年二次文献 CA创刊于1907年,由CAS即Chemical Abstracts Service,美国化学文摘社创办。 CA的收录范围 收录世界各国化学化工方面的出版物约20,000余种,包括期刊论文、会议录、资料汇编、报告、新书、专利等,CA被称为“世界化学化工文献的钥匙”。 出版周期频率 CA是周刊,半年一卷,一卷26期。 载体形式 印刷版----手工检索光盘版----计算机检索网络版----计算机检索CA特点 1 收录内容广泛,文献量多。 2 CA是可得性和可用性很好的二次专利文献源。CA可帮助查找大量专利文献。 3 CA印刷版的平均时差不超过3个月,报道及时 4 CA索引索引齐备,有完善的期索引,卷索引和累积索引,方便查找。 CA正文的编排结构和著录格式: CA正文由(文摘主体)和(期索引)两部分组成。 文摘主体部分(分为五大部分共80大类,分单、双周出版) 单周1、生物化学2、有机化学 双周3、高分子化学4、应用化学和化学工程5、物理化学和分析化学 CA的编排格式 早期的CA每页通栏编排(1-27卷)后来的CA每页分左右两栏,每条文摘都有一个文摘号

CA的著录格式 期刊论文文摘的著录格式 126: 1939m (1) Use of antivirals in influenza in the elderly Prophylaxis and therapy. (2) Nichoson. Karl. (3) (Department of infectious disease ..,UK) (4) Gerontology( Basle) (5) 1996,42(5),280-289 (6) (English) (7) 期刊论文文摘的著录格式各部分意义: ①卷号和文摘号,同一卷连续编号。 ②篇名,非英语文献篇名按原意翻译成英文。 ③著者姓名。 ④著者的工作单位或论文寄发单位。 ⑤⑥文献出处,刊名大多用缩写,全称可查“CAS Source Index”. ⑦原文献语种。 CA中的一条文摘: 各个编号代表的意思:1卷文摘号2标题3作者4作者所在单位5期刊名缩写6年份7卷期号8页码9文种缩写 专利文献的著录格式 126:139853u Process for identifying RAR receptor antagonists using skin test application of RAR agonist. 专利标题 (1) Demarchez, Michel; Jomard, Andre 专利发明人 (2) (Centre International De .........,Fr) 专利权人 (3) Eur.Pat.Appl.EP749,755 专利国别和专利号 (4) (CL.A61K49/00) 国际专利分类号 (5) 27 Dec 1996,Fr 专利公布日期<6> Appl.95/7, 302,19, Jun 1995; 专利申请号和申请日期<7> 5pp 专利说明书页数 (8) (Fr) 专利文献的著录格式

名词解释(信息检索2017)

1、信息检索:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。 2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示: 查全率=(检出相关文献量/系统中相关文献总量)*100% 3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示: 查准率=(检出相关文献量/检出文献总量)*100% 4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示: 漏检率=(漏检相关文献量/系统中相关文献总量)*100% 5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。 6、单库检索:在选定的单一数据库中进行检索。 7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。 8、相关度优先:和查询的条件内容最相关的文献优先排在前面。 9、最新论文优先:发表时间比较新的文献优先排在前面。 10、精确匹配:检索结果中包含与检索词完全相同的词语 11、模糊匹配:检索结果包含检索词或检索词中的词素 12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。 13、倒查法从最新时间查找起,直到满足检索要求为止。 14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。 15、二次检索是指在前一次检索结果的范围内,继续进行检索。 16、定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。 17、回溯检索RS (retrospective search)查找一段时期内有关特定主题信息的检索。 18、检索语言又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话的交流语言。 19、手工检索:以手工操作的方式,利用检索工具书进行信息检索。 20、检索工具是用来报道、存和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。 21、全文检索是将存储于数据库中的整本书、整篇文章中的任意内容找出来的检索。 22、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。 23、搜索引擎是指Internet上的、在万维网中主动搜索信息并能自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称网络搜索机器人)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理建立建成数据库从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 24、初级检索:初学者适用。该方法的特点是方便、快捷、效率高,但查询结果有很大的冗余。在检索结果中要进行二次检索才能提高查准率

信息检索复习资料

第一部分:基本常识 1.文献按照出版形式可分为哪几种类型?举例。 图书、期刊、报纸、特种文献。 图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等 期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。 报纸:人民日报 特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案 美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA 报告4、能源部的DOE报告。 2现代科技文献具有的特点哪些? 答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降 3什么是核心文献、相关文献和边缘文献? 答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。如核心期刊等。相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。 4 什么是文献?构成文献的有哪四个要素? 答:文献的定义是记录有知识的一切载体称为文献。构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。 5 电子文献的主要类型和文件格式是什么? 答: (1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分; (2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的gif文件、jpg文件以及标记文件格式的html文件和xml文件之分; (3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分; (4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分; (5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类; (6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。 6 如何针对不同时间要求的文献信息,选用不同的文献信息源? 答:以信息利用者的观点,针对不同时间要求的文献信息应该使用不同的文献信息类型。例如,查找当前最新的信息(一、两个月之内的信息),应该通过互联网以及当前最新的报纸、期刊、广播、电视等媒体;两个月之前到十年之内的信息应主要通过网上图书、期刊类的数据库解决;5~20年前的信息应除了期刊之外,还可以通过印刷版的图书和手册性工具书来查找。 7什么是ISSN和ISBN?

信息检索文字题复习提纲(名词解释、举例、简答、论述)

信息检索复习题 1、信息检索的原理是什么? (1)广义信息检索原理: 在存储过程中,专门负责信息检索系统和数据库建立的人从各种各样的信息资源中,收集有用的信息,对有用的信息进行主题内容的分析,找出能够全面、准确表达主题内容的概念,借助于检索语言(通常是检索词表)把分析出来的概念转换成检索系统所采用的词语,或者直接使用自然语言,再按照一定的规则和方式将这些有用的信息组织成可供件所用的数据库,并存储在一定的介质上。 (2)狭义信息检索原理: 狭义信息检索的原理就是广义信息检索中信息检索过程的那部分原理。信息检索基本原理中的核心部分就是用户所使用的检索词或者由检索词和运算符所组成的检索式与数据库中的检索词及其逻辑关 系之间的比较和匹配机理。两者相匹配的信息被检索出来(命中),不相匹配的信息被拒绝。* 2、信息检索有哪些工具? 按处理信息手段分:手工检索工具、计算机检索工具。 按著录方式分:目录型(国家书目、馆藏书目、联合书目、专题书目)、题录型、文摘型(指示性、报道性、评论性)、索引型(主题索引、分类索引、著者索引)。 3、信息检索的途径和方法有哪些? (1)信息检索途径 分类途径:按学科分类体系来检索文献信息。从分类途径检索文献信息,主要是利用分类目录和分类索引。它以知识体系为中心,比较能体现学科系统性,反映学科与事物的隶属、派生与平行关系,便于从学科所属的范围来查找文献资料,并可起到“触类旁通”的作用。 题名途径:是根据文献名称包括书名、刊名、篇名等来检索文献的途径。一些检索系统中提供题名字顺检索途径,如书名目录、刊名目录、篇名索引等。 (2)信息检索方法

追溯法:也称引文法,是利用综述或已经掌握文献所附的引文注 释和参考文献目录作为线索逐一追查原文,再利用这些原文所附的参考文献目录逐一扩检,产生滚雪球效果。 直接法:又称常用法,是直接利用检索工具检索文献的方法。它 又分为顺查法(由远及近)、倒查法(由近及远)和抽查法(重点时间段进行)。 综合法:又称循环法。即利用检索工具查到某些文献,又利用这 些文献所附的参考文献追溯查找,如此循环下去,直到满足检索要求为止。是直接法和追溯法的结合。 4、什么是信息检索语言?有哪些类型? (1)概念: 检索语言是根据信息检索的需要而创制的,能够唯一地表达各种 概括文献信息内容的概念,能够显示概念之间的相互关系,并便于进行系统排列,便于将标引语言和检索用语进行相符性比较的人工语言。它是一种受控语言,依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。* (2)类型: 分类检索语言:依据分类法,以学科体系为基础,按类目编排的 检索语言。 主题检索语言:主题语言是以语词作为概念标识,按字顺编排的 检索语言。它又包括叙词语言和关键词语言,以及较早使用的标题词语言和单元词语言。 另外,按检索词的规范化程度分为人工语言和自然语言;按组配 方式分为先组式语言和后组式语言。 5、信息检索的过程是什么? (1)课题分析,明确查找目的与要求。包括学科范围、年代范围、出版类型、语种、数量,分析检索信息的特点及检索信息内容的主题概念。 (2)选择检索工具。手工检索要确定具体的工具书;计算机检索则要确定检索数据库。 (3)确定检索途径和方法。以数据库检索为例: A.选择字段(题名、文摘、著者、机构等)。

信息检索资料题目整理版

选择题:(10*2'=20') 1、用__A__检索2004年中国经济领域的统计数据、政策、会议、新理论。 A 《中国经济年鉴》 B 《中国统计年鉴》 C 《中国大百科全书》经济卷 D 《经济管理大辞典》 2、用__C__检索金融统计数据、中国宏观经济月度分析报告、食品行业报告《2003年奶业形势分析》 A 《中国人民大学报刊全文数据库》 B 维普《中文科技期刊数据库》 C 国研网 D CNKI或者万方数据库的会议论文数据库 3、检索2004年经济方面的信息资料应该用2005年出版的年鉴. 4、已知参考文献:徐经长等,国际会计学,北京:中国人民大学出版社,1999。要找原文,使用_ D_检索《国际会计学》的收藏情况。 A、维普《中文科技期刊数据库》 B、中国人民大学报刊全文数据库 C、国务院发展研究中心信息网 D、图书馆的馆藏查询 5、用__C_检索世界范围的专利摘要比较方便 A、美国专利商标局数据库 B、日本专利局数据库 C、欧洲专利局esp@cenet数据库 D、世界知识产权组织//ipdl.wipo.int/PCT电子公报 6、用_A_检索α—呋喃甲醇羧酸酯的合成,含有碳元素和氢元素的化合物的英文综合学术性文献。 A、外文EBSCO数据库 B、外文农业类CAB文献数据库 C、外文农业类AGRICOIA数据库 D、外文食品科技文摘数据库FSTA 7、综合性检索工具 维普《中文科技期刊数据库》、CNKI的《中国期刊全文数据库》、万方《中国数字化期刊群》8、专利信息检索工具 使用最广收费专利数据库:thomson scientific公司derwent系列专利数据库 免费专利数据库:欧洲专利局、美国专利商标局、IBM专利数据库 9、综合性检索工具 欧洲专利局、《DELPHION知识产权信息网数据库》、thomson scientific公司derwent系列专利数据库 10、单一检索工具包括专利公报、专利索引、各国专利局的专利数据库 中国国家知识产权局、美国专利商标局网站专利数据库 11、商标检索工具:中国知识产权网、中国商标网(提供商标近似查询、商标综合查询、商标状态查询)、美国专利商标局(提供商标电子查询系统)、国际商标协会 判断题:(10*2'=20')

文献检索作业考试答案

名词解释: 1.文献检索:是将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。广义的文献检索包括文献的存储和文献的检索两个过程。狭义的文献检索就是找出自己所需的文献。 2.检索语言:是用于描述检索系统中文献的内容特征及外表特征和表达用户检索提问的一种专门化的标识系统。检索的匹配就是通过检索语言的匹配来实现的。 3.后组织式语言:是指在检索前检索系统中的检索标识是独立的,实施检索后,才根据检索需要进行组配的检索语言。如叙词语言、单元词语言、关键词语言属此类型。 4.电子文献资源:电子文献资源是以电子数据的形式,把文学、声音、图像、视频等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传输,并通过网络通信、计算机或终端和其他外部设备等方式再现出来的一种新型文献资源。 5.参考数据库:是指包括各种数据、信息或知识的原始来源和属性的数据库。数据库的记录是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要、分类等,然后形成的。一般来说,参考数据库主要针对印刷型出版物而开发的,它包括书目数据库和指南数据库两种。 6.OPAC:是英文Online Public Access Catlogue的首字母缩写,可以译为“联机公共书目查询系统”,是一个基于网络,供读者查询图书馆藏书目信息的联机检索系统。它是图书馆自动化的基础,也是未来数字图书馆的有机组成部分。 7.电子图书:又称为数字图书或Ebook,是随着电子出版、互联网以及现代通信电子技术的发展应运而生的一种新的图书形式。电子图书应具有三要素:(1)电子图书内容。(2)电子图书的数字存储设备。(3)电子图书的阅读软件。 8.网络电子图书:是以电子形式出版发型,以互联网为流通渠道、以数字内容为流通介质、以网上交易为主要支付手段的图书。 9.前方一致检索:也称为后截断检索,是指在某一检索项内容中,检索前方与检索字/词完全一致的文献。前方一致检索适用于数值索引的检索项。 10.多项双词逻辑组合检索:多项是指可以选择多个检索项;双词是指一个检索项中可以输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合:并且、或者、不包含、同句、同段,每个检索项中的两个检索词可以分别使用词频、最近词、扩展词;逻辑是指个检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。 11. 双词频控制检索:是指对一个检索项中的两检索词分别实行词频控制,也就是一个检索项使用了两次词频控制。是针对单项双词组合检索而设置的。 12. 引文:所谓引文就是参考文献

【重磅】文献检索-在线作业

文献检索_在线作业_1 交卷时间:2016-10-3111:30:47 一、单选题 1. (5分) ? A.“维普中文科技期刊”全文数据库 ? B.中国统计数据库 ? C.中国学术会议论文全文数据库 ? D.中国期刊网全文数据库 纠错 得分:5 知识点:文献检索 展开解析 答案B 解析 2. (5分) ? A.作者 ? B.作者 单位 ? C.发表时间 ? D.题名 纠错 得分:5 知识点:文献检索 展开解析 答案C 解析 可检索到国家及各省市地方统计机构的统计年鉴、海关统计、经济统计快报等月度及季度统计资料的数据库是()。 从CNKI 数据库中记录以下字段,()是跟查找原文无关的。

3. (5分) ? A.标准文献能 ? B.期刊论文 ? C.专利文献 ? D.会议文献 纠错 得分:5 知识点:文献检索展开解析 答案B 解析 4. (5分) ? A.二次文献 ? B.三次文献 ? C.一次文献 ? D.零次文献 纠错 得分:5 知识点:文献检索 展开解析 答案C 解析 5. (5分) ? A.逻辑非 ? B.逻辑与 特种文献不包括()。 直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,为()。布尔逻辑算符不包括()。

? C.位置算符 ? D.逻辑或 纠错 得分:5 知识点:9.2文献检索策略的制定 展开解析 答案C 解析 6. (5分 ) ? A.查准率 ? B.误检率 ? C.查全率 ? D.漏检率 纠错 得分:5 知识点:文献检索 展开解析 答案A 解析 7. (5分 ) ? A.查全率 ? B.漏检率 ? C.查准率 ? D.误检率 纠错 得分:5 知识点:1.4文献检索基础知识 展开解析 ()是检索出的相关信息量与检索出的信息总量的百分比。 ()是检出的相关文献与检出的全部文献的百分比。

信息检索名词解释与简答 答案

●名词解释 ●信息检索 ●广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的 过程和技术。狭义的信息检索是指从信息集合中找到所需信息的过程。 ●信息素养 ●信息素养是指判断何时、何地需要信息,并有效地定位、获取、评价和利用信息的一系列能力 的总和。 ●信息意识 ●信息意识又称信息观念,是人们对信息需求的自觉反映,即对信息的捕捉、分析、判断和吸收 的敏感性。 ●信息能力 ●是人们有效快速的获取、加工、存储、利用和传递信息的能力。 ●信息道德 ●是指在整个信息活动中,信息创建者、信息服务提供者和信息使用者所必须要遵守的社会法律 法规和行为准则。 ●零次文献 ●是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。 ●一次文献 ●指以作者本人的研究成果为依据而撰写并公开发表或出版的信息。 ●二次文献 ●是对一定范围、时间或类型的大量一次文献按其特征收集整理、压缩、加工,并按一定顺序组 织编排、用于检索查找利用这些文献而编制的文献。如书目、索引、文摘、题录、简介等。 ●三次文献 ●三次文献是在充分利用二次文献的基础上对一次文献做出的系统整理和概括的论述,并加以分 析综合编写而成的概括性文献。 ●主题词 ●是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元, 作为信息存储和检索依据的一种检索语言。 ●关键词 ●关键词是出现在文献题名、文摘、正文中,能够表达文献主题,具有检索意义的语词。 ●叙词 ●所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。 ●查全率 ●查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率, 它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。 ●查全率=【检出相关文献量/文献库内相关文献总量】×100% ●查准率 ●查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从 该系统文献库中实际检出的全部文献中有多少是相关的。 ●查准率=【检出相关文献量/检出文献总量】×100% ●字段 ●字段是组成记录的数据项。书目数据库中的字段反映一篇文献的具体特征,如标题字段、著者 字段、文献来源字段、主题词字段、关键词字段、文摘字段、语种字段等。 ●专利文献

信息检索复习题

信息检索复习题 第一部分各章思考题 第一章思考题 1.信息、知识、文献的概念及相互关系是什么? 2.信息环境问题主要体现在哪些方面? 3.信息素质的内涵包括哪些内容? 4.按文献的载体形式、出版形式可分别将文献分为哪几种类型? 5.按文献的加工程度可将文献分为哪几种类型?它们之间的关系是什么? 第二章思考题 1.文献的外部特征和内容特征分别有哪些? 2.检索方法及各自的优缺点有哪些? 3.常用的检索技术有哪些? 4.简述布尔逻辑算符AND、OR和NOT在编制检索提问式中的作用。 5.请为检索课题“航空或航天发动机的设计和制造”编制检索式。 6.在一个具有1000篇文献的检索系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率。 第三章思考题 1. 你是如何认识数字图书馆时代的馆藏资源的? 2. 请做排序:TP3/2;I247.5/123;I247.5/55;TP316/4;O13/5;TM925/44;G252.7/178;TP39/3。 3. 谈谈你对数字图书馆的认识。 4. 请检索你在图书馆近一年的借阅历史。 5. 请检索丁元霖主编的《商品流通企业会计》在中国国家图书馆是否有收藏,收藏在哪些书库? 第四章思考题 1.试比较分析中国知网(CNKI)、万方数据知识服务平台、维普资讯网中“中文期刊数据库”的异同点。 2.查找你所在单位人员撰写的你所学学科专业的硕士论文或博士论文3篇。 3.用检索实例说明中国知网(CNKI)标准检索、高级检索、专业检索、引文检索、学者检索的检索方法。 4.查找洗衣机方面的中国专利2项。简述检索方法和步骤。 5.查找参考文献写作规范的国家标准。 第五章思考题 1.结合你所学专业列出你所熟悉的外文电子图书数据库,并简述其检索方法。 2.简述你所学专业的常用外文电子期刊数据库有哪几种,并以其中一个数据库说明其检索方法。3.简述ProQuest学位论文数据库检索方法。 4.你常用的外文专利数据库有哪些?并简述其检索方法。 5.如何查找国外标准文献,请查找一条和你专业相关的国外标准。

科技写作与文献检索名词解释解读

名词解释 1. 科技论文是对创造性的科研成果进行理论分析和总结的科技写作文体。 2. 学术性论文——指研究人员提供给学术性期刊发表或向学术会议提交的论文,它以报道学术研究成果为主要内容。 3. 学位论文是表明作者从事科学研究取得创造性的结果,或有了新的见解,并以此为内容撰写而成、作为提出申请授予相应的学位时评审用的科技论文。 4. 学士论文指大学本科毕业生申请学士学位要提交的论文。 5. 综述性文章又称文献综述,英文名为 review 。它是利用已发表的文献资料为原始素材撰写的论文。 6. 题名又叫文题、题目、标题,是论文的总纲,是能反映论文最重要的特定内容的最恰当、最简明的词语的逻辑组合。 7. 文献 :记录有知识或者信息的一切载体。 8. 科技文献 :记录科学技术信息或知识的物质载体, 是人们从事科学技术活动劳动成果的表现形式之一。 9. 文献信息是从文献实体结构中抽象出来的内容,是借助于文献这种载体显示出来的信息,通过文献进行存储和传播。 10. 零次文献 ----未经出版发行的或者未进入社会交流的原始的文献。 11. 一次文献 ------以作者本人取得的成果为依据而创作的论文、报告等公开发表或出版的各种文献。 12. 二次文献 ----报道和查找一次文献的检索工具。 13. 三次文献 ----根据二次文献提供的线索,选用大量的一次文献的内容,经过筛选、分析、综合和浓缩而再度出版的文献。

14. 期刊 -----也称杂志,是一种以印刷形式或其它形式逐次刊出的,通常有数字或年月顺序编号,并打算无限期地连续出版下去的出版物。 15. 文献信息检索是指从任何文献信息集合中查处所需信息的活动、过程与方法。 16. 全文检索——是以文献所含的全部信息作为检索内容,即检索系统存储的是整篇文章或整部图书的全部内容。 17. 检索语言是用来描述文献的内容特征、外表特征和表达检索提问的一种人工语言。 18. 先组式语言——在文献信息检索之前,表达文献信息内容的标识已经事先组配好的检索语言。 19. 后组式语言——表述文献信息主题概念的标识,在编制检索语言词表和标引文献信息时,都不预先固定组配,而是在进行标引和检索时,根据实际需要,按组配规则临时组配起来表达文献特征的检索语言。 20. 引文和来源文献——一篇文章的参考文献称为引文;该篇文章称为来源文献。 21. 来源出版物——刊载来源文献的期刊或专著丛书等。 22. 被引作者或引文作者——即参考文献的作者。 23. 施引作者或引用作者——即来源文献的作者。 24. 引文索引——反映文献之间引用和被引用关系及其规律的一种新型索引工具。 1

文献检索知识点复习

2020年文献检索课程知识点梳理 第一章绪论 1.信息素养的内容:信息意识,信息知识,信息能力,信息道德 2.情报的三个基本要素:知识性、传递性、效用性 3.文献的三要素:内容、载体、记录方式 例题:以下关于文献的说法正确的有( B ) A.可以没有物质载体,但一定要有知识内容 B.记载知识内容的物质载体 C.可以没有物质载体,但一定要有知识内 D.凡是被人们加以利用的知识均可称为文献 第二章文献检索基础知识 4.《中国图书馆分类法》简称《中图法》,它将知识按照学科属性分为马列主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书五大部类,22个基本大类,其中R代表医学,H代表语言、文字,I代表文学。 图书馆对馆藏资料进行加工的时候,会依据一定的标准分配给每本图书一个索书号,作为工作人员进行图书上架的依据,同时也是读者查找和获取图书的依据。 5. 数据库类型:数值型数据库、事实型数据库、图像型数据库、全文型数据库。 6.按文献内容的加工深度和内容性质划分: (1)一次文献:即原始文献,是以作者本人的工作经验、观察或实际科研成果为依据而创作的具有一定发明创造或一些新见解的文献。如:期刊论文、专著、科技报告、专利说明、会议论文、学位论文、技术标准等。(特点:内容先进、成熟,叙述具体、详尽,数量庞大、分散) (2)二次文献:即对一定范围、时间和类型的大量一次性文献按其特征收集整理、压缩、加工,并按一定顺序组织编排、用于检索查找利用这些文献而编制的文献。如:书目、索引、文摘、题录、简介等。(特点:汇集性、工具性、综合性、系统性) (3)三次文献:是在充分利用二次文献提供的基础上对一次文献做出的系统整理和概括的论述,并加以分析综合编写而成的概括性文献。主要包括三种类型:①综述研究,如:专题述评、总结报告、动态综述、进展通讯、信息预测、

相关文档