文档库 最新最全的文档下载
当前位置:文档库 › 信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论-王斌 第一次课后练习(1-4)
信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论第一次课后练习(第1讲-第4讲)

1.习题1-3 [*]

对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?

a. schizophrenia AND drug

b. for AND NOT (drug OR approach)

解答:

习题1-2的文档集如下:

文档1 breakthrough drug for schizophrenia

文档2 new schizophrenia drug

文档3 new approach for treatment of schizophrenia

文档4 new hopes for schizophrenia patients

词项文档对应如下:

词项docID 词项docId breakthrough 1 approach 3

drug 1 breakthrough 1

for 1 drug 1 schizophrenia 1 drug 2

new 2 for 1 schizophrenia 2 for 3

drug 2 for 4

new 3 hopes 4 approach 3 => new 2

for 3 new 3 treatment 3 new 4

of 3 of 3 schizophrenia 3 patients 4

new 4 schizophrenia 1 hopes 4 schizophrenia 2

for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3

它对应的倒排索引表如下:

词项文档频率倒排记录表

approach 1 → 3

breakthrough 1 → 1

drug 2 →1→2

for 3 →1→3→4

hopes 1 → 4

new 3 →2→3→4

of 1 → 3

patients 1 → 4

schizophrenia 4 →1→2→3→4

treatment 1 → 3

a.schizophrenia AND drug

schizophrenia →1→2→3→4

AND drug →1→2

得出交集=> 1→2

结果为文档1和2

b. for AND NOT (drug OR approach)

先求drug OR approach

drug →1→2

OR approach → 3

得出并集→1→2→3

则NOT (drug OR approach)→ 4

AND for →1→3→4

得出交集→ 4

所以结果为文档4

2. 习题1-7

请推荐如下查询的处理次序。

d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

其中,每个词项对应的倒排记录表的长度分别如下:

词项倒排记录表长度

eyes 213312

kaleidoscope 87009

marmalade 107913

skies 271658

tangerine 46653

trees 316812

解答:

先将词项倒排记录表按从小到大排序:

词项倒排索引表

tangerine 46653

kaleidoscope 87009

marmalade 107913

eyes 213312

skies 271658

trees 316812

每个OR查询后的保守估计的索引表大小从小到大排序:

kaleidoscope OR eyes 300321

tangerine OR trees 363465

marmalade OR skies 379571

所以该查询的处理次序为:

kaleidoscope OR eyes→tangerine OR trees→marmalade OR skies→(tangerine OR trees) AND (kaleidoscope OR eyes)→(tangerine OR trees) AND (kaleidoscope OR eyes)AND (marmalade OR skies)

3. 习题2-1

请判断如下说法是否正确。

a. 在布尔检索系统中,进行词干还原从不降低正确率。

b. 在布尔检索系统中,进行词干还原从不降低召回率。

c. 词干还原会增加词项词典的大小。

d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。

解答:

A错,因为词干还原相当于扩充出同一个词干表示的多个词,会降低正确率。

B对

C错,词干还原的目的是为了减少屈折变化的形式,并且有时会将派生词转化为基本形式,会减少词项词典的大小。

D错,应该同时做才能保证索引中和查询词的匹配。

4. 习题2-3

如下词经过Porter词干还原工具处理后会输出同样的结果,你认为哪对(几对)词不应该输出同样的结果?为什么?

a. abandon/abandonment

b. absorbency/absorbent

c. marketing/markets

d. university/universe

e. volume/volumes

解答:

c中marketing的意思为营销,market的意思为市场,这两个词虽然词干相同,但意思不同,不应该输出同样的结果。

D同理,university是大学,而universe是宇宙。

5. 习题2-6 【注:每一对数字之间只比较1次,而不是图2-10算法中的可能多次比较】对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16 个文档ID:

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:[47]

请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。

a. 使用标准的倒排记录表。

b. 使用倒排记录表+

解答:

A.4,6,10,12,14,16,18,20,22,32,47都分别和47比较了一次,共比较了11次

B处,即列表一的调表指针往后跳四个元素,将列表整理如下:[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

红色是有调表指针的索引,120是跳到180

其中4,14,22,120,32,47分别和47比较了一次,总共比较了6次

6. 习题3-2

写出由词项mama 生成的轮排索引词汇表中的条目。

解答:

mama$ ama$m ma$ma a$mam

7. 习题3-8

计算 paris 和 alice 之间的编辑距离,给出类似于图 3-5 中的算法结果,其中的 5 × 5 矩包含每个前缀子串之间的计算结果。 解答:

0112233445511223344556121223344552122334455623122334455332233445563423233445544333244556453434233445544443344556454534344

a l i c e

p a r i s

8. 习题3-11

考虑四词查询 catched in the rye ,假定根据独立的词项拼写校正方法,每个词选的正确拼写形式。 那么, 如果不对空间进行缩减的话, 需要考虑多少可能的短语拼写形式 (提示:同时要考虑原始查询本身,也就是每个词项有 6种变化可能)? 解答:6*6*6*6=1296

9. 习题4-1

如果需要Tlog2T 次比较(T 是词项ID —文档ID 对的数目),每次比较都有两次磁盘寻道过程。假定使用磁盘而不是内存进行存储,并且不采用优化的排序算法(也就是说不使用前面提到的外部排序算法),那么对于Reuters-RCV1构建索引需要多长时间?计算时假定采用表 4-1中的系统参数。 解答:

对于Reuters-RCV1,T=108

根据4-1中的系统参数,比较时间为0.01ms=10?8s ,平均寻道时间为:5ms = 5×10?3s 所以构建索引的时间为:2*(108*log 2108)*5*10-3s = 26575424s=7382h=308day

10. 习题4-3

对于 n = 15个数据片,r = 10个分区文件,j = 3 个词项分区,假定使用的集群的机器的参数

如表4-1所示,那么在MapReduce 构架下对Reuters-RCV1语料进行分布式索引需要多长时间?

解答:

MapReduce分为Map和Reduce两个子任务过程。

·首先是map,将输入的数据片映射成键-值对,每个分析器将输出结果存在本地的中间文件。

(1) 基于表4-2,Reuters RCV1共有8*105篇文档,每篇200词条,每个词条占6B,因此整个语料库的大小为:8*105 *200*6=9.6*108 B

分成15份:9.6*108 /15 B

每一份读入机器的时间为:9.6*108 /15*2*10-8 =1.28s

(2) 词条化:

每一份语料在机器上进行词条化处理,得到词项ID-文档ID对个数为:8*105 *200=1.6*108 共占字节数:1.6*108 *8=1.28*109

(3) 写入分区文件:

每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为:(1.28*109 /15)*2*10-8 =1.71s (4)

MAP阶段时间:

10台机器对15份语料进行MAP操作,整个MAP过程所需时间为(1.28+1.71)*2=6.0s ·REDUCE阶段,读入分区文件,排序,写入倒排索引

(1) 读入分区文件

每台索引器上需要读入的倒排记录表数据为1.28*109 /3字节

每台索引器读数据的时间为1.28*109 /3*2*10-8 =8.5s

(2) 排序:每台索引器排序所花的时间为1.6*108 /3*log2(1.6*108 /3)*10-8 =13.7s

(3) 写入倒排索引文件:

需要写入磁盘的索引大小为:4*105 /3*4+108 /3*4=4/3*108 字节

索引写入磁盘的时间为:4/3*108 *2*10-8 =2.7s

(4) REDUCE阶段时间为:8.5+13.7+2.7=24.9

·因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s

信息检索课后答案

作业习题 《信息检索》思考题及参考答案 (根据新编教学大纲内容选答) 第一讲信息检索基础知识 1.简述大学图书馆的地位和作用。 大学图书馆是大学的文献信息中心,是为教学和科研服务的学术性机构,是学校信息化和社会信息化的重要基地。高等学校图书馆的工作是学校教学和科学研究工作的重要组成部分。现代化的大学图书馆与学校高水平的教师队伍、先进的教学实验设备,共称为现代化大学的三大支柱。大学图书馆既是是学校的文献信息中心又是学习资源中心,是培养人才的重要基地,是自学深造的场所,是学生构建合理知识结构的第二课堂。 2.简述信息、知识、文献的概念及相互关系。 答:信息的概念:一般来说,信息是指与客观事物相联系,反映客观事物的运动状态,通过一定的物质载体被发出、传递和感受,对接受对象的思维产生影响并用来指导接受对象的行为的一种描述。从本质上说,信息是反映现实世界的运动、发展和变化状态及规律的信号与消息。 知识的概念:知识是人类通过信息对自然界、人类社会以及思维方式与运动规律的认识和掌握,是人的大脑通过思维重新组合的系统

化的信息的集合。知识是人类在改造客观世界的实际中所获得的认识和经验的总和,是信息的一部分,是一种特定的人类信息。 文献的概念:文献是记录有知识的一切物质载体。具体地说是用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。 信息、知识和文献之间的关系是:信息是事物发出的消息,信息经过人脑加工形成知识。只有将自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识,这种再生信息才构成知识。知识信息被记录在载体上就形成文献。 3.何谓信息资源?网络信息资源有何特点? 所谓信息资源,就是信息的来源。各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源。网络信息资源具有数量大、类型多、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。 4.试述《中图法》的体系结构及其在文献信息检索中的作用。 《中图法》将人类知识分为马列主义及毛泽东思想、哲学、社会科学、自然科学和综合性图书5大基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,基本采用层累制编号法,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用

国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章) 以下每题10分,共计100分。 1、习题1-4 a.时间复杂度O(x+y)。因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档 号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果xy,caesar指针后移。 b.时间复杂度是O(N),N是全部的文档数。因为结果集的大小取决于文档数N,而不是倒排记录表的长度。 2、习题1-7 对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度 (tangerine OR trees) = O(46653+316812)=O(363465) (marmalade OR skies) = O(107913+271658) = O(379571) (kaleidoscope OR eyes) = O(46653+87009) = O(300321) 即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies) 3、习题1-10 UNION(p1,p2) answer ←{ } while p1!=NIL and p2!=NIL do if docID(p1)=docID(p2) then ADD(answer,docID(p1)) p1<- next(p1) p2<-next(p2) else if docID(p1)

信息检索题库+参考答案(终极版)

四川师范大学信息检索课后作业 1.(第1章?单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。 A、信息素养 B、信息安全 C、信息检索 D、信息评价 2.(第1章?多选)信息素养的基本构成具体包括(ABCD) A、信息知识 B、信息意识 C、信息能力 D、信息伦理 3.(第1章?多选)信息意识具体包括(ABCD)。 A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取 4.(第1 A、 B、C、D、 5.(第1 A、 6.(第1《高 ABCD)。A、 7.(第1 A、 8.(第1 A、信息知识 B、信息能力 C、信息意识 D、信息伦理 9.(第1章?单选)(C)是指人类对信息需求的自我意识,是人类在信息活动中产生的认识、观念和需求的总和。 A、信息知识 B、信息能力 C、信息意识 D、信息伦理 10.(第1章?判断)以“走向具有信息素养的社会”为主题的《布拉格宣言》认为,作为一种适应社会的基本能力和参与社会的先决条件,信息素养能够确定、检索、评估、组织和有效地生产、使用和交流信息,并解决所遇到的问题,是终身学习的一种基本人权。√ 11.(第1章?判断)作为信息素养的基本构成,信息知识、信息意识、信息能力和信息伦理四个要素相辅相成、不可分割。其中,信息意识是先导,信息知识是基础,信息能力是核心,信息伦理是保障,四个要素共同构成了一个统一的整体。√ 12.(第1章?判断)2005年北京高教学会图书馆工作研究会提出了《北京地区高校信息素质能力指

标体系》。这个指标体系从信息意识、信息知识、信息能力、信息伦理四个方面提出了高校学生应具有的信息素养要求,具体由7个一级指标,19个二级指标,61个三级指标组成。√ 13.(第1章?判断)以“信息社会在行动:信息素养与终身学习”为主题的《亚历山大宣言》指出,信息素养和终身学习是信息社会的灯塔,照亮了通向发展、繁荣和自由的道路。-------T 14.(第1章?判断)信息素养是终身学习的核心。------T 15.(第1章?判断)信息检索能力也就是确定信息的能力,即把遇到的问题转换为具体信息需求的能力。------F 16.(第1章?判断)信息素养教育的目标是培养终身学习能力。具体而言,就是能够想到而且能够做到通过获取和利用信息解决所遇到的问题,并且能够把所获取的信息融入自身的知识结构,把获取信息的过程和经历内化为自身的学习能力。------T 17.(第2章?多选)信息的属性包括(ABCD) A、 *18.(第 A、 19.(第 A、 20.(第 A、 21.(第 A、 22.(第 A、 23.(第 有(AD A、、使用 24.(第 A、 25.(第 A、 26.(第 A、 27.(第 A、 28.(第2章?多选)网络检索系统的特点是(ABC)。 A、资料丰富 B、检索方便 C、费用低廉 D、资源共享 29.(第2章?多选)使用逻辑“或”是为了(AC)。 A、提高查全率 B、提高查准率 C、扩大检索范围 D、缩小检索范围 30.(第2章?多选)截词检索中,常用的截词符号有(CD)。 A、+ B、- C、* D、? 31.(第2章?多选)下列哪种情况下检索人员需要修改检索策略(AB)。 A、检索结果中无关信息量过多 B、检索结果中输出的信息量太少 C、网速太慢,检索过程中需要的时间过长 D、检索结果文献大部分比较陈旧 32.(第2章?多选)影响检索效果的因素主要来自两个方面(CD)。 A、查全率 B、查准率 C、检索系统本身 D、检索人员的检索水平

《文献检索》期末考试复习题及答案

《文献检索》试题 1 一、单项选择题 1.信息成为情报必须具有的三个基本要素是( C )。 A.选择、综合、分析 B.综合、筛选、重新组合 C.知识、传递、效益 D. 筛选、组合、系统化 2.下面对查全率和查准率描述错误的是( A )。 A.若某检索工具的查全率较高,则查准率也会相对较高 B.查准率为检出的相关文献量占检出文献总量的百分比 C.查全率和查准率是反映文献标引深度的两个最主要的指标 D.查准率和查全率存在互逆关系 3.下面对叙词语言描述正确的是( A )。 A.叙词语言是后组式语言 B.叙词语言是非规范性语言 C.叙词语言是字面组配 D.叙词直接取自文献中有实际意义的词 4.下面哪项不是代查代检的服务项目( D ) A.专题文献检索服务 B.论文发表快速通道检索证明 C.论文收录与引用情况报告 D.电子阅览服务 5.个性化导读服务的原则是( C )。 A.预测性原则与科学性原则 B.选择性原则与针对性原则 C.主动性原则与双向性原则 D.综合性原则与及时性原则 6.读秀电子图书的专用全文阅读器是( C )。 A. DjVu Reader C. ApabiReader

7.中国生物医学文献服务系统(SinoMed)中能检索出含有“肝炎疫苗”、“肝炎病毒基因疫苗”、“肝炎减毒活疫苗”、“肝炎灭活疫苗”等文献的检索式是( B )。 A.肝炎疫苗 B.肝炎%疫苗 C.肝炎*疫苗 D.肝炎$疫苗8.EMBASE com数据库中检索韩冬季(Han Dongji)的文章,检索式输入错误的是( C )。 A.Han B.Han D J C.Han DJ D.Han D. 9.支持视觉搜索的数据库是( D )。 A.PubMed B.SinoMed C.EMBASE.com D.CINAHL 10.通过Web of Science数据库检索北京大学附属医院师生发表的文献,可用的检索式是( B )。 A. Peking Univ AND hosp Univ SAME hosp C. Peking Univ WITH hosp Univ NEAR hosp 11.以下不属于特种文献的是( B )。 A.专利文献 B.期刊论文 C.学位论文 D.会议论文 12.我国发明、实用新型和外观设计三种类型专利的有效期分别为( C )。 A. 20年、15年、10年 B.10年、20年、10年 C.20年、10年、10年 D.15年、10年、10年 13.下面错误描述Google的是( B )。 A.Google属于综合性搜索引擎 B.Google属于元搜索引擎 C.Google属于通用型搜索引擎 D.Google不属于专题搜索引擎14.下面为开放获取期刊网站的是( D )。

网络信息检索试题及答案(DOC)

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有( C )特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含( B ): A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉 4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?( A ) A. 文摘 B. 会议文献 C. 辞典 D.百科全书 8、“文章草稿”、“私人笔记”及“会议记录”属于( A )。 A. 零次文献 B. 一次文献 C. 二次文献 D. 三次文献 9、下列选项中哪一项属于“国内统一刊号”(C )。 A. ISBN 7-04-014623-1 B. ISSN 0254-4164 C. CN 11-2127/TP D. 0254-4164/TP 10、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( C )参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL] .(2001-12-19) [2002-04- 15]. http:∥www. ….htm. A、标准文献 B、期刊(杂志) C、电子文献 D、会议文献 11、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( B )参考文献的著录条目描述。 昂温G,昂温P S .外国出版史[M]. 陈生铮,译. 北京:中国书籍出版社, 2001:15-20 A、期刊(J) B、图书 C、科技报告(R) D、会议文献(Z) 12、下面哪些资料属于三次信息?(ACFLOP) A、《2009年山东省统计年鉴》 B、美国《工程索引》 C、《新华字典》 D、《新华文摘》 E、《机械工业出版社2012年图书征订目录》 F、《计算机科学技术百科全书》 G、《计算机工程与应用》 H、《网络营销》 I、《NASA报告》。 J、《博士论文:论网络时代的商务模

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

《信息检索》总复习题库及答案

2011-2012经济学院《文献检索与利用》总复习题库 备注:红色为不确定答案,紫色是为了个人强化记忆。 单选题题库 1.下列属于布尔逻辑算符的是(D )。 A、与 B、或 C、非 D、以上都是 2、信息素养的核心是(C ). A、信息意识; B、信息知识; C、信息能力; D、信息道德 3、20世纪70年代,联合国教科文组织提出:人类要向着( B )发展. A、终身学习; B、学习型社会; C、创新发展; D、信息素质 4.参考文献的标准著录格式是( A )。 A、著者篇名来源出处; B、篇名著者来源出处 5.请标出文献:马品仲. 大型天文望远镜研究. 中国的空间科学技术,1993,13(5)P6-14, 1000-758X 属于哪种文献类型( C )。 A、图书; B、科技报告; C、期刊; D、报纸 6.常用的检索系统有( D )。 A、目录检索系统 B、文摘检索系统 C、全文检索系统 D、以上都是 7、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?( A )。A.逻辑与()B.逻辑或() C.逻辑非()D.逻辑与和逻辑非 8、根据国家相关标准,文献的定义是指“记录有关( C )的一切载体。”A.情报 B.信息. C.知识 D.数据 9、( D )是指通过文献信息资料的主题内容进行检索的途径。 A.题名检索途径 B.作者检索途径 C.分类检索途径 D.主题检索途径 10、搜索含有“”的文件,正确的检索式为:( A )

A." " B. 11、从文献的( B )角度区分,可将文献分为印刷型、电子型文献。A.内容公开次数 B.载体类型. C.出版类型 D.公开程度 12、按照出版时间的先后,应将各个级别的文献排列成( C ) A.三次文献、二次文献、一次文献B.一次文献、三次文献、二次文献C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献13、利用文献后面所附的参考文献进行检索的方法称为( A )。 A.追溯法 B.直接法. C.抽查法 D.综合法 14、《中国学术期刊全文数据库》给出的检索结果为( D )。 A.仅题录 B.仅文摘. C.仅全文 D.题录、文摘和全文三种 15、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献. C.二次文献 D.三次文献 16、学术论文写作的六个步骤的正确顺序是( C ): ①搜集资料②研究资料③执笔撰写④选择课题⑤明确论点⑥修改 定稿 A.①⑤④③②⑥ B.⑤③④②①⑥C.④①②⑤③⑥D.②④ ③①⑤⑥ 17、毕业论文答辩的一般程序是( B D ) ①学生答辩②学生作说明性汇报③毕业答辩小组提问④评定成绩 A.③④②①B.②③①④C.③②①④D.②③①④ 18、下列文献中属于哪类属于一次文献( C )? A.文摘 B.索引C.科技报告D.题录 19、如果检索结果过少,查全率很低,需要调整检索范围,此时调整检索策

《文献信息检索》习题答案文献信息检索(答案)

《文献信息检索》习题答案 一、单选题 1、文献是记录有知识的(A) A.载体 B.纸张 C.光盘 D.磁盘 2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。 A.分类索引 B.作者索引 C.引文索引 D.主题索引 3、下列哪种文献属于二次文献( D.) A.专利文献 B.学位论文 C.会议文献 D.目录 4、纸质信息源的载体是(D) A.光盘 B.缩微平片 C.感光材料 D.纸张 5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.) A.5大部分22个大类 B.5大部分26个大类 C.6大部分22个大类 D.6大部分26个大类 6、利用文献末尾所附参考文献进行检索的方法是(C) A.倒查法 B.顺查法 C.引文追溯法 D.抽查法 7、广义的信息检索包含两个过程(B) A.检索与利用 B.存储与检索 C.存储与利用 D.检索与报道 8、中国国家标准的代码是(A) A.G B. B.CB. C.ZG D.CG 9、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录 10、逻辑运算符包括(D) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于() A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘 12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者 13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A) A.会议论文,科技期刊,科技报告,科技图书 B.科技图书,科技期刊,科技报告,会议论文 C.科技报告,会议论文,科技图书,科技期刊 D.以上都不对 14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B) A.书目数据库 B.指南数据库 C.全文数据库 D.数值数据库 15、下列检索工具中,主要收录化学与化工类文献的是:(D) A.SCI B.OCLC C.EI

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业 1、习题13-2 答:(i)贝努利模型:三个文档具有相同的模型表示 (ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

3、习题14-6 在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)? 答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价? 答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么? b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。 b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。 答:(1)词项-文档矩阵: d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1

信息检索与利用部分参考答案

1、信息是事物状态及其状态变化的反映,也是物质的一种普遍属性。 2、文献是指记录有知识的一切载体。 3、文献按其加工深度不同可以划分为零次文献、一次文献、二次文献和三次文献。 4、信息资源按其载体形式的不同,可以分为传统信息资源和电子信息资源。 5、连续出版物的主要类型有期刊、报纸和年鉴三种。 6、与标准有关的一切文献都称为标准文献。 7、数据库的主要部分是一系列的记录所组成的文档,每条记录又由不同的字段组成。 8、每一条记录是由三种类型的字段组成,即检索系统存取号、基本索引字段和辅助索引字段。 9、信息检索常用的方法有:直接法、追溯法和循环法。 10、访问Web服务器时激活的第一个超文本页面称为主页。 11、搜索引擎有目录查询和关键词查询两种检索方式。 12、在计算机信息检索中,用于组配检索词和限定检索范围的布尔逻辑运算符包括:and 、or和not三种。 13、按构成原理划分,信息检索语言可以分为表述文献外部特征的语言和表述文献内容特征的语言2大类。 14、所需信息被检出程度的信息量指标为查全率。 15、文献查准率是与查询相关的结果占全部查获文献的百分比。 四、判断题(用√表示正确,用×表示错误。10分,每题1分) 1、从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化的过程。(×) 2、从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。(√) 3、题录、目录属于一次文献;期刊论文属于二次文献。(×) 4、综述和百科全书属于二次文献。(×) 5、在众多的信息源中,期刊是最重要的信息源。(×) 6、核心期刊是指经常使用的期刊。(×) 7、关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经词表规范的自由词。(×) 8、《中国图书分类法》(简称《中图法》)是由分类号(代码)和类名来揭示信息的主题概念。(×) 9、题录型的检索工具,其著录项目包括题目、作者、文献出处、文摘。(×) 10、一项发明创造要获得专利权必须具备新颖性、创造性和实用性。(√ ) 3、我国文献信息系统的体系结构 我国文献信息系统的体系结构是由若干个相对独立的并行子系统构成。 A、图书馆系统(公共图书馆、高校图书馆、科研图书馆) B、科学技术信息研究所及其系统 C、专利文献系统

1文献检索导论

Zhejiang University
文献检索导论
冀海峰/侯迪波
浙江大学控制科学与工程学系

Zhejiang University
1 文献的基本概念
文献的定义 文献的类型 现代科技文献的特点

Zhejiang University
1.1 信息、知识和文献
信息:事物运动的状态 与方式。 知识:人类对事物本质 认识的成果和结晶。 文献:记录知识 的一切载体。
文献 知识 信息

Zhejiang University
信息:
《辞海》:信息是指对消息接收者来说预先不知道的报道。 《传播学概论》:信息是用语言、文字、数字、符号、图象、声 音、情景、表情、状态等方式传递的内容。 《情报学概念》:信息是生物以及具有自动控制系统的机器通过 感觉器官和相应的设备与外界进行交换的一切内容。 香农(Shano): 信息是熵(不确定性)的减少。 维纳(Wiener): 信息就是信息,不是物质,也不是能量。 信息是事物属性的再现,是事物存在的方式、形态和运动规律的 表征,是事物具有的一种普遍属性。
知识:知识是人类在认识和改造世界的社会实践中获得 的对事物本质认识的成果和结晶。

Zhejiang University
1.2 文献的定义
文献是记录有知识的一切载体的统称。即用文字、 图像、符号、声音、音频、视频、编码等手段记 录的人类知识的各种载体。 文献的三要素:知识、载体、记录方式。 文献的属性:知识信息性:客观物质性;人工记 录性;动态发展性。

文献检索平时作业答案带图(温医)

1.简述文献的构成。 答:现代文献由四要素构成:文献信息、文献载体、符号系统和记录方式。 2.简述医学文献的特点。 答:数量庞大、载体多样化、多文种化、学科交叉出版分散、知识信息更新加快、交流传播速度加快、电子化发展趋势。 3.简述文献检索的概念和类型。 答:概念:广义的文献检索包括信息的存储和检索两个过程,是指将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。 狭义的信息检索即从检索工具或检索系统中,通过一定的检索途径或检索方式查找出需要的信息的过程。 类型:①按照检出结果的形式划分:书目检索、全文检索、引文检索。 ②从情报检索角度划分:文献检索、数据检索、事实检索。 ③按照线索手段划分:手工检索、计算机检索。 4.简述文献检索系统的评价因素。 答:报道信息的准确性、报道信息的及时性、索引体系的完善程度、对信息标引的深度、查全率和查准率。 5.什么事查全率和查准率,二者之间有何关系? 答:查全率(R)和查准率(P)是检索系统最为流行和重要的两个性能和效果评价指标。 R=检出的相关信息量/检索工具中相关信息总量X100% P=检出的相关信息量/检出的信息总量X100% 两者之间存在互逆关系,即如果检索工具的查全率较高,则其查准率将相对下降;反之查准率高,则查全率低;而且查全率和查准率只能相对提高,二者永远不可能同时达到100%。 6.试述文献信息的类型。

答:①按文献信息表现形式划分:文字型、视频型、音频型、数字型 ②按文献信息的出版类型划分:图书、期刊、政府出版物、科技报告、专利文献、会议文献、学位论文、标准文献、产品样本说明书、技术档案 ③按文献信息的载体形式划分:印刷型、缩微型、声像型、电子型 ④按文献信息的加工程度划分: ⑴零次文献信息:书信、手稿、实验数据、观察记录、笔记、内部档案等。特点:内容新颖,但不成熟,难以查询。 ⑵一次文献信息:期刊论文、专利说明书、会议论文、学位论文、科技报告等。特点:内容新颖、详尽,因而是文献信息的最主要来源和检索对象,但其量大、分散而无序,对其查找与利用带来不便。 ⑶二次文献信息: 目录、索引和文摘等。特点:报道性和检索性,主要作用是提供查找文献信息的线索,故又称为检索工具。 ⑷三次文献信息:综述、进展、年鉴和百科全书等。 7.试述电子文献资源的概念与特点。 答:电子文献资源是以电子数据的形式,把文字、声音、图像、视频、等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传播,并通过网络通信、计算机或终端和其他外部设备等方式再表现出来的一种新型文献资源。 特点:1.存储介质和传播形式的改变 2.信息的表现形式多样化 3.文献资源类型多样化 4.多层次的信息服务功能 5.更新速度快、时效性强 6.具备检索系统或功能 7.检索访问不受时空限制 8.试述医学电子文献资源的类型。

信息检索导论王斌译第一章课后习题答案

习题1-1 forecasts 1 1 home 4 1 2 3 4 in 2 2 3 increase 1 3 july 3 2 3 4 new 2 1 4 rise 2 2 4 sales 4 1 2 3 4 top 1 1 把所有文档中的词抽取,按顺序排序。倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写 习题1-2 A题 1 2 3 4 approach 0 0 1 0 breakthrough 1 0 0 0 Drug 1 1 0 0 For 1 0 1 1 Hope 0 0 0 1 New 0 1 1 1 Of 0 0 1 0 Patient 0 0 0 1 Schizophrenia 1 1 1 1 Treatment 0 0 1 0 矩阵行是词,按顺序排列;列方向是文档编号。某文档出现某词,相应位置填1,否则填0 B题 Approach 1 3 Breakthrough 1 1 Drug 2 1 2 For 3 1 3 4 Hope 1 4 New 3 2 3 4 Of 1 3 Patient 1 4 Schizophrenia 4 1 2 3 4 Treatment 1 3 习题1-7 1.Kaleidoscope OR eyes 87009+213312 2.Marmalade OR skies 107913+271658

3.Tangerine OR trees 46653+316812 按估计的记录个数,从小到大的顺序 1 2 4 11 31 45 173 174 P 2 31 54 101 Q 1 1 2 4 11 31 45 54 101 173 174 相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移 习题1-10 Answer <- <> While p1!=Nil or p2!=Nil Do if docID(p1)=docID(p2) Then Add(answer,docID(p1)) P1<-next(p1) P2<-next(p2) Else if docID(p1)

信息检索考试题汇总(附答案)

一、单项选择题(从下列各题四个备选答案中选出一个正确答案,并将其代号写在答题纸相应位置处。每题2分,共30分) C 1. _是题录型检索工具 A. CABI B.中国学术期刊文摘 C.全国报刊索引(自然版) D.经济纵横 D 2. 浏览超星数字图书馆,应首先安装______. A. Apabi Reader B. Adobe Reader C. CAJ Viewer D. SSReader A 3. 世界上第一大联机检索系统是__。 A.DIALOG系统 B.OBRIT系统 C.OCLC系统 D.STN 系统 B 4. 利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是_________。 A.site: B.intitle: C. inurl: https://www.wendangku.net/doc/6010261117.html,: A 5.国际农业和生物科学中心英文名称的简称为_ 。 A.CABI B. AGRINDEX C. BA D.B of A C 6.信息检索根据检索对象不同,一般分为_____________。A. 二次检索、高级检索 B.分类检索、主题检索 C.数据检索、事实检索、文献检索 D.计算机检索、手工检索 A 7. 国际上评价期刊最有影响力的一个指标是 _______。 A. 影响因子 B.读者统计数据 C.引文量 D.价格 C 8. 二次检索指的是:_____________。 A.第二次检索 B.检索了一次之后,结果不满意,再检索一次C.在检索结果中运用“与、或、非”进行再限制检索 D.以上都不是 A 9.国际连续出版物编号____________。 A.ISSN B.OCLC C.ISBN D. CSSCI B 10.下列搜索引擎具有书名号检索功能的有_____________。A.Google B.百度 C.中搜 D.AltaVista B 11.《中文核心期刊要目总览》2004 版的“农业经济”类核心期刊有___ 种。 A.20 B.19 C.17 D.15 B 12.通过追溯检索获得的相关文献与原文献相比在发表时间上____。 A.早 B.晚 C. 相同 D. 不确定 B 13.在维普中文期刊全文数据库中“在检索结果中”检索相当于。 A.逻辑“非” B.逻辑“与” C.逻辑“或” D.逻辑“加” D 14.检索语言中,是自然语言。 A.标题词 B.主题词 C.单元词 D.关键词 A 15.在baidu搜索引擎中,要实现字段的精确检索,可以用来限定。 A.“”(双引号) B.()(括号) C.+ (加号) D.-(减号) 二、判断正误(在正确答案后面划√,在错误答案后面划×,每小题2分,共10 分) 1.专利文献根据发明创造的性质可以分为发明、实用新型和外观设计专利。(√) 2. CNKI检索系统可以检索博硕士论文。(√) 3. Google不具有学术搜索功能。(×)4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正式实施,国际标准书号由10位升至13位。(√) 5.检索效果的评价指标主要有查全率和漏检率。(×) 1.NSTL是(国家科技图书文献中心)的简称。 2.(信息检索系统)是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。 3.体系分类表通常由(类目表、标记符号、说明和注释、类目索引)4个部分组成。 4. 正式出版的中文期刊在检索工具和数据库中一般著录有国际标准刊号(ISSN)和国内统一刊号(CN)。 5. 缩写刊名“J.Anal.Chem.”还原成原刊名为(Journal of Analytical Chemistry)。 6. CASHL是指(中国高校人文社会科学文献中心),其英文全称是China Academic Social Sciences and Humanities Library,是全国性的、唯一的人文社科外文期刊收藏和服务中心。2002年开始规划建设,2004年3月15日正式启动 7. 电子期刊,指以(数字或称电子)形式出版发行的期刊,英文为(electronic Journal),简称e-journal. 8. 国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行提出于1998年。CNKI是指(中国基础知识设施工程),它是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于(1999)年6月。 https://www.wendangku.net/doc/6010261117.html,KI平台的检索方式有(单库检索)、(跨库检索)、(数据库导航),在单库和跨库检索中有(初级)、(高级)、(专业)三种检索方式。 10.(报告号)是识别科技报告的显著标志。 11. 专利文献著录中,除了和专利有关的(专利名称)、(发明人)和(专利权人)等之外,还著录有(专利公布号)、(国际专利分类号)、(优先权号),有的还有申请号和申请日期、公布日期等。 13. 分类检索语言又称分类法,是用(分类号)和(类名)来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。 14. 对于刊名缩写,国际标准化组织ISO在1972年和1974年分别发布了两个相关标准,规则要点有: 1)刊名中的(前置词、冠词、连词)均省略; 2)刊名必须有(两个)词以上才可用缩写; 3)单词的缩写大多数采用(减少音节)的方法,如“Chemistry”缩写成(chem),只有极少数常用单词用首字母表示,如“Journal”缩写成(J); 4)刊名缩写时,刊名第一个单词的首字母一定要(大写)。 15、完整的信息检索系统是由( 检索 )和( 存贮 )两部分构成。 16、文献内容特征的检索途径主要有( 主题 )和 ( 分类 )。 17、文献检索方法分为( 常用法)、(追溯法)和(循环法)。 18、写出下列各国国家标准代号:中国(GB ) 、美国 (ANSI) 、英国 (BSI ) 、日本(JIS)

《信息检索导论》课后习题答案

《信息组织与检索》作业答案 第一章布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图1-3中的例子)。 Term-Documentmatrix: 1234 approach0010 breakthrough1000 drug1100 for1011 hopes0001 new0111 of0010 patients0001 schizophrenia1111 treatment0010 Inverted Index: approach -> 3 breakthrough ->1 drug ->1->2 for ->1->3->4 hopes ->4 new ->2->3->4 of ->3 patients ->4 schizophrenia ->1->2->3->4 treatment >3 注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便

于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。 补充习题1 写出AND查询的伪代码 ●面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较 insert(answer, p1); p1=p1->next;//构造新的剩余列表,迭代执行 p2=p2->next;// Else if p1->docId < p2->docId p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表 Else p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表 End ●面向对象风格的伪代码: 注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。 While list1.currentItem() != null AND list2.currentItem() != null If list1.currentItem().getDocId() == list2.currentItem().getDocId() answer.insert(list1.currentItem()); list1.moveToNext(); list2.moveToNext(); Else if list1.currentItem().getDocId() < list2.currentItem().getDocId() list1.moveToNext(); Else list2.moveToNext(); End

相关文档
相关文档 最新文档