文档库 最新最全的文档下载
当前位置:文档库 › 信息检索导论-王斌 第二次课后作业(6-12)

信息检索导论-王斌 第二次课后作业(6-12)

信息检索导论-王斌 第二次课后作业(6-12)
信息检索导论-王斌 第二次课后作业(6-12)

1、习题6-10

tf-idf = tf * idf

car的tf-idf值在三篇文档中分别为:

Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:

Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:

Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:

Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;

2、习题6-19

所用公式:wf = 1+logtf t,d, tf t,d>0

0, ot erwise

idf=log N

df

归一化:12+12+1.3012=1.922

1/1.922 = 0.521301/1.922 = 0.677

最后的相似度结果为:1.56+1.558=3.118

3、习题7-2

胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那

些不仅相关度高并且权威度也大的文档。如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。这样高分文档更可能在倒排索引的前期出现。

4、习题7-8

5、习题8-8

b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。系统2的返回结果中相关文档比较分散。系统1比系统2获得较高的MAP值。

排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。

c. R1=2/4=0.5

R2=1/4=0.25

按照R正确性值来看,与MAP的排序结果一致。

6、习题9-3

7、习题9-7

矩阵C里的元素表示该词项是否在这些文档中同时出现,1表示同时出现,0表示没有同时出现。

8、习题11-3

9、习题12-6

D=(, ,,,,,

1>,,,)

a. P(the) = 2/11 = 0.182, P(martian) = 1/11 = 0.091

b. P(sensation|pop) = 1, P(pop|the) = 0

10、习题12-7

该文档集的查询似然模型为:

每篇文档模型对应的概率: P d q∝P(d)[1?λP t M c+λP(t|M d)]

t∈q

P(click|doc1)=1/2*1/2+7/16*1/2=15/32, P(click|doc2)=1*1/2+7/16*1/2=23/32

P(shears|doc1)=1/8*1/2+2/16*1/2=2/16,

P(click shears|doc1)=15/32*2/16=15/256

对于查询click shears来说,最后得到的文档次序为:doc4, doc1, doc2, doc3。

文献检索第一次作业参考答案

第一次作业 1、什么是文献?科技文献包括有哪些类型的出版物(十大文献源)? 文献是记录知识的一切载体。具体地说,文献是将知识、信息用文字、符号、图像、音频等记录在一定的物质载体上的结合体。 科技文献按出版形式划分:连续出版物(期刊、报纸)、图书、科技报告、会议文献、标准文献、专利文献、学位论文、政府出版物、产品资料、档案文 献十大类型。 2、专利申请须具备哪“三性”,请简要说明。并简述我国的专利审查制度。 专利申请必须具备的三星“新颖性、创造性、实用性”。 新颖性:是指在专利申请日以前没有同样的发明或实用新型,在国内外出 版物上没有公开发表过,这是第一个标准,第二标准,是指在国内没有公开使 用或者说以其他方式为公众所知。 创造性:根据中国专利法对创造性的定义,是指同申请日以前已有的技术 相比,发明有突出的实质特点和显著的进步。 实用性:是指发明或者实用新型能够创造或者使用,并且能够产生积极效果。能够制造或者使用,就是它能够工业批量地制造出来。 我国专利法规定:发明专利、实用新型专利和外观设计专利。依据《专 利法》,发明专利申请的审批程序包括:受理、初步审查阶段、公布、实审 以及授权5个阶段,实用新型和外观设计申请不进行早期公布和实质审查, 只有3个阶段。 受理阶段 专利局收到专利申请后进行审查,如果符合受理条件,专利局将确定申 请日,给予申请号,并且核实过文件清单后,发出受理通知书,通知申请人。如果申请文件未打字、印刷或字迹不清、有涂改的;或者附图及图片未用绘 图工具和黑色墨水绘制、照片模糊不清有涂改的;或者申请文件不齐备的;或 者请求书中缺申请人姓名或名称及地址不详的;或专利申请类别不明确或无 法确定的,以及外国单位和个人未经涉外专利代理机构直接寄来的专利申请 不予受理。 初步审查阶段 经受理后的专利申请按照规定缴纳申请费的,自动进入初审阶段。初审 前发明专利申请首先要进行保密审查,需要保密的,按保密程序处理。 在初审是要对申请是否存在明显缺陷进行审查,主要包括审查内容是否 属于《专利法》中不授予专利权的范围,是否明显缺乏技术内容不能构成技 术方案,是否缺乏单一性,申请文件是否齐备及格式是否符合要求。若是外 国申请人还要进行资格审查及申请手续审查。不合格的,专利局将通知申请 人在规定的期限内补正或陈述意见,逾期不答复的,申请将被视为撤回。经

国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章) 以下每题10分,共计100分。 1、习题1-4 a.时间复杂度O(x+y)。因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档 号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果xy,caesar指针后移。 b.时间复杂度是O(N),N是全部的文档数。因为结果集的大小取决于文档数N,而不是倒排记录表的长度。 2、习题1-7 对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度 (tangerine OR trees) = O(46653+316812)=O(363465) (marmalade OR skies) = O(107913+271658) = O(379571) (kaleidoscope OR eyes) = O(46653+87009) = O(300321) 即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies) 3、习题1-10 UNION(p1,p2) answer ←{ } while p1!=NIL and p2!=NIL do if docID(p1)=docID(p2) then ADD(answer,docID(p1)) p1<- next(p1) p2<-next(p2) else if docID(p1)

文献检索作业答案带图

1.信息、知识、情报、文献 1.信息:物质存在或运动方式与状态的表现形式或反映 2.知识:人类在认识和改造客观世界实践中获得的对事物本质的认识 和经验的综合,是人们通过实践对客观事物及其运动过程和规律的认识。 3.情报:定义:人们以各种方式传递与交流的具有一定目的与时效 的信息,是人们为一定目的搜集的有使用价值的知识或信息。 属性:传递性、知识性、效用性 4.文献:指以文字、图像、公式、声频、视频、代码等手段将信息、 知识记录或描述在一定的物质载体上,并能起到存储和传播信息情报和知识作用的一切载体。 “记录有知识或信息的一切载体” 2.简述文献的构成。 答:现代文献由四要素构成:文献信息、文献载体、符号系统和记录方式。 2.简述医学文献的特点。 答:数量庞大、载体多样化、多文种化、学科交叉出版分散、知识信息更新加快、交流传播速度加快、电子化发展趋势。 3.简述文献检索的概念和类型。 答:概念:广义的文献检索包括信息的存储和检索两个过程,是指将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。 狭义的信息检索即从检索工具或检索系统中,通过一定的检索途径或检索方式查找出需要的信息的过程。 类型:①按照检出结果的形式划分:书目检索、全文检索、引文检索。 ②从情报检索角度划分:文献检索、数据检索、事实检索。 ③按照线索手段划分:手工检索、计算机检索。 4.简述文献检索系统的评价因素。

答:报道信息的准确性、报道信息的及时性、索引体系的完善程度、对信息标引的深度、查全率和查准率。 5.什么事查全率和查准率,二者之间有何关系? 答:查全率(R)和查准率(P)是检索系统最为流行和重要的两个性能和效果评价指标。 R=检出的相关信息量/检索工具中相关信息总量X100% P=检出的相关信息量/检出的信息总量X100% 两者之间存在互逆关系,即如果检索工具的查全率较高,则其查准率将相对下降;反之查准率高,则查全率低;而且查全率和查准率只能相对提高,二者永远不可能同时达到100%。 6.试述文献信息的类型。 答:①按文献信息表现形式划分:文字型、视频型、音频型、数字型 ②按文献信息的出版类型划分:图书、期刊、政府出版物、科技报告、专利文献、会议文献、学位论文、标准文献、产品样本说明书、技术档案 ③按文献信息的载体形式划分:书写型、印刷型、缩微型、视听型、电子型 ④按文献信息的加工程度划分: ⑴零次文献信息:书信、手稿、实验数据、观察记录、笔记、内部档案等。特点:内容新颖,但不成熟,难以查询。 ⑵一次文献信息:期刊论文、专利说明书、会议论文、学位论文、科技报告等。特点:内容新颖、详尽,因而是文献信息的最主要来源和检索对象,但其量大、分散而无序,对其查找与利用带来不便。创造性、原始性、分散性 ⑶二次文献信息: 目录、索引和文摘等。特点:报道性和检索性,主要作用是提供查找文献信息的线索,故又称为检索工具。汇集性、工具性、综合性、系统性 ⑷三次文献信息:综述、进展、年鉴和百科全书等。 7.试述电子文献资源的概念与特点。

网络信息检索试题及答案(DOC)

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有( C )特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含( B ): A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉 4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?( A ) A. 文摘 B. 会议文献 C. 辞典 D.百科全书 8、“文章草稿”、“私人笔记”及“会议记录”属于( A )。 A. 零次文献 B. 一次文献 C. 二次文献 D. 三次文献 9、下列选项中哪一项属于“国内统一刊号”(C )。 A. ISBN 7-04-014623-1 B. ISSN 0254-4164 C. CN 11-2127/TP D. 0254-4164/TP 10、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( C )参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL] .(2001-12-19) [2002-04- 15]. http:∥www. ….htm. A、标准文献 B、期刊(杂志) C、电子文献 D、会议文献 11、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( B )参考文献的著录条目描述。 昂温G,昂温P S .外国出版史[M]. 陈生铮,译. 北京:中国书籍出版社, 2001:15-20 A、期刊(J) B、图书 C、科技报告(R) D、会议文献(Z) 12、下面哪些资料属于三次信息?(ACFLOP) A、《2009年山东省统计年鉴》 B、美国《工程索引》 C、《新华字典》 D、《新华文摘》 E、《机械工业出版社2012年图书征订目录》 F、《计算机科学技术百科全书》 G、《计算机工程与应用》 H、《网络营销》 I、《NASA报告》。 J、《博士论文:论网络时代的商务模

文献信息检索第二次作业

文献信息检索与利用第二次作业 一、当你利用数据库有困难时,可以从哪些途径获得检索帮助?并以某一个数据库为例,举例说明。 答:可以再数据库帮助页面获得数据使用问题的解答。比如在读秀中,点击下方的常见问题就可以进入帮助页面,不仅有常见问题的文字解答,更有视频介绍,非常的清晰易懂。 二、查找外文全文可以利用哪几种数据库?明自己拟定一个本专业相关的英文选题,至少提炼两至三个关键字,利用wiley或ebsco数据库高级检索功能,查找这个论文选题需要的参考文献。(将检索策略、结果截图) 答:查找外文全文可以利用的数据库有:(如图)

我拟出的题目是:Research on existing problems in Chinese engineering measurement 关键字:Engineering measurement Metrology Project quota (wiley) (ebsco) 三、web of science 检索平台包含哪三大引文索引?JCR是什么? 答:Basic Search,Cited Reference Search,Advanced Search JCR是ISI每年出版《期刊引用报告》,在报告中,JCR对8000多种期刊之间的引用和被引用数据进行统计、运算,并针对每种期刊定义了影响因子等指数加以报道。一种刊物的影响因子越高,也即其刊载的文献被引用率越高,一方面说明这些文献报道的研究成果影响力大,另一方面也反映该刊物的学术水平高。因此,JCR以其大量的期刊统计数据及计算的影

响因子等指数,而成为一种期刊评价工具。图书馆可根据JCR提供的数据制定期刊引进政策;论文作者可根据期刊的影响因子排名决定投稿方向。 四、什么是CSSCI?请通过CSSCI的来源刊,了解所学专业的核心期刊。并列出至少五钟核心期刊刊名。选择一位你感兴趣的老师,检索这位老师进5年在CSSCI 的收录、被引情况,将检索结果截图。 答:CSSCI是“中文社会科学引文索引”,由南京大学中国社会科学研究评价中心开发研制而成。CSSCI遵循文献计量学规律,采取定量与定性评价相结合的方法,从全国2700余种中文人文社会科学学术性期刊中精选出学术性强、编辑规范的期刊作为其来源期刊。 我的专业属于管理学。我列出的期刊有:管理工程学报、经济管理、管理学报、经济管理、南开管理评论。 我选择的老师是:金融学院的卢建新副教授 五、学习完《文献信息检索与利用》课程后,你认为你的信息意识增强了吗?信息搜索能力提高了吗?何以见得?(500-1000字)

文献检索作业答案带图

文献检索作业答案带图.简述文献的构成。1答:现代文献由四要素构成:文献信息、文献载体、符号系统和记录方式。 .简述医学文献的特点。2答:数量庞大、载体多样化、多文种化、学科交叉出版分散、知识信息更新 加快、交流传播速度加快、电子化发展趋势。 3.简述文献检索的概念和类型。答:概念:广义的文献检索包括信息的存储和检索两个过程,是指将文献按 并按照文献用户需求查找出有关文献或文献中照一定方式集中组织和存储起来,包含的信息内容的过程。狭义的信息检索即从检索工具或检索系统中,通过一定的检索途径或检 索方式查找出需要的信息的过程。类型:①按照检出结果的形式划分:书目检索、全文检索、引文检索。②从情报检索角度划分:文献检索、数据检索、事实检索。 ③按照线索手段划分:手工检索、计算机检索。 .简述文献检索系统的评价因素。4答:报道信息的准确性、报道信息的及时性、索引体系的完善程度、对信息 标引的深度、查全率和查准率。.什么事查全率和查准率,二者之间有何关系?5)是检索系统最为流行和重要的两个性能和效)和查准率(P 答:查全率(R 果评价指标。X100% 检索工具中相关信息总量检出的相关信息量/X100% /检出的相关信息量检出的信息总量 则其查准率将相即如果检索工具的查全率较高,两者之间存在互逆关系, 对下降;反之查准率高,则查全率低;而且查全率和查准率只能相对提高,二者100%。永远不可能同时达到 6.试述文献信息的类型。1 / 40 文献检索作业答案带图答:①按文献信息表现形式划分:文字型、视频型、音频型、数字型②按文献信息的出版类型划分:图书、期刊、政府出版物、科技报告、 专利文献、会议文献、学位论文、标准文献、产品样本说明书、技术档案 ③按文献信息的载体形式划分:印刷型、缩微型、声像型、电子型④按文献信息的加工程度划分:书信、手稿、实验数据、观察记录、笔记、内部档⑴零次文献信息: 特点:内容新颖,但不成熟,难以查询。案等。⑵一次文献信息:期刊论文、专利说明书、会议论文、学位论文、科 因而是文献信息的最主要来源和检索对象,内容新颖、详尽,技报告等。特点:但其量大、分散而无序,对其查找与利用带来不便。特点:报道性和检索性,⑶二次文献信息: 目录、索引和文摘等。 主要作用是提供查找文献信息的线索,故又称为检索工具。⑷三次文献信息:综述、进展、年鉴和百科全书等。.试述电子文献资源的概念与特点。7答:电子文献资源是以电子数据的形式,把文字、声音、图像、视频、等多光信号的形式传以电信号、种形式的文献存储在光、磁等非印刷纸质的载体中,计算机或终端和其他外部设备等方式再表现出来的一种新并通过网络通信、播,型文献资源。特点:1.存储介质和传播形式的改变 2.信息的表现形式多样化 3.文献资源类型多样化 多层次的信息服务功能 4. 5.更新速度快、时效性强

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

文献检索课后作业

第二次上机课“每课一练” (每个学生必须要做的) 注: 1.进入图书馆主页“信息检索与利用课程”(https://www.wendangku.net/doc/3d17516417.html,/xxjsk/fzkt1.asp)观看理工信息检索与利用第二次的教学课件与视频,请大家重点观看第二单元中的3,4,5,6四个课件与视频,并完成以下作业。 2.11月21日之前做好,修改文件名发给小组长,文件名格式:学号+班级+姓名。 3.小组长打包发到老师QQ邮箱。打包文件注明:专业班级+小组名称,如机械1301-第1组。 1 Web of Science数据库(观看“4.Web of Science的检索与利用”教学课件完成该部分作业) (1)Web of Science包括SCI、SSCI和CPCI等子库,这三个子库的英文全称及中文名称是什么? SCI:科学引文索引(Science Citation Index) SSCI:社会科学引文索引(Social Sciences Citation Index)CPCI:数据库分为两个子库: Conference Proceedings Citation Index –Science ,简称CPCI-S Conference Proceedings Citation Index –Social Sciences & Humanities,简称CPCI-SSH (2)什么是施引文献?引文检索语言的作用是什么? 施引文献:是指引用或参考文献的文献

作用: ①可以用一篇文章、一个专利号、一篇会议文献或者一本书作为 检索词,检索这些文献被引用的情况,了解引用这些文献的论文所做的研究工作。 ②可以回溯某一研究文献的起源与历史或者追踪其最新的进展,既 可以越查越广,也可以越查越新,越查越深入。 ③可以探索一个想法、概念或一个方法从其最初提出到当前的历 史、发展与应用。 ④可以找到难以用几个关键词来表达的有关课题的相关文献。 (3)Web of Science检索界面中,“主题”与“地址”两个检索字段代表什么意思? ①主题:在文献标题、摘要以及关键词字段进行检索; ②地址:对作者所属机构或地点进行检索 (4)什么是截词检索、位置检索、和精确检索?(答案见课本P75-80)Web of Science所使用的位置算符、截词算符、精确算符有哪些? 用soil near/3 pollution与soil same pollution两组检索词进行检索,检索结果有什么区别?

文献信息检索第二次作业

杏林会计专业作业二 一、馆藏书目检索 结合自己的专业背景查询南通大学图书馆书目检索系统,说明你的检索方法、检索结果,并列举密切相关的图书两本(包括书名、索书号、馆藏地)。 检索方法:通过“普通检索”,选择文献类型中文图书,选择检索字段主题词“会计”; 检索结果:340项命中主题词会计; 图书:《成本与管理会计》索书号:F234.3-43/1029=2 主校区社会科学书库《会计学概论》索书号:F230-43/1123 主校区社会科学书库 二、电子图书检索 1、下载安装超星图书阅览器,可利用“图书馆网站-中文数字资源-超星电子图书”,或利用“图书馆网站-读者服务-软件下载”进行软件下载。 2、在超星数字图书馆中分别利用快速检索、高级检索以及分类浏览三种方式检索自己所学专业的电子图书,写出每种检索方式的步骤及检索结果,列举其中密切相关的图书一册,记录其名称、作者、出版信息等。 快速检索:检索步骤:在“图书检索”框内直接输入需要检索的“书名”、“作者”或“主题 词”,点击“检索“按钮; 检索结果:输入“会计学”,可共查到1526本图书,每页显示10条记录等。 高级检索:检索步骤:在检索项- 书名”、“作者”或“主题词”等对应的框内输入需要检索 的资料,点击“检索”按钮; 检索结果:相应输入“会计学基础”、“郭徐咸”、“出版年代从1994年到2010年”,共查到 2 本图书; 分类浏览:检索步骤:经济图书馆-经济计划与管理会计-各种会计和簿记; 检索结果:共检索到1948本图书,每页显示10条记录等 图书:名称:《会计学基础》,作者:郭徐咸,出版信息:出版日期::1994年08月第2版,主题词:会计高等学校教材 3、打开该书的全文,利用文字识别功能将其中一段信息识别为文本格式,复制粘贴到作业文件中。 〔二)会计工作的内容经历了由对经济过程的广泛计其记录到对经济过程特定方面——价值运动计算记忌舶发展。最初的会

文献检索平时作业答案带图(温医)

1.简述文献的构成。 答:现代文献由四要素构成:文献信息、文献载体、符号系统和记录方式。 2.简述医学文献的特点。 答:数量庞大、载体多样化、多文种化、学科交叉出版分散、知识信息更新加快、交流传播速度加快、电子化发展趋势。 3.简述文献检索的概念和类型。 答:概念:广义的文献检索包括信息的存储和检索两个过程,是指将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。 狭义的信息检索即从检索工具或检索系统中,通过一定的检索途径或检索方式查找出需要的信息的过程。 类型:①按照检出结果的形式划分:书目检索、全文检索、引文检索。 ②从情报检索角度划分:文献检索、数据检索、事实检索。 ③按照线索手段划分:手工检索、计算机检索。 4.简述文献检索系统的评价因素。 答:报道信息的准确性、报道信息的及时性、索引体系的完善程度、对信息标引的深度、查全率和查准率。 5.什么事查全率和查准率,二者之间有何关系? 答:查全率(R)和查准率(P)是检索系统最为流行和重要的两个性能和效果评价指标。 R=检出的相关信息量/检索工具中相关信息总量X100% P=检出的相关信息量/检出的信息总量X100% 两者之间存在互逆关系,即如果检索工具的查全率较高,则其查准率将相对下降;反之查准率高,则查全率低;而且查全率和查准率只能相对提高,二者永远不可能同时达到100%。 6.试述文献信息的类型。

答:①按文献信息表现形式划分:文字型、视频型、音频型、数字型 ②按文献信息的出版类型划分:图书、期刊、政府出版物、科技报告、专利文献、会议文献、学位论文、标准文献、产品样本说明书、技术档案 ③按文献信息的载体形式划分:印刷型、缩微型、声像型、电子型 ④按文献信息的加工程度划分: ⑴零次文献信息:书信、手稿、实验数据、观察记录、笔记、内部档案等。特点:内容新颖,但不成熟,难以查询。 ⑵一次文献信息:期刊论文、专利说明书、会议论文、学位论文、科技报告等。特点:内容新颖、详尽,因而是文献信息的最主要来源和检索对象,但其量大、分散而无序,对其查找与利用带来不便。 ⑶二次文献信息: 目录、索引和文摘等。特点:报道性和检索性,主要作用是提供查找文献信息的线索,故又称为检索工具。 ⑷三次文献信息:综述、进展、年鉴和百科全书等。 7.试述电子文献资源的概念与特点。 答:电子文献资源是以电子数据的形式,把文字、声音、图像、视频、等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传播,并通过网络通信、计算机或终端和其他外部设备等方式再表现出来的一种新型文献资源。 特点:1.存储介质和传播形式的改变 2.信息的表现形式多样化 3.文献资源类型多样化 4.多层次的信息服务功能 5.更新速度快、时效性强 6.具备检索系统或功能 7.检索访问不受时空限制 8.试述医学电子文献资源的类型。

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业 1、习题13-2 答:(i)贝努利模型:三个文档具有相同的模型表示 (ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

3、习题14-6 在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)? 答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价? 答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么? b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。 b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。 答:(1)词项-文档矩阵: d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1

信息检索第二次大作业(西南交大,高凡图书馆长)

第二次大作业 一、使用《中图分类法》中查找你所在专业的分类号,并使用图书馆的书目查询系统查找该分类下的一本图书,写出该书的书名、作者、出版社、出版年、索书号、馆藏复本数、馆藏地等信息。 《中图法》的标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码。即用一个字母表示一个大类,以字母的顺序反映大类的序列。字母后用数字表示大类以下类目的划分。数字的编号使用小数制。现将五个基本部类及下设的二十二个大类列表如下:

我所在的机械设计专业按中图分类法是:TH机械、仪表工业 ANSYS 10.0机械设计高级应用实例 王庆五;左昉;胡仁喜 北京:机械工业出版社,2006.1 书目号:484948 索书号:TH122 Z452-2 馆藏副本数:7 馆藏地犀浦馆基本藏书阅览室(501室),九里馆中文书库(202室),犀浦馆中文图书借阅室(301室) 二、用超星数字图书馆检索并打开与你所学专业相关的图书,并分别以图像和 文本两种形式采集该书的一段文字。

第一章推土机 第一节概述 一、用途 推土机是一种在履带式拖拉机或轮胎式牵引车的前面安装推土装置及操纵机构的自行式施工机械,主要用来开挖路堑、构筑路堤、回填基坑、铲除障碍、清除积雪、平整场地等,也可完成短距离松散物料的铲运和堆积作业。推土机配备松土器,可翻松级以上硬土、软石或凿裂层岩,以便铲运机和推土机进、行铲掘作业,也可利用推土机的铲刀直接顶推铲运机以增加铲运机的铲土能力(即所谓推土机助铲),还可协助平地机或铲运机完成施工作业,以提高这些机械的作业效率。推土机用途十分广泛,是铲土运输机械中最常用的作业机械之一,在土方施工中占有重要地位。但由于铲刀没有翼板,容量有限,在运土过程中会造成两侧的泄漏,故运距不宜太长,大型推土机的运否则会降低生产效率。通常中小型推土机的运距为距一般不应超,推土机过的经济运距为 三、使用CNKI期刊导航,查找你所在专业的2种核心期刊,写出刊名、主办 单位、ISSN号和CN号。

文献检索课后作业

一、搜索引擎检索试题 1、利用百度搜索引擎查找关于“出国签证”或“大学生就业”信息,要求“出国签证”或“大学生就业”必须出现在检索结果的标题中,写出检索式。 2、利用搜索引擎检索所学专业某一专题的DOC/PDF/PPT格式的论文各一篇。 3、向同学推荐有关考研英语或4-6级学习方面的主要网站3个,并对其一网站作出简明介绍(写出所用检索系统、检索操作过程和结果)? 4、向同学推荐“免费图书”网站,并对其一网站作出简明介绍(写出所用检索系统、检索操作过程和结果)? 二、馆藏中文及电子图书检索 1、利用馆藏书目查询系统(OPAC)查找与企业战略规划相关的图书,请写出所能查到的图书的数量,并列举其中一种图书的简要信息(书名、作者、出版信息、ISBN、索书号及馆藏地点及借阅情况)? 检索条件= (任意词=企业战略规划) 耗时0.157秒,共有12条结果

2、利用书目查询系统查出《达芬奇·密码》的作者是谁?检索我馆收藏的该作者其他著作,任意写出其中两种图书的书名及索取号? 达·芬奇密码/(美)布朗(Brown,D.)著 3、利用书目查询系统(OPAC)查找你本人的借阅史、是否有超期记载,并列举 说明?

其中两种图书的书名、作者、出版社、出版年代?

5、利用独秀知识库检索三本与所学专业相关的教材或教学参考书,记录基本书目信息(书名、作者、出版社、出版年代)?

6、利用“超星数字图书馆”分别利用初级和高级检索方式查找环境设计专业的一种最新图书,并写出本书的外部特征和检索步骤? 首页—环境设计 主题词=环境设计 7、网上都有哪些免费的中文图书数据库(网站),它们各自的特点?如何通过互联网获取你需要的中文图书信息及全文? 长大图书馆主页—中文数据库 8、通过查询列出图书馆馆藏图书为《电路基础》的《中图法》分类号及种次号?

文献检索作业考试答案

名词解释: 1.文献检索:是将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。广义的文献检索包括文献的存储和文献的检索两个过程。狭义的文献检索就是找出自己所需的文献。 2.检索语言:是用于描述检索系统中文献的内容特征及外表特征和表达用户检索提问的一种专门化的标识系统。检索的匹配就是通过检索语言的匹配来实现的。 3.后组织式语言:是指在检索前检索系统中的检索标识是独立的,实施检索后,才根据检索需要进行组配的检索语言。如叙词语言、单元词语言、关键词语言属此类型。 4.电子文献资源:电子文献资源是以电子数据的形式,把文学、声音、图像、视频等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传输,并通过网络通信、计算机或终端和其他外部设备等方式再现出来的一种新型文献资源。 5.参考数据库:是指包括各种数据、信息或知识的原始来源和属性的数据库。数据库的记录是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要、分类等,然后形成的。一般来说,参考数据库主要针对印刷型出版物而开发的,它包括书目数据库和指南数据库两种。 6.OPAC:是英文Online Public Access Catlogue的首字母缩写,可以译为“联机公共书目查询系统”,是一个基于网络,供读者查询图书馆藏书目信息的联机检索系统。它是图书馆自动化的基础,也是未来数字图书馆的有机组成部分。 7.电子图书:又称为数字图书或Ebook,是随着电子出版、互联网以及现代通信电子技术的发展应运而生的一种新的图书形式。电子图书应具有三要素:(1)电子图书内容。(2)电子图书的数字存储设备。(3)电子图书的阅读软件。 8.网络电子图书:是以电子形式出版发型,以互联网为流通渠道、以数字内容为流通介质、以网上交易为主要支付手段的图书。 9.前方一致检索:也称为后截断检索,是指在某一检索项内容中,检索前方与检索字/词完全一致的文献。前方一致检索适用于数值索引的检索项。 10.多项双词逻辑组合检索:多项是指可以选择多个检索项;双词是指一个检索项中可以输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合:并且、或者、不包含、同句、同段,每个检索项中的两个检索词可以分别使用词频、最近词、扩展词;逻辑是指个检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。 11. 双词频控制检索:是指对一个检索项中的两检索词分别实行词频控制,也就是一个检索项使用了两次词频控制。是针对单项双词组合检索而设置的。 12. 引文:所谓引文就是参考文献

《信息检索导论》课后习题答案

《信息组织与检索》作业答案 第一章布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图1-3中的例子)。 Term-Documentmatrix: 1234 approach0010 breakthrough1000 drug1100 for1011 hopes0001 new0111 of0010 patients0001 schizophrenia1111 treatment0010 Inverted Index: approach -> 3 breakthrough ->1 drug ->1->2 for ->1->3->4 hopes ->4 new ->2->3->4 of ->3 patients ->4 schizophrenia ->1->2->3->4 treatment >3 注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便

于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。 补充习题1 写出AND查询的伪代码 ●面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较 insert(answer, p1); p1=p1->next;//构造新的剩余列表,迭代执行 p2=p2->next;// Else if p1->docId < p2->docId p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表 Else p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表 End ●面向对象风格的伪代码: 注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。 While list1.currentItem() != null AND list2.currentItem() != null If list1.currentItem().getDocId() == list2.currentItem().getDocId() answer.insert(list1.currentItem()); list1.moveToNext(); list2.moveToNext(); Else if list1.currentItem().getDocId() < list2.currentItem().getDocId() list1.moveToNext(); Else list2.moveToNext(); End

文献检索作业

1、对照ACRL2006年《科学、工程和技术领域信息素养标准》写出自己目前具备的信息素养,哪些是本次课程学习需要达到的信息素养。 (对照三级指标每小项分别注明具备、课堂或者长期学习) 标准一:有信息具有信息素养的学生能确定所需信息的性质和范围(具备) 1、定义和描述信息需求:(具备) a. 识别并/或能对研究课题或其他信息需求(如指定的实验室活动或项目)进行关键词重述或转换。(课堂学习) b. 向教学人员或专家咨询研究主题、研究项目或实验等问题的合理性。(具备) c. 草拟一个论题或假设,并根据信息需求列出相关问题。(具备) d. 通过浏览广泛的信息源来熟悉课题。(具备) e. 限定或修改信息需求以抓住重点。(具备) 2、可找到多种类型和格式的信息来源:(课堂学习) a. 确定信息源的目标和受众。(例如:大众信息vs学术信息、当前信息vs历史信息、外部信息vs.内部信息、一次文献vs二次文献vs三次文献)。(课堂学习) b. 将专家和其他研究者作为信息源。(具备) c.识别并区分各种格式(例如多媒体、数据库、网站、数据集、专利、地理信息系统、三维技术,公开文件报告,音视频报告、书籍、图表、地图等)存在的潜在信息源的价值和不同之处。(课堂学习) d.认识到信息可能需要从一次文献或实验的原始数据中析出。(具备) e.认识到各种潜在有用的信息数据可能属于保密的、限制访问的或在线免费使用的。(具备) f. 认识到这些潜在有用的信息可能需要特定的数据管理经验并了解生产信息的组织结构。(课堂学习) 3、具备学科领域文献的应用知识并了解其产生过程: (课堂学习) a.了解科技相关信息是如何正式或非正式一产生、组织以及传播的。(具备) b.认识到学科中一次、二次、三次文献源的不同重要性。(具备) c.知晓该领域的行业协会及其产生的文献。(具备) d.了解本学科领域的特殊文献源知识,如手册、小册子、专利、标准、材料/设备规格说明,当前的规章制度,工业常用参考资料、工业生产方法及实践手册、产品资料等。(长期学习) e.认识到知识可按学科分类,并考虑到复合学科可能会影响到信息获取方式,同时,其它学科文献也可能与信息需求相关。(具备) f. 认识到档案信息的价值以及在不同学科专业中的用途和重要性,并认识到信息长期保存的重要性。(具备) 4、权衡获取所需信息的成本与收益:(具备) a.确定所需信息的可用性,并决定是否扩大检索范围以查寻本地馆藏以外的信息。如咨询同事、独立信息经纪人、行业专家或顾问,以及利用馆际互借服务或附近的图书馆或信息中心等。(具备) b.认识到获取信息需要付出的时间和费用。(具备) c.拟定一份现实可行的信息获取总体规划和时间表。(具备) d.认识到各研究领域保持竞争优势、跟踪新产品,改进过程,并监控竞争对手的营销策略等方面信息的重要性。有些还将涉及向专家和行业顾问咨询专利许可和知识产权方面的内容。(具备) e.认识到所需信息可能是外文文献,有必要进行翻译。(具备) 标准二:有信息具有信息素养的学生能有效地获取所需信息(具备) 1. 选择最合适的调研方法或信息检索系统来获取所需信息(具备): a. 确定适当的调研方法(例如,文献检索、实验、模拟、实地调查))。(具备)

相关文档