当前位置：文档库 › 基于本体的文本信息检索研究_杨建林

基于本体的文本信息检索研究_杨建林

基于位置检索信息检索技术的研究 [摘要]：本文主要阐述了位置检索技术的基本概念、分析了位置检索技术的特点和优缺点，并指出了位置检索技术的发展方向。 [关键词]：信息检索技术位置检索位置检索在过去的几年里，网络信息资源已呈现出指数级增长的态势，为了有效、快速、准确地在信息海洋中找到人们所需要的信息，已是信息时代人们的重要需求，因而，作为根据互联网信息的特点而发展起来的一种检索方式，信息检索技术在信息社会中将发挥越来越重要的作用。目前已广泛应用于网络的信息检索技术主要有布尔逻辑检索、截词检索、位置检索、字段限定检索、加权检索和聚类检索等六种。位置检索作为其中一种重要的检索技术,能把文献中出现的每一个词( 或字) 都作为检索入口的基于全文标引的检索过程和技术，文献中任何有检索意义的词或字串都可被检索出来。使检索更直接、更彻底，对目前网络信息检索技术的研究有重要的意义。一、位置检索的基本概念位置检索也叫全文检索、临近检索。就是利用记录中的自然语言进行检索，词与词之间的逻辑关系用位置算符组配，对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接以全文本信息作为主要处理对象，使用自由词进行检索并根据数据资料的内容而不是外在特征来实现的信息检索手段。它的基本工作方式是能够将所有包含检索词的文献检索出来，不管这个词出现在文献的什么位置，或者说文献中的任意一个词都可以作为检索到该文献的条件。位置检索提供存取全文文本（指原始记录）的空间，文本中任何字符和字符串均可作为检索的入口点，位置检索是以原始记录中的检索词、字间的特定位置为对象的运算，对文献不作标引，故没有标引用词[1]。位置检索主要分为两类: 基于关键词匹配的精确检索和根据内容的概念检索[2]。二、位置检索技术的分析 2.1.位置检索技术的特点从基本概念、实现条件和实际应用中可以看出，位置检索技术具有包含信息的原始性；信息检索的彻底性；所用检索语言的自然性和数据相对稳定性的特点。这些使得位置检索其他检索无法比拟的灵活、简便的优势。但是由于自然语言缺乏规范的固有特点，也存在误检现象多的缺陷。 2.2 位置检索技术的优点位置检索具有以下优点:自动建立数据库,速度快;不存在词汇滞后问题;可以直接提供原文献、具有直接客观性。它提供存取全文文本的空间，能直接检查原始文献或解决问题所需要的文献资料，不必进行二次检索，既直接又保证了客观性。位置检索得到的是全文文本，而不是文献的摘要或替代品。位置检索技术具有详尽彻底性，可对文中任何字、词、句进行检索，还可表示检索词间的复杂

●杨建林(南京大学信息管理系江苏210093) 基于本体的文本信息检索研究摘　要:本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。关键词:本体;信息检索;文本检索;标引 Abstract:The paper discusses how t o construct an ont ol ogy2based text infor mati on retrieval syste m,and thinks that if the subject indexing is based on the domain ont ol ogies describing the relati ons bet w een concep ts,the entity relati on indexing is based on the domain ont ol ogies describing the relati ons bet w een entities,and the docu ment sur2 r ogates and query exp ressi ons are described in the f or mat of ont ol ogy,the perf or mance of the text inf or mati on retriev2 al syste m will be i m p r oved. Keywords:ont ol ogy;inf or mati on retrieval;text retrieval;indexing 1　引言基于关键词匹配的传统文本信息检索技术对语义匹配的支持能力较差,其性能取决于用户对方法的理解,具有很大的局限性。尽管基于关键词匹配的检索技术已经经过了多次改进,但是由于没有添加语义处理方面的功能,致使检索性能没有得到根本的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息也无法被检索。近几年,本体理论的发展和逐步成熟为信息检索技术的发展带来了新的动力,同时也为提高检索系统的查准率和查全率提供了更好的保证。作为一种有效表现概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能检索系统。基于本体的智能检索系统是基于知识的、语义上的匹配,在查全率和查准率上有更好的保证。具体表现为:利用本体,在用户提问检索式构造过程中增加语义指导,消除自然语言理解中的歧义,明确概念含义,使得构造出的提问检索式能够更加准确地反映用户的真实信息需求;使得用户能够更加准确、方便地实现扩展检索和缩小检索;加强检索系统的推理功能,在完成对信息源搜索的基础上,根据相关概念以及相关背景知识进行推理,挖掘出文本中的隐含信息,从而实现基于概念的智能检索[1]。因此,基于本体的信息检索成为一个新的发展方向。现有的大部分关于基于本体的信息检索研究,讨论的检索对象都是W eb资源,很少涉及无结构的文本。但是,现有的信息检索系统,除搜索引擎外,大部分系统的信息源都是无结构的文本。因此,研究基于本体的文本信息检索依然具有重要的现实意义。 2　本体概念本体是一个源于哲学的概念,原意指关于存在及其本质和规律的学说,后来被计算机科学领域引入,特指对共享概念模型所作的明确化、形式化、规范化说明,它强调领域中的本质概念,也强调这些本质概念之间的关联。某个领域的本体能够将该领域中的各种概念及概念之间的关系显性地、形式化地表达出来,从而将概念中包含的语义表达出来。在计算机科学领域,术语“本体”是英文“Ont ol o2 gy”的中文译法。Ont ol ogy在人工智能或信息系统中的中文翻译,国内有不同的名称,如“概念集”、“应用知识体系”,“概念分类体系”,“实体论”,“本体论”、“本体模型”,“本体”、“本体簇”等。由于Ont ol ogy在英语中的新的含义也是引申来的,是一个新概念,所以出现了翻译成不同名称的现象[2]。在具体的应用环境中如何规范化地描述本体?到目前为止,还没有统一的标准。目前有两种本体表示方法应用相对广泛,第一种是传统的四元素表示方法,第二种是较新的六元组表示法。前者源于Gruber博士的观点,后者则是2002年由新加坡南洋理工大学的Myo M yo Naing博士提出。前者在世界范围内得到了比较高的认同,但是形式

课题：城市慢行交通规划研究 1.研究背景及意义为满足日益增长的城市交通需求，消除或缓和交通拥挤问题，城市进行了大量的道路交通建设，道路越来越宽，车速却越来越慢。而且机动化的快速增长，也引发了城市交通混乱、环境恶化、老城衰落、步行者安全无保障等一系列问题。国外发达国家同样经历了机动化快速发展时期，在大量兴建道路仍不能解决城市问题后，开始关注公交、私家车、自行车及步行多种交通工具组合的交通模式，从而建立更为快捷、环保的交通系统。慢行交通是相对于快速和高速交通而言的，有时亦可称为非机动化交通，慢行交通通常指的是步行或自行车等以人力为空间移动动力的交通，它的行进或行驶速度一般在每小时 5 km ～15 km 之间。慢行交通包括步行及非机动车交通，由于许多城市的非机动车交通主要是自行车交通，慢行交通的主体就成为步行及自行车交通。慢行交通隐含了公平和谐、以人为本和可持续发展理念。并且在提高短程出行效率、填补公交服务空白、促进交通可持续发展、保障弱势群体出行便利等方面，具有机动交通所无法替代的作用，可以与私人机动化交通和公共交通相互竞争、相互配合，共同构成城市的客运交通系统。在当前能源供应趋紧、大城市交通拥堵加剧的背景下，规划高品质的慢行交通体系能够引导市民形成全新的出行观念。

2.文献检索 2.1检索思路由于对课题的了解是一个由浅入深的过程，因此在检索时也可遵循循序渐进的原则，现制定如下的初步检索计划。首先对课题进行分析，找出一个全面有效的检索途径及策略，所以关键字的确定是检索的关键，一次好的检索要做到“检全、检准、检精”。所以在检索的过程中，通过不断的阅读，发现，吸收新的信息，不断的调整检索策略，优化检索方案，得到最好的检索结果。初步确定中文检索词：慢行交通、慢行城市、步行系统、自行车系统英文检索词：slow traffic , bike sharing system (1) 利用搜索引擎，google、baidu等进行检索，对课题方向建立一个基本的概念； (2) 首其次进行三次文献的检索，三次文献的特点在于对各领域知识的高度浓缩和深度加工，可以对课题领域的背景和基本知识有一个全面而准确的认识; (3) 带着这些认识进行中文数据库的检索，能较快的制定出比较全面的检索式，检索出相关性较高的文献，通过对文献的进一步认识，把握住该领域内的专家、研究进展等； (4) 接着进行英文数据库的检索，有了上述的认识能方便地找出所需要的文献，避免因语言关不畅而浪费太多的时间； (4) 最后进行专利和标准的检索。

第一部分： 1.截止到2011年，全国研究生培养机构共多少所？1020 其中高等院校（618 ）所；科研机构（ 402）所。 2.2010年全年研究生教育招生（5 3.8万）人，在学研究生（153.8万）人，毕业生（38.4万）人。普通高等教育本专科招生（661.8万）人，在校生（2231.8万）人，毕业生（575.4万）人。 3.“信心比黄金和货币更重要”是谁说的？温家宝 4.胡锦涛出生日，出生地，毕业学校。１９４２年１２月生，安徽绩溪人，清华大学 5.光明网号称什么？（9字）知识分子的网上家园第二部分 1. 请在五分钟内向我推荐一款5000以内的笔记本电脑，要求：轻薄，重量在2kg以内，酷睿双核CPU，2G内存。联想V360A-ITH(380) 2. 截止到2010年，我国共有正规出版的图书（301719）种，期刊（9851）种，报纸（1937）种。你是在哪里找到这些数据的？请将检索步骤描述如下：到国家统计局找数据统计-→在找教育科技和文化→再找全国图书，期刊，报纸出版情况-→下载表格。 3. 2009年，我国国民总收入是（34346 4.7亿元），山东省城镇居民消费水平是（12012.73），位居全国（10）位。 4. 我国情报学硕士培养单位有哪些？山东省有哪些？北京大学,中国人民大学,北京航空航天大学,北京理工大学,中国农业大学,北京协和医学院,北京师范大学,中国科学院研究生院,中国科学技术信息研究所,中国农业科学院,中国中医科学院,中国人民解放军军事医学科学院,南开大学,天津大学,天津师范大学,河北大学,山西大学,山西财经大学,中国医科大学,吉林大学,东北师范大学,黑龙江大学,同济大学,上海交通大学,华东理工大学,华东师范大学,上海大学,上海社会科学院,第二军医大学,南京大学,苏州大学,南京航空航天大学,南京理工大学,河海大学,江苏大学,南京农业大学,浙江大学,安徽大学,安徽财经大学,福州大学,南昌大学,山东科技大学,青岛科技大学,济南大学,山东理工大学,郑州大学,武汉大学,华中科技大学,华中师范大学,湘潭大学,中南大学,中山大学,汉南师范大学,西南大学,四川大学,西南科技大学,云南大学,西安电子科技大学,第四军医大学,兰州大学山东: 山东科技大学,青岛科技大学,济南大学,山东理工大学

基于特征的多媒体信息检索系统MIRES: 近年来随着计算机网络的全面普及，多媒体信息检索发展很快。IBM公司数字图书馆方案将物理信息转化为数字多媒体形式，通过网络安全地发送给世界各地的用户。自然语言查询和概念查询对返回给用户的信息进行筛选，使相关数据的定位更为简单和精确。聚集功能将查询结果组织在一起，使用户能够简单地识别并选出相关的信息。摘要功能能够对查询结果进行主要观点的概括，这样用户不必查看全部文本就可以确定所要查找的信息。IBM Almaden研究中心推出了QBIC系统。该系统开创了图象信息查询的全新领域。图像可以按照颜色，灰度，纹理和位置进行查询。查询要求将以图形方式表达，如从颜色表中选取颜色，或从例图中选择图像的纹理。查询结果可以按照相关的序列指导子序列查询的进行。这种方法能够使用户更为快速和简便地对可视化信息进行筛选和确定。在“863-317”高技术项目支持下, 我们研究基于特征的多媒体信息检索系统MIRES(Multimedia Information REtrieval System)。运行环境：该产品客户端、Web服务器端使用Java语言开发，应用服务器使用C++语言开发，然后使用中间件服务器CORBA进行集成。应用服务器可运行于Windows2000,Windows NT,Windows Server。Web服务器可运行于各种主流操作系统，包括Windows，UNIX，Linux，Macintosh等。要求具有Java运行环境(Java虚拟机JVM)，如JDK1.3以上，另外还必须有中间件CORBA服务器，如visibroker ,orbix 等。Web服务器的支撑软件可是支持JSP/Servlet的任何平台，如TOMCAT等。客户端仅要求支持Java 的网络浏览器，如IE4.0等。硬件上要求PII、256M内存以上或者Sun、HP工作站等主流机型。主要功能：在MIRES的客户端，用户可以完成以下功能：（1）提供要检索的样本图象提交给图象服务器；（2）提供要检索图象的语义关键词提交给图象服务器；（3）用户可以以上两种模式交互混合检索所需图象。（4）对样本图象检索方式，允许用户设置各种特征的重要性系数；（5）对返回的结果图象组，用户可以通过交互式反馈，使检索更为符合用户的要求。在服务器端，接收客户端回传的检索请求，进行分析，选择查询策略，启动检索引擎进行检索；将查询结果图象排序后返回客户端。服务器还要完成对检索进程的管理、图象数据库的管理功能。接口和封装功能，能对各种已有软件或者程序进行良好的接口和封装，包括外挂式、内嵌式以及动态连接库等方式接口。运行平台能够提供网络运行模式，即一个平台可以分布在多台计算机上，而多个平台也可以相互进行通信和服务访问。客户端与服务器端之间要有友好的、高效的通信方式，并能选择不同的协议进行通信。关键技术： ●基于特征的图象信息检索：图象信息具有丰富的内涵，给人以直觉、形象、生动的感受，在多媒体信息中是一种重要的信息形态。重点研究按照颜色、形状、纹理等特征对图象信息进行检索。 ●中文信息全文检索：研究中文信息全文检索方法，具有布尔检索、截词模糊匹配检索、完全字符串匹配检索、位置相邻检索等多种检索机制。利用相关索引机制，提高检索效率。

§案例1-1明确选题来源和方法 §1设定选题情景恰逢我校一位政治学院的教师请我帮助收集“网络德育”研究发展情况的需求，他希望能通过文献检索帮助找到该方向下可写的研究选题。 §2明确检索选题方法结合应用浏览发现法和追溯检索法。在实践操作中，根据检索中的情况选择综合应用漏斗式、喇叭式和管道式追溯检索法帮助拓展选题的思路。本书结合浏览发现法和追溯检索法，帮助找到研究热点、文献空白、学科融合（见本书第2－7章分步讲解）；在“7.2检索拓展选题”中讲解检索获取现实实践、规划已有、学术争鸣选题的方法。 §案例2-1九问形成初步检索需求 §研究主题：网络德育 §1九问检索主题一问概念分类： 1、利用CNKI“学术定义”得到相关“网络德育”的定义，这里选取其中的两条：（1）网络德育就是指利用信息、网络以及信息技术,通过局域网（LAN）和广域网（WAN）开展的一系列德育活动。（2）网络德育是指发挥网络优势，对学生进行的政治教育、道德教育、法制教育和人文教育。 2、利用《中图法》检索得到德育的中图分类号D648、德育所在的学科知识层级关系为： “政治、法律> 中国政治> 思想政治教育和精神文明建设> 道德教育”。二问检索目的：了解该领域总体发展研究的现状与趋势，找到此主题下的一个比较热点的研究方向，确定论文的题目。注重资料的全面性、经典型、新颖性，即要求检索全面、经典、新颖的文献。三问存储形式：主要是网络型，利用数据库。四问加工深度：全文、文摘、三次的教科书、字词典等。

五问出版类型：期刊、图书、课件、学位论文。六问检索对象：有关网络德育研究的文献、事实。七问时间空间：有研究以来的全世界相关研究，要找到研究的主要学科、国家、期刊、作者、论文群，其中以中国的研究状况为主。八问数量语种：总体的文献数量分布及趋势，需要下载阅读的文献总量控制在20篇以内，大概中文10篇，英文为10篇。语种为中文、英文。汉英词典将“网络德育”译为network moral education、moral education based on the network、online moral education、moral education；利用CNKI翻译助手找到相关翻译为：network moral education、internet moral education、online moral education、network moral。综合得到网络德育英文表达为：network moral education、internet moral education、online moral education。九问结果质量。找到高引用率的期刊、高引用率的前5作者；英文期刊最好为SSCI 来源期刊，中文为核心期刊、CSSCI源刊；论文最好为位列被引用率较高的前10的论文。 §2形成初步检索需求检索需求包括：了解该领域总体发展研究的现状与趋势，找到此主题下的一个比较热点的研究方向，确定论文的题目。注重资料的全面性、经典型、新颖性，即要求检索全面、经典、新颖的文献。利用数据库、全文、文摘、教科书、字词典；期刊、学位论文；统计数据、事实；主要学科、国家、期刊、作者、论文分布，其中以中国的研究状况为主；总体的文献数量分布及趋势，20篇以内（大概中文10篇，英文为10篇）。高引用率的期刊、高引用率的前5作者；论文最好为位列被引用率较高的前10的论文。 §案例3-1 选择工具与功能 §研究主题：网络德育第2章需求提问分析得到的检索目标是：了解该领域总体发展研究的现状与趋势，找到此主题下的一个比较热点的研究方向，确定论文的题目。注重资料的专业性、全面性、经典型、新颖性，即要求检索全面、经典、新颖的文献。检索需求包括：利用数据库、全文、文摘、教科书、字词典；期刊、学位论文；统计数据、事实；主要学科、国家、期刊、作者、论文分布，其中以中国的研究状况为主；总体的文献数量分布及趋势，20篇以内（大概中文10篇，英文为10篇）。高引用率的期刊、高引

1994年以来，Internet发展日渐迅猛，由于它的开放性，世界任何地方的个人或单位都可以随时与网络连接，很方便地实现信息上网，达到资源的充分共享，因而大大提高了信息的可获得率。可是，网络开放的同时，也带来了一个直接的负面效应，那就是资源混杂紊乱，再加上网络管理的特殊性，人们只好在浩如烟海的资源面前屡屡驻足，要想从中挖掘出一点有用信息，简直比大海捞针都难。公众一致期待一种简单、易用、高效的信息检索方法出台，一些热情的计算机用户也纷纷推荐各种检索工具。但现有的检索软件参差不齐，各有优缺点，因此，如何选择一种最佳的检索软件成了困惑计算机用户的新问题。对当前网络信息检索的发展情况进行一番总结，可以满足人们的一些现实需求，并对将来的网络检索技术作出预测，为专家学者的研究指明方向。鉴于此，笔者做了以下的调研工作。 1资料以及检索结果资料收集分为国外与国内两部分。国外文献主要查阅INSPEC1994- 1997年9 月，并辅以PAR1995,检索途径为从主题词入手，选择的主题词主要有 Internet searching searching Internet search engine Internet information retrieval Internet Navigator Gopher Yahoo Lycos Infoseek W ebc raw le r WW W? W or Id Wide Web Information retrieval其中前4个主题词为重点检索词，后几个用于获得一批相关文献，以了解网络信息检索的大致情况，并对某些内容如Lycos Yahoo等进行了具体测定，其中难免有重复文献，但对大致的定性研究并无大碍。检索的方法为回溯检索，从最新文献开始，检索到1994年1月，至此，关于Internet 检索的文献已是廖廖无几而且从Internet的发展来看，确定1994年1月为时间下限较合适(见表1) 国内文献主要查阅中文科技期刊(1994年1月 ~ 1997年9月光盘版)和清华大学出版的论文集(理工辑)前者主要收录了近几年发表于中文科技期刊的科技文献，部分还附有文摘。通过阅读文摘，并辅以篇名及出处中给出的信息，我们能够大体确定文献所涉及的基本领域及具体问题。采取的方法主要是主题词检索,使用的重点检索词为:①Int er net:检出文献52篇,其中有效的为12篇;②计算机网络:检出1 394篇，有效文献为7篇信息技术:检出2 篇通WWW:检出1篇;⑤情报检索:检出4篇;⑥资源检索:检出1篇0浏览器:检出1篇。然后根据上述检出文献的作者情况，按主要作者进行人名检索;再根据文献出处确定如下几种核心期刊：《现代图书情报技术》《计算机与通信》《软件世界》、《计算机系统应用》,并据此进行刊名检索; 最后再根据分类号TP393及G2进行相关文献扩检，以弥补上述三种检索方法的不足对于1997年9月到1998年4月的新文献，笔者又用手工检索的方式遍览了北京大学图书馆和北京图书馆收录的所有相关期刊，得到17篇文献。至此，凡1994年1月到1998年4月公开发表于中文期刊上且主题是论述网络信息检索的文献已全被收集齐全。考虑到提高查全率的要求，笔者又手工翻阅了 1994~ 1997年《全国报刊索引》“哲社版”和“科技版”,所获无几 2历年来的发展规律分析检索得到的诸多数据，可以发现一些规律鉴于我国和西方各国之间的发展不平衡’Internet信息检索情况也有一定的差别，故对国内文献与国外文献分别进行讨论。先看看国外的发展形势。

基于内容的多媒体信息检索摘要：基于内容检索是多媒体研究中的新兴热点，会逐渐在很多领域中得到广泛的应用，本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。关键词：基于内容的检索；多媒体；图像检索；视频检索引言随着信息时代的到来，信息多元化程度加深，人们不再满足于单一的文本交流。多媒体技术的出现，使得信息的表达方式更生动、更容易被人们所理解，因此必将成为信息存在的主要方式。多媒体技术的发展和不断成熟对传统的信息检索系统产生了巨大的冲击，同时也对图象信息的检索、声音信息的获得以及各种媒体信息的检索查询等提出了新的挑战。于是，对多媒体信息的检索需要研究新的手段——需要借助计算机对多媒体信息从底层到高层进行处理、分析和理解以有效获取其内容，并根据内容实现方便快捷的检索，基于内容的多媒体信息检索便应运而生了。基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。目前，基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状和空间关系上，对于视频数据，还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题[1]。由此可见，这是一门涉及面很广的交叉学科，需要以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础，还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型，从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。 1基于内容检索的概述 1.1概念所谓基于内容的检索，就是从媒体数据库中提取出特定的信息检索，然后根据这些线索从大量存储在数据库中的媒体进行查找，检索出具有相似特征的媒体数据[2]。 1.2特点 1.2.1从媒体内容中提取信息线索基于内容的检索突破了传统的基于表达式检索的局限，它直接对图像、视频、音频内容进行分析，抽取特征和语义，利用这些内容特征建立索引，并进行检索。 1.2.2基于内容的检索是一种近似匹配由于对内容的表示不是一种精确描述，因此，CBR采用相似性匹配方法逐步求精，以获得查询结果，即不断减小查询结果的范围，直到定位于要求的目标，这是一个迭代过程[3]。 1.2.3大型数据库(集)的快速检索实际的多媒体数据库(集)不仅数据量巨大，而且种类和数量繁多，因此，要求CBR技术也像常规的信息检索技术一样，能快速实现对大型库的检索。 1.3查询和检索过程基于内容的查询和检索是一个逐步求精的过程，检索经历了一个特征调整、重新匹配的循环过程。 (1)初始查询说明。用户查找一个对象时，最初可以用QBE或查询语言来形成一个查询。 (2)相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相似匹配。 (3)满足一定相似性条件的一组候选结果,按相似度大小排列后返回给用户。 (4)特征调整。对系统返回的查询结果，用户可以通过遍历来挑选，直至得到满意的结果，或者从候选结果中选择一个示例，经过特征调整后，形成一个新的查询。 (5)如此逐步缩小查询的范围，直到用户对查询结果满意为止[4]。 2基于内容的图像检索计算机图像数码技术与互联网技术飞速发展的结合，使人们越来越多的接触到大量的图像信息。如何从浩瀚的图像数据库中快速、准确地找出自己所需要的图像，已成为一个受到广泛关注的研究课题。并成

2016年级科学学位硕士研究生班作业 1、对照ACRL2006年《科学、工程和技术领域信息素养标准》写出自己目前具备的信息素养，哪些是本次课程学习需要达到的信息素养。（对照三级指标每小项分别注明具备、课堂或者长期学习）标准一：有信息具有信息素养的学生能确定所需信息的性质和范围 1、定义和描述信息需求： a. 识别并／或能对研究课题或其他信息需求（如指定的实验室活动或项目）进行关键词重述或转换。（课堂学习） b. 向教学人员或专家咨询研究主题、研究项目或实验等问题的合理性。（具备） c. 草拟一个论题或假设，并根据信息需求列出相关问题。（具备） d. 通过浏览广泛的信息源来熟悉课题。（具备） e. 限定或修改信息需求以抓住重点。（具备） 2、可找到多种类型和格式的信息来源： a. 确定信息源的目标和受众。（例如：大众信息 vs.学术信息、当前信息 vs.历史信息、外部信息v s.内部信息、一次文献v s.二次文献vs.三次文献）。（课堂学习） b. 将专家和其他研究者作为信息源。（具备） c.识别并区分各种格式（例如多媒体、数据库、网站、数据集、专利、地理信息系统、三维技术，公开文件报告，音视频报告、书籍、图表、地图等）存在的潜在信息源的价值和不同之处。（课堂学习） d.认识到信息可能需要从一次文献或实验的原始数据中析出。（具备） e.认识到各种潜在有用的信息数据可能属于保密的、限制访问的或在线免费使用的。（具备） f. 认识到这些潜在有用的信息可能需要特定的数据管理经验并了解生产信息的组织结构。（课堂学习） 3、具备学科领域文献的应用知识并了解其产生过程: a.了解科技相关信息是如何正式或非正式一产生、组织以及传播的。（课堂学习） b.认识到学科中一次、二次、三次文献源的不同重要性。（课堂学习） c.知晓该领域的行业协会及其产生的文献。（长期学习） d.了解本学科领域的特殊文献源知识，如手册、小册子、专利、标准、材料/设备规格说明，当前的规章制度，工业常用参考资料、工业生产方法及实践手册、产品资料等。（长期学习） e.认识到知识可按学科分类，并考虑到复合学科可能会影响到信息获取方式，同时，其它学科文献也可能与信息需求相关。（具备） f. 认识到档案信息的价值以及在不同学科专业中的用途和重要性，并认识到信息长期保存的重要性。（具备） 4、权衡获取所需信息的成本与收益： a.确定所需信息的可用性，并决定是否扩大检索范围以查寻本地馆藏以外的信息。如咨询同事、独立信息经纪人、行业专家或顾问，以及利用馆际互借服务或附近的图书馆或信息中心等。（课堂学习） b.认识到获取信息需要付出的时间和费用。（具备） c.拟定一份现实可行的信息获取总体规划和时间表。（长期学习）

基于本体的查询一、研究内容 1.我们的实现结果（1）本体的构建。使用protégé3.4 创建了一个大学领域的本体UO.owl。与该本体相关的概念有：大学、大学基本信息、大学类别、主管部门。大学的属性有：大学地点、学校网址、类别（大学类别的实例）、校训、排名、主管部门（主管部门的实例）、学校简介。（2）本体的分析。大学作为一个本体，与之相关有概念、属性、属性类型。通过分析本体的相关属性，获取本体实例的各个属性值，从而显示出本体实例的详细信息。（3）基于本体的查询。当输入查询的关键字时，从大学本体UO.owl中查询出相关的实例信息。以下是实验结果截图：本体管理界面图1：图 1 当点击实例中的某一个实例的时候，弹出该实例的相信信息。例如当点击“大学基本信息类_中国石油大学“的时候，弹出该实例详细信息的窗体，如图2。

当点击“本体查询“时，弹出本体查询界面。输入关键字”北京“。结果如图3。图 3

输入“北京“可以理解为大学的名称中含有”北京“，也可以理解为地点是”北京”的院校。选择“名称相近的大学”，单击“点击查看“，如图4所示，显示出了名称中含有”北京“的大学的院校的信息。图 4 选择“地点相同的大学“，单击”点击查看”，图5 显示出了地点是输入关键字“北京”的大学院校信息。

当输入关键字“80”的时候，显示了排名在80附近的大学院校的信息，如图6。图 6

2.任务分工在本设计中，主要完成了三个模块，分工如下：负责本体创建模块，并且进行界面的设计；负责本体分析模块，并且进行界面的设计。负责本体查询模块，并且进行界面的设计。 3.目前的研究状况 Web检索的主要服务对象定位于大众，因此检索结果泛而不精是其特点之一，而对于特定领域的从业者来说，他们更多时候希望检索的结果全而精且局限于自己感兴趣的领域之内，而普通大众也希望自己能得到自己真正感兴趣的信息，而不是在大量的信息面前无所适从，因此专业的领域检索系统开发成为近年来信息检索领域的研究热点。近几年，国内外领域本体的构建以及在检索系统中的应用的相关研究主要有： 1）哈尔滨工业大学，杨艳琴，对目前生物学领域最丰富的Tao知识库进行研究和分析，设计并开发了基于Tao的生物领域信息检索系统。 2）中国农业大学，赵庆龄，针对农业知识本体论基础性研究的特点，结合土壤与农业化专业知识，建立了土壤领域知识体系，并在此基础上开发了基于网络的农业科技信息智能检索系统。 3）浙江大学机械电子控制工程研究所，叶冰，陈鹰，设计了一个面向机械行业的信息搜索系统的实现框架，探讨了行业信息的特征表示、特征匹配的实现这一前台信息数据的主动获取过程，同时也讨论了集中式行业信息数据库的信息检索这一后台信息检索问题。通过该系统，可以方便行业内的企业用户和技术人员快速、高效地获取比较精确和技术性强的信息。领域查询是一种利用国际信息资源的重要现代化手段，能够迅速高效地提供信息服务。因此长期以来，如何很好地利用领域检索都是讨论的热点。但是随着当今领域查询系统及数据库的数量迅速增长，查询技术也日新月异，挖掘领域检索的潜力这一任务变得越来越困难，用户己被置于一个数据库的“迷宫”之中，即使对于专业查询人员，能否合理地选择查询系统和数据库，也是一个非常棘手的问题。接下来的两方面是对这种状况的典型分析： 1) 从查询方式来看随着Internet的普及和发展，人们越来越依赖网络从事科研及商务活动，但是利用现有领域查询系统来查询某一信息，得到的结果存在着大量冗余，很少有他们想要的东西，其中的原因在于目前的领域检索系统查询的方式大多是基于关键词或者内容分类目录进行查找的，很少有进一步的智能化处理。 2)从数据源质量来看人们对查询要求有很好的全面性和时效性，这就对数据库资源的质量提出了严格的要求。无论是什么类型的联机检索系统，数据源都是其核心。即使再先进的领域检索系统，如果没有高质量的数据库资源，那也没有什么价值。特别是我们国家领域数据库的发展和建设起步比别人晚，目前总体水平还是比较低，这表现在: l) 领域数据库的容量较小，履盖年限短，时效性差: 2) 领域数据库规范性差，数据库服务能力差; 3) 领域数据库的开发缺乏市场意识;

网络信息检索研究论文 [摘要]搜索引擎是人们使用Internet信息资源的重要工具。本文对目前的中文搜索引擎进行了简要的分析，指出了其存在的缺陷和发展的方向。 [关键词]信息检索中文搜索引擎存在的问题发展方向随着Internet信息资源的迅速增长，如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息，成了迫切需要解决的问题，从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。然而各种搜索引擎，特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进，本文旨在分析目前中文搜索引擎存在的主要问题，并为解决此类问题提出一些建议和方法。一、搜索引擎的概念和及类型搜索引擎又称检索引擎，是指运行在Internet上，以信息资源为对象，以信息检索的方式为用户提供所需数据的服务系统，主要包括信息存取、信息管理和信息检索三大部分。目前，中文搜索引擎主要有三种类型：目录式搜索引擎、机器人搜索引擎（又称全文搜索引擎）和元搜索引擎。 1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式收集信息，建立数据库，由编辑人员在访问了某个web站点后，对该站点进行描述，并根据站点的内容和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与，其搜索的准确度较高，导航质量也不错。但因其人工的介入，维护量大，信息量少，信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。 2.机器人搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百度，google、天网为代表。它是使用自动采集软件Robot，搜集和发现信息，并下载到本地文档库，再对文档内容进行自动分析并建立索引。对于用户提出的检索要求，通过检索模块检索索引，找出匹配文档返回给用户。机器人搜索引擎具有庞大的全文索引数据库。其优点是信息量大，范围广，较适用于检索难以查找的信息或一些较模糊的主题。缺点是缺乏清晰的层次结构，检索结果重复较多，需要用户自己进行筛选。

●信息检索的意义和作用第１章绪论主要内容：本章主要阐述信息检索的意义和作用，叙述信息、知识、情报和文献的基本概念，并根据文献划分的不同标准,讲述文献的各种类型及特点。人类迈入21世纪时，社会信息化已成为不可阻挡的时代潮流,信息已经成为最重要的战略资源之一。但随着现代科学技术尤其是计算机技术和网络技术的迅猛发展,社会信息量激增,信息呈现出爆炸式的增长趋势。然而在信息的汪洋之中，存在着大量虚假信息和无用信息,这使得获取有用的信息资源变得越来越困难。因此,信息检索能力已成为新时代人才的一项必备技能。而作为新时代的大学生,信息检索能力的培养显得尤为重要。 1.1信息检索的意义和作用如何检索和利用信息资源，是一门学问，是现代人才的必备素质，也是一个人知识和能力可持续发展的重要条件。教育部和国家教委早在1984年就要求各高校开设文献检索课，并作为必修课，目的就是培养大学生的信息意识和获取文献信息的技能。近几年,随着计算机和通信技术的发展,社会信息进程加快，信息、物质、能源成为人类社会的三大财富，谁拥有信息谁就拥有财富，信息对于经济和社会的发展、科技文化的进步都起着重要的作用，谁掌握了最新信息，谁就掌握了主动权。信息在社会生活中越来越重要，信息检索与利用这门课的作用也日益重要。 1.1.１增强信息意识信息意识,即人的信息敏感程度,是人们对自然界和社会的各种现象、行为、理论观点等从信息的角度理解、感受和评价。通俗地讲，就是面对不懂的东西,能积极主动地去寻找答案，并知道到哪里、用什么方法去寻求答案,这就是信息意识。它的评价内容包括：（1)对信息科学的认识;（2）对信息的社会作用、经济价值的认识；(3)对特定信息需求的自我识别； (4)能充分、正确地表达出对特定信息的需求。

第一章多媒体计算机概论 1．什么是媒体按照ITU的定义，媒体是如何分类的媒体（Medium）是存储信息的实体；是信息的载体。在计算机领域中有两种含义: 1. 用以存储信息的实体，如磁带、磁盘、光盘和半导体存储器； 2. 信息的载体，如数字、文字、声音、图形和图像。 2．什么是多媒体，多媒体有哪些关键特性 1.交互性 2.多样性 3.集成性 4. 同步性 3. 最具影响力的多媒体系统 ?Commodore公司的Amiga系统 ?Apple公司的Hyper Card ?》 ?Philips/Sony的CD-I ?Intel/IBM的DVD 4.多媒体数据具有哪些特征 ?数据量大 ?数据长度不定 ?多数据流 ?数据流动连续记录和检索 5.简述多媒体计算机的关键技术及其主要应用领域关键技术数据存储技术 } 多媒体数据压缩编码与解码技术虚拟现实技术多媒体数据库技术多媒体网络与通信技术智能多媒体技术多媒体信息检索应用领域 1 娱乐 2 教育与培训 3 多媒体办公系统 4 多媒体在通信系统中的应用 5 多媒体在工业领域和科学计算中的应用 6 多媒体在医疗中的应用7.各种咨询服务与广告宣传系统8.电子出版物第2、3章多媒体计算机系统――硬件环境 1、# 2、多媒体计算机的层次结构是什么 1硬件系统 2软件系统 3应用程序接口 4 多媒体创作工具及软件 5 多媒体应用系统 3、简述显卡的工作原理。 1 CPU将数据通过总线传送到图形加速芯片

2显示芯片对数据进行处理，并将处理结果存放到显示存储器中 3显示存储器将数据传送到数模转换器RAM DAC并进行数字信号到模拟信号的转换 , 4 数模转换器将模拟信号通过VGA接口输送到显示器 4、光盘在存储多媒体信息方面具有什么特点 1 记录密度高 2 存储容量大 3 采用非接触方式读/写信息 4 信息保存时间长 5 不同平台可以互换 6 取代传统媒体存储介质 7 价格低廉 5、光驱读取光盘有哪两种方式各有哪些特点 [ 1 （CLV constant line velocity）恒定线速度方式。单位距离的光道上所存储的信息容量是相等的。内外光道的数据记录密度相同，当激光头移动到不同的轨道时，电机也必须以不同的转速旋转，内圈转慢，外圈快，维持单位距离信息读取时间一致。对于高速运转的光驱来讲，CLV方式容易造成光驱耐用性的降低。 2（CAV constant angular velocity）恒定角速度方式。不管内圈和外圈，激光头始终以恒定的角速度旋转CD-ROM盘片，这和硬盘驱动器的操作方式很相似。对电机来说实现容易，随机读取性能得到改善。但是内外圈的数据记录密度不同，光盘空间利用不充分。 6、只读光盘是如何记录信息光盘读取信息的原理是什么只读光盘记录信息的原理：是利用在盘上压制凹坑的机械办法，利用凹坑的边缘来记录“1”，而凹坑和非凹坑的平坦部分记录“0”，并使用激光来读出。光盘信息读取原理：在读出光盘信息时，就要把光盘上用凹坑和非凹坑代表的信息还原为原来的数据信息。光盘的读取过程是基于物理学的“光的反射”原理。凸面（Land）将激光按原路程反射回去，同时不会减弱光的强度；凹坑面（Pit）则将光线向四面发射出去，光强度会减弱。光驱就是靠光的“反射和发散”来识别数据。 7、光盘的标准主要有哪些各适用于哪些场合 1、CD-DA也称为红皮书，数字式激光唱盘或CD唱盘，是用来存储数字化的高保真立体声音乐。 2、CD-ROM标准从CD-DA 发展而来，又称黄皮书标准，该标准定义了计算机数据在光盘上的物理存储的格式，使得光盘以统一的格式存储只读的信息。 3、CD-R(Compact Disk Recordable:可刻录光盘)基于橙皮书的CD-R空白光盘实际上没有记录任何信息，一旦按照某种文件格式并通过刻写程序和设备，可以将需要长期保存的数据写入空白的CD-R 盘片上，这时的CD-R空白盘就可以变成CD-DA、CD-R 或VCD光盘的形式。 4、Video CD（简称VCD）称之为白皮书，它用来描述光盘上存放采用MPEG-1（活动图像专家组）标准编码的全动态图像及其相应声音数据的光盘格式 ' 5、DVD采用波长更短的红色激光、更有效的调制方式和更强的纠错方法，具有更高的道密度和位密度，并支持双层双面结构。它采用MPEG-2压缩技术的标准，可存放488分钟影片、～17GB的数据。 6、蓝光DVD技术采用蓝色激光波段，单层蓝光DVD盘可以存储25GB的数据，双层可存储50GB的数据，蓝光DVD提供了大的容量来容纳高清画质与音质。而HDDVD也是采用蓝色激光，最高容量也达40GB，但由于其压缩标准采用WMV－HD和，体现了高压缩比和低专利费等优点。 8、计算机数据在光盘上的存储格式是如何定义的分别是由哪些标准来定义的。物理格式：（黄皮书）

一 . 信息检索方面的经典图书 1,黄晓鹏.《医学信息检索与利用》. 北京:科学出版社，2004 2,巴伊赞-耶茨（Baeza-Yates.R.）.《现代信息检索》.北京: 机械工业出版社,2005 3,（美）克罗夫特《搜索引擎：信息检索实践》.北京: 机械工业出版社,2010 4, （美）曼宁，（美）拉哈万，（德）舒策.《信息检索导论》. 北京: 人民邮电出版社，2010 5,焦玉英，符绍宏，何绍华.《信息检索》.武汉: 武汉大学出版社, 2008 6,刘挺,秦兵，张宇，车万翔.《信息检索系统导论》.北京：机械工业出版社, 2008 7,花芳.《文献检索与利用》.北京：清华大学出版社,2009 西南科技大学图书馆：https://www.wendangku.net/doc/e417704008.html,/xxkc/ 哈尔滨工业大学信息检索研究中心：https://www.wendangku.net/doc/e417704008.html,/ 武汉大学信息检索： https://www.wendangku.net/doc/e417704008.html,/jpkc2010/xxjs/course/Content.asp?c=9 国家级精品课程（浙江大学）：https://www.wendangku.net/doc/e417704008.html,/k/244/ 国家精品课程资源网： https://www.wendangku.net/doc/e417704008.html,/course/search?subject02=01005005 二 . 信息检索方面的国内权威专家和教授：张厚生：曾为东南大学情报科学技术研究所图书馆学硕士研究生指导

教师，教授。主编的系列丛书：网络信息资源检索与利用。闫宏飞：北京大学副教授，主要研究方向是信息检索、分布式系统，是国内自主研发的最早的搜索引擎——“天网”2.0 系统的主要开发者，担任北京大学网络所“搜索引擎与互联网信息挖掘”研究团队的第二负责人。彭波：北京大学讲师，主要研究方向是 Web 信息检索、分布式系统。2004 在北京大学获得博士学位。曾经负责设计与实现了天网搜索引擎的索引系统，在大规模网络数据的组织与处理方面积累了丰富经验。在北京大学开设了“Web 信息体系结构”和“大规模数据处理”课程，近年来作为主要人员参加国家 863 课题“数据空间的组织、存储与索引技术”的工作。刘挺：哈工大信息检索研究中心主任。教学经历：1995 - 1998: “人工智能”, 面向哈工大计算机专业研究生；2001 - 2004: “统计自然语言处理”, 面向哈工大计算机专业研究生； 2001 - 2009: “信息检索”, 面向哈工大计算机专业研究生；2006 – 2009: 计算机新进展，面向哈工大计算机专业本科生。三 . 开设信息检索专业（方向）的国内高校及其学历层次：本科：北京大学、华东师范大学、武汉大学、河北经贸大学、河北大学、河北师范大学、内蒙古科技大学包头师范学院、内蒙古科技大学、辽宁大学、辽宁科技学院、辽宁师范大学、辽宁师范大学海华学院、福建师范大学、郑州大学、郑州航空工业管理学院、湘潭大学、广西师范大学、广西民族大学、桂林理工大学、贵州大学、宁