文档库 最新最全的文档下载
当前位置:文档库 › 浅谈跨语言检索的方法

浅谈跨语言检索的方法

浅谈跨语言检索的方法
浅谈跨语言检索的方法

2012年第2期(总第101期)

*收稿日期:2012-04-27

浅谈跨语言检索的方法

(宁德师范学院图书馆,福建宁德

352100)

摘要:跨语言检索是为了满足网络资源语种多样性,克服用户掌握语言差异性所带来的检索语言障碍。全球

化信息结构引发了对跨语言信息检索的迫切需要。当前跨语言检索在分类与语言学资源等方面尚存在着亟待解决的问题。

关键词:跨语言信息检索;跨语言信息检索的分类;语言学资源;中间语言

跨语言信息检索研究最早可追溯到1973年

G.Salton 先生Experiments in multilingual informa -tion retrieval 一文的发表。Salton 利用手工编制的

叙词表实现了受控语言的跨语言信息检索

[1]

。当

时的研究主要针对国际联机检索进行的,由于检索系统不普及,因而人们对网络信息的需求并不强烈。在上世纪90年代,随着网络信息资源的急剧增长以及各语种信息的丰富,又掀起了这方面研究的热潮。

跨语言信息检索(Cross-language Information

Retrieval ,CLIR),是指用户以一种语言提问,检出

另一种或几种语言描述的信息资源的信息检索技术和方法[2]。跨语言信息检索中,用户用以表达自己的信息需求,构造检索提问式的语言称为源语言(Source Language ),被检索的信息资源所使用的语言称为目标语言(Target Language)。

为了使查询语言和文档集语言这两者之间相映射,于是采用转换的方式。一般采取用户提问转换(query translation)、文档数据转换(texttranslation)和利用中间语言(interlingual)方法。

无论采用何种方法,都包括基于机读词典的方法、基于机器翻译的方法和基于语料库(Corpus

)资源的方法。

一、跨语言信息检索的分类

1.基于提问式翻译(Query Translation)的方法

提问式翻译是将查询提问中的源语言翻译成目标语言,然后再利用由目标语言构成的检索式去查找相关信息进行单语言检索。它简单易行,且实现难度较小,但要求检索系统本身应具有多语言的检索能力。

提问转换包括两个步骤:提问词的翻译转换和最终对应提问的确定。但查询语句不一定是完整的句子,往往是一些孤立的词,没有上下文提示信息,增加了精确翻译的难度;第二,由于查询语句的语言一般较短,所以译词选择不好往往对检索结果有很大的影响[3]。故而提问词的翻译需要有一定的词组,结合上下文语境,在系统提供的语义范围内,去掉有歧义的项,最终确定。

2.基于文献翻译(Ducument Translation)的方法

文档数据转换方法是主要试图利用机器翻译系统把需要检索的信息转换成与提问相同的语言,然后进行单语言检索。欧瑞德Oard D W [4]在

1998年利用这种方法进行的测试表明,相对于提问式翻译,文献翻译有更加宽泛的语境信息,可以

利用上下文消除翻译的歧义性,以期解决一词多义、一多词等问题,翻译的准确性较高。但这种方式的效率与语言本身有很大关系,所需的处理时间随文件不同而有极大的差异。目前为了解决这个问题,一般仅对文档数据中的部分重要内容,即文档片断或特征向量进行翻译,帮助用户进一步

宁德师范学院学报(哲学社会科学版)106

取舍。但这需要用户自己决定如何选择所要翻译内容。

研究得出结论是文献翻译的结果好于提问翻译[5]。

3.基于“中间语言(Riangulated Translation)”的方法

利用中间语言的方法是将用户提问和需要检索的资料都转换为同一种逻辑形式,或者第三种语言。避免了直接翻译到目标语言而导致的语义偏离[6,7,8]。中间语可以选一种在一定时期内使用最为广泛的语言,如英语。常用于两种弱势语种的语义检索时。支持弱势语言,使这些弱势语言的使用者得到利益。

两两翻译N种语言,需要做N*(N-1)次翻译,如果借助中间语言,只需要N*N次翻译,使翻译的语言减少,提高效率。

二、跨语言信息检索所使用的语言学资源

1.基于机读词典(Machine Readable Dictio-nary,MRD)

其依赖于一部从源语言到目标语言的机读双语词典。将查询源语言翻译成目标语言,然后再利用由目标语言构成的检索式去查找相关信息[9]。这是优先考虑的方式,是一种词到词(word by word)的转换。但由于双语对应关系中一词多义和一义多译的存在,使得实际操作中遇到很多困难。

目前没有什么有效的解决方法,一般用引入短语的方法,有助于词典在多语义时进行选择。主要选择第一个词义、前N个词义、所有词义等[10]。通过统计词频、共现模型(Co-occurrenceModel)[11]方式,也可以提高检索质量。

MRD面临的挑战之二是词典的覆盖度问题,即词典没有收录的词语,如专业名词、机构名称、地名、产品名称、新词等。目前研究主要通过普通词典与专业词典结合,及时更新词典,或采取不翻译的方法来处理。微软亚洲研究院自然语言组提出了采用支持向量机识别中文新词的技术。

2.基于机器翻译(Machine Translation System, MTS)的方法

机器翻译能够执行深层次的语法分析,利用上下文信息,解决一词多义、歧义等问题。翻译本身涉及到字(character),词(word)、语法(syntax)、语义(semantics)以及语用(pragmatics)等层次的知识,相当复杂。

目前,全自动机器翻译系统在完全开放的语境中不能提供满意的翻译质量,不过在受限的某领域机器翻译质量还是较高的。可以认为跨语言信息检索是信息检索和机器翻译的某种交叉。

3.基于语料库(Corpus)资源的CLIR

从大规模的语料入手,从中抽取所需的信息,自动构建与应用有关的翻译技术[12]语料库可分为平行语料库(Parallel Corpus)和比拟(Comparable Corpus)语料库。

平行语料库是指同一篇文献,同时用两种或多种语言描述,并由人工或计算机建立不同语种间信息联系的集合。比拟语料库是指同一主题文献,用两种或多种语言描述。理论上较容易取得大量的文档。显然,平行平行语料库相对不容易获得。实际用“比较对齐语料库”(com parable aligned corpus)替代平行对齐语料库[13]。有著名的(Canadian Hansard)语料,是英法的平行语料。

语料库建立的最初目的是进行自然语言处理,或者说是为了机器翻译,所以跨语言检索的实现对语料库的要求相对较低。

三、跨语言检索结果反馈(Retrieval Feed-back Technique)

常用召回率、精确率和平均精确率来评价语言检索[14]。以跨语言检索平均精确率与单语言检索平均精确率得比值表示跨语语言检索效率。

在跨语言信息检索中,通过一次检索往往得不到想要的结果(目的文献),这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进。检索反馈技术可以极大地改善CLIR系统[15]

四、结语

从1996年的ACM—SIGIR会议上首次提出跨语言信息检索系统,到1997年在美国国家标准技术局(N IST)召开的第六届TR EC加入了CLIR评测,跨语言检索迅速发展。虽然对跨语言检索的研究还多处于实验阶段,跨语言检索的查准率还较低,但它潜在的大发展空间,以及随着用户对跨语言检索需求量的不断加大,随着各类研究手段的结合使用,语料库等支持手段的完善,相信跨语言检索的效率会不断提高。

107

参考文献:

[1]彭冬莲.eBook探析[J].高校图书馆工作,2003,23(1):10-12.

[2]M Braschler,J Krause,C Peters,P Schaeuble.Cross-Language Inf ormation Retrieval(CLIR)Track Overview.In:Proceedings 7th Text Retrieval Conference(TREC’98),Gaithersburg(USA),1998.

[3]JS McCarley.Should We Translate the Docu ments or the Queries in Cross一Language?I n:Proceeding of the37the an-nual meeting of the Association for ComPutation Linguistics on ComPutation Linguistics.1999

[4]Cummings J.Knowledge sharing:A review of the literature.[2003-10-21].http:https://www.wendangku.net/doc/c31614189.html,/oed.

[5]J Xu,RM Weischedel,C Nguyen.Evaluating a Probabilistic Model for Cross—Lingual Information Retrieval.In:Processdings of the24th Annual International ACM SIGIR Conference on Research and Development in Information Rrtrieval,New Or-leans(USA),Louisiana,2001.

[6]Wold H.Partial leasts quares[M].New York:Kotz S.and Johnson N.L.,Encyclopedia of Statistical Science,Wiley,1985。

[7]Michael L Littman,Susan T D um ais,Thom as K Landauer.Automatic cross-language inform ation retrieval using latent se-mantic indexing[C].Working Notes of AAA I Spring Symposium on Cross Language Text and Speech Retrieva,l1997.

[8]BobRehder,M ichael L.Littman,Susan Dum ais,et a.l Autom atic3-language cross-language information retrieval with la-tent se-mantic indexing[C].In The Sixth Text Retrieval Conference Notebook Papers(TREC6),1997.

[9]王蕾.电子书及其国内外研制现状介绍[J].图书馆学研究,2002(10):62-65

[10]陈俊华.新兴图书E-BOOK的思考[J].情报科学2002(9):949-951.

[11]张俊林,曲为民,杜林,孙玉芳.跨语言信息检索研究综述[J].计算机科学,2004.31(7)16-19.

[12]菲德勒.媒介形态变化:认识新媒介[M].明安香译.北京:华夏出版社,2000:20.

[13]Frank Smadja,Kathleen McKeown.Automatically extracting and representing colloations for language generation.In:Pro-ceedings of the28th Annual Meeting of the Association for Computational Linguistics,1990:252-259

[14]闵金明,孙乐,张俊林.重新审视跨语言信息检索[J].中文信息学报,2006(4):33-40.

[15]L Ballestems,WS Croft.Phrasal Translation and Query Expansion Techniques for Cross—Language.In:Proceedings of the7th International DEXA Conference on Database and Expert Systems Applications,1996

[责任编辑林锦屏] 108

检索语言的分类

检索语言的分类:按照揭示和反映信息内外部特征的不同,检索语言可划分为:分类语言:以数字、字母(或字母与数字结合)为检索标识,作为有关类目的代号。 主题语言:分为标题词语言、叙词语言和关键词语言; 名称语言:以人名、地名、机构名、篇名、书名等为检索标识; 代号语言:以文献特有的顺序号(如专利号、标准号、合同号等)为检索标识 邻近位置算符(W)W是with的缩写。(W)算符也可以简写为()算符,A(W)B,表示A紧挨着B,顺序不能颠倒。A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。 邻词位置算符(nw)A(nw)B,表示两个词的次序不变,其间可以插入n个词。 句子位置算符(S)S是sentence的缩写。A(s)B表A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。 字段位置符(F)F是field的缩写。A(F)B,表示A和B 必须同时出现在记录的同一个字段之中,但位置和次序不限,两者之间还可以任意加词。如Rice(F)Genetics/Ti 要求Rice和Genetics必在同时出现在篇名之中。 记录位置算符(C)C是citation的缩写。A(C)B 其作用等同于A and B,均表示A和B 同时出现在同一记录内,但词序不限,也不要求在同一字段内。 截词符号 常用的有“?”、“$”和“*”等,绝大部分数据库无限截词符用“*”,少数用“?”或者“$” 截词类型 (1)后截断,前方一致。如:“comput*”表示computer、computers、computing等。(2)前截断,后方一致。如:“*computer”表示minicomputer、microcomputer等。(3)中截断,中间一致。如:“*comput*”表示minicomputer、microcomputers等。 1 .括号改变运算顺序。 2 .引号引号内的检索项以整体形式出现。精确匹配: “”和《》号,给查询词加上双引号则不拆分查询词,加上书名号的查询词,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 3 .个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 【实例】在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”就是通用的“not”。 1. 直接法(1)顺查法(2)倒查法(3)抽查法 2. 追溯法

常用的几类搜索引擎技术

详细介绍常用的几类搜索引擎技术 因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。 据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9TB,并且仍以每4个月翻一番的速度增长。例如,Google 目前拥有10亿个网址,30亿个网页,3.9 亿张图像,Google支持66种语言接口,16种文件格式,面对如此海量的数据和如此异构的信息,用户要在里面寻找信息,必然会“大海捞针”无功而返。 搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 目前,搜索引擎技术按信息标引的方式可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎;按查询方式可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。 目录式搜索引擎 目录式搜索引擎(Directory Search Engine)是最早出现的基于WWW的搜索引擎,以雅虎为代表,我国的搜狐也属于目录式搜索引擎。 目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎,一般的搜索引擎分类体系有五六层,有的甚至十几层。 目录式搜索引擎主要通过人工发现信息,依靠编目员的知识进行甄别和分类。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。 机器人搜索引擎 机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。

文献检索作业考试答案

名词解释: 1.文献检索:是将文献按照一定方式集中组织和存储起来,并按照文献用户需求查找出有关文献或文献中包含的信息内容的过程。广义的文献检索包括文献的存储和文献的检索两个过程。狭义的文献检索就是找出自己所需的文献。 2.检索语言:是用于描述检索系统中文献的内容特征及外表特征和表达用户检索提问的一种专门化的标识系统。检索的匹配就是通过检索语言的匹配来实现的。 3.后组织式语言:是指在检索前检索系统中的检索标识是独立的,实施检索后,才根据检索需要进行组配的检索语言。如叙词语言、单元词语言、关键词语言属此类型。 4.电子文献资源:电子文献资源是以电子数据的形式,把文学、声音、图像、视频等多种形式的文献存储在光、磁等非印刷纸质的载体中,以电信号、光信号的形式传输,并通过网络通信、计算机或终端和其他外部设备等方式再现出来的一种新型文献资源。 5.参考数据库:是指包括各种数据、信息或知识的原始来源和属性的数据库。数据库的记录是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要、分类等,然后形成的。一般来说,参考数据库主要针对印刷型出版物而开发的,它包括书目数据库和指南数据库两种。 6.OPAC:是英文Online Public Access Catlogue的首字母缩写,可以译为“联机公共书目查询系统”,是一个基于网络,供读者查询图书馆藏书目信息的联机检索系统。它是图书馆自动化的基础,也是未来数字图书馆的有机组成部分。 7.电子图书:又称为数字图书或Ebook,是随着电子出版、互联网以及现代通信电子技术的发展应运而生的一种新的图书形式。电子图书应具有三要素:(1)电子图书内容。(2)电子图书的数字存储设备。(3)电子图书的阅读软件。 8.网络电子图书:是以电子形式出版发型,以互联网为流通渠道、以数字内容为流通介质、以网上交易为主要支付手段的图书。 9.前方一致检索:也称为后截断检索,是指在某一检索项内容中,检索前方与检索字/词完全一致的文献。前方一致检索适用于数值索引的检索项。 10.多项双词逻辑组合检索:多项是指可以选择多个检索项;双词是指一个检索项中可以输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合:并且、或者、不包含、同句、同段,每个检索项中的两个检索词可以分别使用词频、最近词、扩展词;逻辑是指个检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。 11. 双词频控制检索:是指对一个检索项中的两检索词分别实行词频控制,也就是一个检索项使用了两次词频控制。是针对单项双词组合检索而设置的。 12. 引文:所谓引文就是参考文献

情报检索语言研究综述

情报检索语言研究综述 80国家图书馆学刊2004年第3期(总第49期) 画被瀛 情报检索语言研究综述 沙淑欣 摘要从人工语言研究,自然语言研究,网络情报检索语言研究,自然语言与人工语言一体化研 究,兼容与互换问题研究及其他方面问题的研究六个方面对2000年至今有关检索语言方面 的文章 进行梳理,以呈现新世纪情报检索语言研究的全貌.参考文献36. 关键词情报检索语言人工语言自然语言网络环境兼容 分类号G254.0 检索语言是信息交流的工具,是知识组 织的中心环节,是信息用户开启信息资源的 钥匙,其重要性得到学术界及全社会的普遍 重视.有关检索语言的研究一直是图书情报 学,语言学,计算机科学共同关注的领域.现 对2000年至今有关检索语言方面的120余 篇(不包括《中图法》方面的文章)学术论文进 行梳理,以明确新世纪情报检索语言研究的 现状,成就,热门研究课题及其发展趋势. 1人工语言研究

对于高要求的检索来说,控制是绝对必 要的.人工语言就是对概念及其标识系统实 施严格规范的检索语言.人工语言按其结构 原理可分为主题语言,代码语言三分类语言, 种类型.近四年来对这方面研究的文章较 少,且主要集中在网络环境下的知识分类组 织,情报检索语言发展趋势,分类主题一体化 以及对《中图法》的研究上. 1.1分类法理论与实践研究 情报检索语言中的受控语言最初是为克 服很早就被纳入了情报检索语言系统的自然 语言的不足而产生的?.自汉代刘向,刘歆 的《七略》算起,图书分类法已经有2000多年悠久的历史,而且分类语言是现今所有情报 检索系统中使用最普遍的一种检索语言.新 世纪,除少量文章对国内外其他分类法做比 较粗浅概略的介绍外,大多数文章围绕《中图法》展开.据不完全统计,相关文章有360多篇,包括《中图法》与其他分类法的比较研究; 各学科文献分类研究;《中图法》类目复分,组配技术,标记体系,类目修订,类目注释等研 究.韩立栋在《<中图法>(第四版)问题述评》一文中,分析了《中图法》(第四版)中存在的类名问题,仿分问题,沿革注释问题,总论

跨语言信息检索在搜索引擎中的应用

龙源期刊网 https://www.wendangku.net/doc/c31614189.html, 跨语言信息检索在搜索引擎中的应用 作者:常亚波 来源:《中小企业管理与科技·上旬刊》2013年第04期 摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性、重要性和最近的国内外应用状况。指出了对应用中存在的不足和缺陷,并相对应提出了改进建议。最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望。 关键词:跨语言信息检索 CLIR 搜索引擎 1 概述 所谓跨语言信息检索(Cross-language Information Retrieval,CLIR),系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。CLIR中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target Language)。网络用户检索信息主要通过搜索引擎来达到其目的。就中国来说,CNNIC最新发布的《第25次中国互联网络发展状况统计报告》显示,截至2009年12月31日,中国网民规模达到3.84亿人。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6%。搜索引擎的使用率为73.3%,较2008年增加了5.3个百分点,超过了即时通信成为网民使用互联网的第三大应用[1]。然而,网络资源语种的多样性和差异性成为了网络用户存取信息的巨大障碍。网络信息语种分布和网络用户语言分布不平衡。据Internet World Stas统计,截止2009年12月31日,目前全球18亿多网络用户所使用的语言依次为:英语27.7%,中文22.6% ,西班牙语7.8%,日语5.3%,葡萄牙语4.3%,德语4.0%,阿拉伯语3.3%,法语3.2%,俄语2.5%,韩语2.1%,其他语言17.2%。虽然笔者没有找到最近Web网页所使用的语言比率,根据Netcraft统计显示,截止2010年6月全球共有2亿多个网站[2]。而根据《第25次中国互联网络发展状况统计报告》统计结果,中国网站数量仅为232万个,比率刚刚超过10%,由此可见一斑。因此,CLIR是全球知识共享的关键因素,是跨越地理和语言障碍获取信息的技术需求。而且,网络用户需要CLIR工具,用其查找、检索和获悉任何语言和形式的相关信息[3]。 2 跨语言信息检索在搜索引擎中的应用现状 搜索引擎按语种分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。它主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问的翻译和不同搜索引擎检索结果的集成。 2.1 跨语言搜索引擎

检索语言

一、名词解释 查全率 是指系统在进行某一检索时 检出的相关文献量与系统文献库中相关文献总量的比率 它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。 检索语言 是根据信息检索的需要创造出来的一种人工语言 是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。 标题词法是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。标题词指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。 信息素质:是指判断何时、何地需要信息,并能有效的定位、获取、评价和利用信息的一系列能力的总和。 二、简答题 1.简述检索语言的基本功能 答: 1) 对文献的信息内容(及某些外表特征)加以标引的功能。要求利用检索语言能够正确标引文献信息内容及其外表特征。 2) 集中文献的功能。对内容相同及相关的文献信息加以集中或揭示其相关性,提高信息检索效率。 3) 信息组织的功能。对大量文献信息加以系统化或组织化,使文献信息的存储集中化、系统化,便于信息检索者按照一定的排列次序进行有序化检索。 4) 一致性功能。便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性。 5) 获得最高查全率和查准率的功能。保证检索者在按不同需要检索文献时,都能获得最高的查全率和查准率。 6) 桥梁和纽带功能。在文献信息标引者和检索者之间发挥桥梁和纽带作用,使二者在理解和表达文献信息主题方面达到一致,以提高信息检索的准确性。2.分类检索语言的作用 答: ①这是进行分类标引和组织分类检索工具的规范。②它能作为对文献资料进行分类排架的依据。但在档案机构一般要采用另一种类型的分类体系来组织分类排架。③它是检索者从分类途径检索文献资料的指南。④它是文献工作者工作中常用的参考手册。 三、文献信息检索

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。一、分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:、LookSmart、Open Directory、Go Guide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。二、性能指标我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB 网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制三、主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL 中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL 可以是任意的URL,但常常是一些非常流行、包含很多的站点(如!)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。2.索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

存储与检索复习题

1、信息检索就是对信息项进行表示、存储、组织与存取的全过程。 信息存储是指将有用信息按照一定方式组织和存放起来,信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。 2、信息检索的原理:参见书上图1-1理解 3、信息检索的一致性匹配机理:提取机理、表示机理、比较机理、判断机理、选择机理。 4、信息检索的类型:(1)按照检索对象的性质分为文献检索、数值检索、事实检索;(2)按照计算机检索技术分为脱机检索、联机检索、光盘检索、网络检索。 5、在手工检索阶段,人们常用的概念是检索工具,在计算机检索阶段,人们使用数据库,在网络检索阶段。人们使用搜索引擎。 6、信息检索系统物理结构组成,逻辑结构的组成和原理。 7、信息检索产生于美国,其发展经历了起步期(以单词检索为特征)、成长期(以脱机检索为特征)、发展期(以联机检索为主)、成熟期(检索转向个人终端)、开放期(以网络检索为主)。 8、信息检索的趋势:跨语言检索、多媒体检索、信息检索可视化、信息检索智能化、信息检索个性化、信息检索多样化。 第二章: 1、检索策略一般都包含文档集的逻辑表示、查询的表示、相似性匹配及其排序三个要素。 2、经典的检索模型:布尔模型、向量空间模型、概率模型。要求了解三种模型的思想和原理,重点掌握矢量模型的计算过程。 3、TF-IDF加权策略:对特征项计算权重的方法,该策略由簇内相似性和簇间不相似性两种效果来衡量。 4、将文本内容中的信息与文档结构信息结合起来进行检索的模型叫做结构化检索模型。包括费重叠链表模型、邻近节点模型、平坦模型(扁平浏览模型)、结构导向模型、超文本模型。 第三章: 1、记录是作为一个单位来处理的有关数据的集合,它是对某一实体的属性进行描述的结果。常见的书目记录是MARC记录结构,不同的国家有不同的记录格式,但为了进行不同机构间的目录交换,机读目录必须在物理结构、内容标识符、内容数据方面做到统一。 2、对文本信息进行检索的主要技术是顺排文档和倒排文档。顺排文档检索方法主要有表展开法和逻辑树法两种,其中表展开法的处理过程是

信息检索语言

第二节信息检索语言 计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。这里所说的“准确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。然而实际工作中,从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则不一致,导致存入的文献检不出。为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则,即一种约定的相同标识和线路,这就是检索语言。 一检索语言的含义及作用 1 检索语言的概念 检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。 有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统)进行核对,标引成检索提问标识。 如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。 2 检索语言的工作原理 (1)存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。 (2)检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。 3 检索语言的作用 (1)保证不同标引人员表征文献信息的一致性。(2)使内容相同及相关的文献集中化。 (3)保证检索提问与文献信息标引的一致性。(4)保证检索者按不同需求检索文献信息时都能获得较高的查全率和查准率。 二检索语言的类型 1 自然语言(natural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolled term)。 (1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 (2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。 (3)全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。 (4)引文(quotation):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。 自然语言的优点: (1)新颖性强:一旦文献中出现某个新词语,即可直接使用这一词语作为检索入口,根本无需像受控语言那样冥思苦想地将其转换成另一规范词用于检索。 (2)检索方便:它解除了人工语言的种种限制,不需要复杂的检索规则,使用者能较快适应,易用性强。 (3)标引准确度高:自然语言采用从文献中抽词标引的方式,不容易发生误标引,适用于计算机检索。只要数据库的文献标题中含有该检索词,即视为命中,健全率较高。 自然语言的缺点: (1)词汇量太大,给词汇的存储、加工和检索带来许多操作性方面的困难。 (2)当文献的主题很明白清楚地在标题或主题词中表达出来时,检索才会较成功,反之则失效。 (3)词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。 2 人工语言 由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。包括分类检索语言、主题检索语言、代码检索语言。 (1)分类检索语言 按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。

计算机信息检索2016-2018年真题汇总

简述互联网信息资源的局限性? 分散 无序 多变 信息质量难以控制 信息安全难以保障 简述元搜索引擎的缺点? 检索结果全面性和可靠性较差 不能灵活控制结果的输出 检索结构排序不够理想 信息搜索覆盖面存在局限性 检索式处理较复杂 简述图书馆馆藏目录检索系统的检索途径? 题目检索 责任者检索 分类检索 主题/关键词检索 号码检索 出版社名称检索 搜索引擎的“瓶颈”? 1.搜索引擎的索引能力,搜索引擎收录信息的全面性是衡量其质量水平的重要 指标,能够被索引进数据库的信息是有限的,搜索引擎的索引量,索引的更

新时滞等都是制约搜索引擎的瓶颈。 2.迎战“深网”,在深网的搜索渗透过程中,主流搜索引擎面对不小的挑战。 3.由于种种原因,目前搜索引擎的排序和输出主要有相关性差和搜索结构单一 化等问题。 目录型网络检索工具与搜索引擎的区别? 1.适用性:目录型检索工具适合希望了解某一方面、某一概念的全面信息,而 搜索引擎对搜录某一特定信息较为有用。 2.优势与不足:目录型检索工具收录的网站经过专家人工精选,内容丰富、学 术性强,信息质量稳定,检准率高,但搜索范围比搜索引擎小,信息更新速度较慢,很难检到较专业、深入的信息,搜索引擎查询全面而充分、方便快捷,但是可选择的网络信息资源太多,检准率,查全率都比目录型检索工具差,而且感觉使用复杂,门槛高。 3.发展趋势:目录型网络检索工具和检索引擎各有优缺点,将来的发展趋势是 将两者结合起来,使结果更为全面、准确。 超文本传输协议 是浏览器与web服务器之间相互通信、传输,响应用户请求的协议。 超文本标记语言 是一种专门编程语言,具体规定和描述了文件显示的显体格式 元搜索引擎 元搜索引擎又称集合式搜索引擎、并行搜索引擎或搜索引擎之搜索引擎,它是将多个搜索引擎集成在一起,并提供一个统一的检索界面。 目录型网络检索工具

检索语言

检索语言 检索语言(Retrieval Language)就是组织文献与检索文献时所使用的语言。也就是说,文献存储时,文献的内容特征(如分类、主题)和外表特征(如书名、刊名、篇名、号码、著者等)按照一定的语言来描述,检索文献时的提问也按照一定的语言来加以表达。这种在文献的存储和检索过程中,共同使用、共同遵循的语言就是检索语言。实质上它是标引和检索之间的约定语言,是人与检索系统对话的基础,检索的匹配就是通过检索语言的匹配来实现的。使用检索工具和检索系统必须掌握检索语言,它是掌握和提高检索技能的基础。检索语言的基本成分是检索词。按检索词的规范化程度和组配程序,检索语言可分为自然语言(Natural Language)和人工语言(Artificial)两种。自然语言采用的检索词是未加工整理和规范过的,即平常采用的关键词,这种语言又称作关键词语言(Keyword Language)。人工语言采用经过规范化的词,规定一个词表示一种事物,例如规定“aircraft”表示飞机,而不用“air plane”、“plane”和“aeroplane”,以做到文献存储和检索的一致性。信息检索语言是根据检索需要而创制的人工语言,也称检索标识系统,专门用于各种手工和计算机信息检索系统。从不同角度检索文献,就有不同种类的检索语言,常用的有主题语言和分类语言,下面分别加以论述。 (一)分类语言 分类语言是用分类号和相应分类款目来表达各种概念的,它以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序。分类语言能反映事物的从属派生关系。便于按学科门类迸行族性检索。 分类语言中最常见的是体系分类语言,它按照学科体系从综合到一般、从复杂到简单、从高级到低级的逻辑次序逐级展开,世界著名的分类法有:《国际专利分类表》(IPC)、《杜威十进分类法》(DDC)、《美国国会图书馆图书分类法》(LC)、《中国图书馆图书分类法》(中图法)和《中国科学院图书馆图书分类法》(科图法)。 例:一部完整的分类法如《中图法》大体由分类表、辅助表和使用说明三个部分组成。分类表:是选择信息、类分信息、组织信息和检索信息的依据;辅助

浅谈跨语言检索的方法

2012年第2期(总第101期) *收稿日期:2012-04-27 浅谈跨语言检索的方法 郑 萍 (宁德师范学院图书馆,福建宁德 352100) 摘要:跨语言检索是为了满足网络资源语种多样性,克服用户掌握语言差异性所带来的检索语言障碍。全球 化信息结构引发了对跨语言信息检索的迫切需要。当前跨语言检索在分类与语言学资源等方面尚存在着亟待解决的问题。 关键词:跨语言信息检索;跨语言信息检索的分类;语言学资源;中间语言 跨语言信息检索研究最早可追溯到1973年 G.Salton 先生Experiments in multilingual informa -tion retrieval 一文的发表。Salton 利用手工编制的 叙词表实现了受控语言的跨语言信息检索 [1] 。当 时的研究主要针对国际联机检索进行的,由于检索系统不普及,因而人们对网络信息的需求并不强烈。在上世纪90年代,随着网络信息资源的急剧增长以及各语种信息的丰富,又掀起了这方面研究的热潮。 跨语言信息检索(Cross-language Information Retrieval ,CLIR),是指用户以一种语言提问,检出 另一种或几种语言描述的信息资源的信息检索技术和方法[2]。跨语言信息检索中,用户用以表达自己的信息需求,构造检索提问式的语言称为源语言(Source Language ),被检索的信息资源所使用的语言称为目标语言(Target Language)。 为了使查询语言和文档集语言这两者之间相映射,于是采用转换的方式。一般采取用户提问转换(query translation)、文档数据转换(texttranslation)和利用中间语言(interlingual)方法。 无论采用何种方法,都包括基于机读词典的方法、基于机器翻译的方法和基于语料库(Corpus )资源的方法。 一、跨语言信息检索的分类 1.基于提问式翻译(Query Translation)的方法 提问式翻译是将查询提问中的源语言翻译成目标语言,然后再利用由目标语言构成的检索式去查找相关信息进行单语言检索。它简单易行,且实现难度较小,但要求检索系统本身应具有多语言的检索能力。 提问转换包括两个步骤:提问词的翻译转换和最终对应提问的确定。但查询语句不一定是完整的句子,往往是一些孤立的词,没有上下文提示信息,增加了精确翻译的难度;第二,由于查询语句的语言一般较短,所以译词选择不好往往对检索结果有很大的影响[3]。故而提问词的翻译需要有一定的词组,结合上下文语境,在系统提供的语义范围内,去掉有歧义的项,最终确定。 2.基于文献翻译(Ducument Translation)的方法 文档数据转换方法是主要试图利用机器翻译系统把需要检索的信息转换成与提问相同的语言,然后进行单语言检索。欧瑞德Oard D W [4]在 1998年利用这种方法进行的测试表明,相对于提问式翻译,文献翻译有更加宽泛的语境信息,可以 利用上下文消除翻译的歧义性,以期解决一词多义、一多词等问题,翻译的准确性较高。但这种方式的效率与语言本身有很大关系,所需的处理时间随文件不同而有极大的差异。目前为了解决这个问题,一般仅对文档数据中的部分重要内容,即文档片断或特征向量进行翻译,帮助用户进一步 宁德师范学院学报(哲学社会科学版)106

938科技信息检索

《科技信息检索》考试大纲 本考试大纲主要适用情报学专业的硕士研究生入学考试,包括情报检索基础知识、情报检索系统、搜索引擎、文献处理自动化、常用信息检索工具等内容。要求考试了解情报检索的基础知识,掌握常用信息检索方法与工具,并具有综合运用所学知识分析问题和解决问题的能力。 一、考试内容 (一)情报检索基础知识 情报检索的涵义、情报检索的基本原理、情报检索的研究范围与研究对象 (二)情报检索系统 (1)情报检索的主要数学模型及其特点与优缺点 (2)情报检索系统的类型与构成要素 (3)数据库建设与维护的主要流程; (4)文献数据库的主要类型及其功能 (5)非文献型数据库的主要类型及其功能 (6)情报检索系统的选择与评价的基本原则与思路 (三)搜索引擎 (1)搜索引擎的类型与工作原理 (2)当前常用搜索引擎及其主要特色与使用方法 (3)搜索引擎未来的发展趋势 (4)检索方法与检索流程 (5)用户信息需求的类型及其特点 (6)信息检索的数学模型 (7)信息检索中的常用技术及其应用;逻辑算符、截词符、位置算符等 (8)检索策略的主要组成要素 (四)联机检索与联机检索技术 (1)用户需求与表达

(2)检索策略及其类型 (3)检索式构造与调整 (4)联机检索与网络信息搜索的基本程序 (5)检索算符 (6)计算机辅助检索技术 (五)、文献处理自动化 (1)文献自动标引的概念与原理 (2)文献自动标引的类型 (3)文献聚类的原理、意义与方法 (六)情报检索技术 图像、音频、视频内容检索技术;自然语言检索技术、跨语言检索技术、智能检索与数据挖掘技术的发展等 (七)常用信息检索工具 (1)国内外重要的综合性检索系统及其使用方法;如,中国知网、维普资讯等 (2)国内外常用引文数据库的使用方法:如,WOS、CSCD等使用方法 (3)专业性信息检索工具及其使用方法 (4)图书馆学情报学专业数据库检索工具 (5)重要的专门类型文献信息检索工具及其使用方法;如,国内外主要的专利信息检索系统;国内外主要的学位论文检索系统及其使用方法(6)网络信息资源的选择与评价原则 (7)网络信息利用中的知识产权问题 二、考试要求 (一)情报检索基础知识 (1)掌握情报检索的涵义、情报检索的基本原理; (2)了解计算机情报检索发展历史; (3)了解计算机情报检索个时期的特点与关注的主要问题;

相关文档