文档库 最新最全的文档下载
当前位置:文档库 › DBIR--数据库上的关键词搜索--GR001-2004

DBIR--数据库上的关键词搜索--GR001-2004

DBIR--数据库上的关键词搜索--GR001-2004
DBIR--数据库上的关键词搜索--GR001-2004

1 引言

虽然数据库系统[1]和信息检索系统[2]都要解决查找数据的问题,但是它们解决问题的方式却很不相同。数据库系统处理的是结构化的数据,它采用复杂的结构化查询语言,查询结果是精确的完全的并且所有查询结果被一样对待。信息检索系统则处理文本文档这样的非结构化数据,采用关键词搜索这样的非结构化查询语言,查询结果不精确不完全而且需要根据相关性对查询结果排序。图1表示了这两类系统的差别。

关键词搜索 结构化查询语言

结构化数据 非结构化数据

图1. 数据库系统和信息检索系统

那么,如图1左上角阴影部分所示,能否在数

据库上进行关键词搜索呢?在数据库上进行关键词搜索有没有什么意义?前面一个问题的答案是肯定的,本文的主要内容就是综述与数据库上的关键词

搜索有关的研究工作。下面先对后一个问题做一个简单的讨论。

大多数用户在互联网上查找信息的时候都会使用搜索引擎。用户输入一些关键词,搜索引擎就能返回一个排序后的相关文档列表。显然,如果可能的话,用户也会乐意以同样的方式来查询数据库。因为用关键词搜索来查询数据库,用户既不需要学习像SQL 这样复杂的查询语言,也不需要事先了解数据库的模式,而只需要关心如何用关键词来表达自己的信息需要。

实际上,通过搜索引擎只能找到互联网上的一小部分数据。大量的数据则是被存储在数据库当中,只能通过特定的查询界面来查找。这些互联网

上搜索引擎搜索不到的数据构成了所谓的Hidden Web[5]。Lawrence 和Giles 在1998年时估计互联网上有80%的内容存储在Hidden Web 中[4]。Bergman

则在2001年的一项研究中发现存储在Hidden Web 中

信息是通过搜索引擎可以找到的信息的400到550倍并且还在不断增长[3]。造成数据库中的数据被隐藏的原因之一就是搜索引擎和数据库系统采用不同的数据查询语言。因此,如果数据库系统能支持关键词搜索,那么在互联网上发布数据库和在互联网上发现存储在数据库中大量信息的过程就会变得更为简单容易。

由于应用的需要,不同种类的信息管理系统的集成一直是一个研究热点[6]。现代的信息管理系统不仅要管理结构化的关系数据,还要管理半结构化的XML 数据和非结构化的文本数据。同时管理多种

摘 要 一直以来,搜索数据库中的数据使用的都是SQL 查询语言。不过这种语言并不适合于最终用户,因为它复杂而且难于学会。最终用户的需要是使用关键词来搜索数据库,就像他们在使用Web 搜索引擎时的做法。本文综述了与数据库上的关键词搜索有关的研究工作,并且对我们研究的SEEKER 系统做了一个简短的介绍。

关键词 关系数据库,关键词搜索,数据库发布,信息系统集成 中图法分类号 TP311

数据库上的关键词搜索

王 珊 张坤龙

(中国人民大学信息学院 北京100872)

类型数据时遇到的问题之一是查询不同种类的数据时要使用不同的查询语言:关系数据使用SQL;XML数据使用XQuery;文本数据使用关键词搜索。因此,在信息系统集成时,将关键词搜索作为一种统一的数据查询语言来查询不同种类的数据,是一个很有吸引力的方案。

本文接下来的内容组织如下:第二节介绍与数据库上的关键词搜索相关的研究工作;第三节概括数据库关键词搜索所涉及的研究内容;第四节分析数据库关键词搜索未来的研究趋势;最后第五节总结全文,并简单介绍了我们所做的研究工作。

2 相关工作

Hulgeri等[7]在2001年综述了当时与数据库上的关键词搜索有关的研究工作。几年过去了,与数据库上的关键词搜索有关的研究又取得了很多新的进展。本节先对几个新的原型系统做一个概括性的介绍,然后提出一种简单的分类方法以方便全面了解目前的研究现状。

2.1 BANKS

数据库可以使用图来表示,数据库图包括模式图和数据图。BANKS系统[7][10]在进行关键词搜索时使用的是有向数据图。在BANKS系统的数据图中,结点表示元组,边表示元组间的联系。例如,如果两个元组间存在一个主码-外码联系,那么在它们对应的两个结点之间就存在两条有向边:外码→主码和主码→外码。

图2. DBLP文献数据库

图2(A)给出了DBLP文献数据库的模式图。在这个模式图中,结点表示关系,边表示关系间的外码→主码联系。图2(B)给出了DBLP文献数据库数据图的一个片断,这个片断表示的逻辑含义是作者Soumen Chakrabarti、Sunita Sarawagi和Byron Dom 合作写了一篇论文。注意在图2(B)中没有画出每条边对应的反向边。

通常一个查询由n≥1个检索词组成,可以表示为t1,t2,…,t n。对于检索词t i,可以找到与之相关的结点集合S i。例如,如果一个元组的属性值包含检索词t i,那么这个元组对应的结点就与t i相关。又如,如果一个关系的关系名包含检索词t i,那么这个关系的所有元组对应的结点都与t i相关。这样,与查询t1,t2,…,t n的相关的结点集合就是S1,S2,…,S n。BANKS系统将查询t1,t2,…,t n的一个答案定义为一棵连结树(connection tree),该树是一棵包含每个S i中至少一个结点的有向树,它的根结点被称为信息结点。

BANKS系统采用一个称为反向扩展搜索的启发式算法来寻找信息结点,这个算法可以以图2(B)为例来简单说明。假设要搜索的关键词是Soumen、Sunita 和Byron,它们在图2(B)中对应的结点是三个叶子结点。如果从每个叶子结点出发用Dijkstra单源最短路径算法遍历数据图,那么它们最终都会访问图2(B)中的根结点。因此,图2(B)中的树是一棵答案树,根结点就是要找的信息结点,它表示由三个作者合写的一篇论文。

在BANKS系统中,每棵答案树被赋予一个分数,得分越高的答案树,在显示查询结果时就越靠前。计算一棵答案树T的分数Score(T)的公式是Score(T) = (1-λ)E score+λN score。其中E score是边的总分,N score是结点的总分,λ是一个常数。

边的总分E score定义为E score=1/(1+Σe E score(e)),其中E score(e)是边e的标准分。边e的标准分E score(e)被定义为E score(e)=W(e)/W min,其中W(e)是边e的权值(权值越小,边的两个结点联系越密切),W min是数据图中最小的边权值。由这些定义可以知到,如果只考虑边的总分并且边的权值是个常数,答案树的边数越少,其得分就越高。

结点的总分是答案树中所有结点的标准分的平均值。为了强调关键词和信息结点的重要性,结点的总分也可以定义为答案树的信息结点和所有叶结点的标准分的平均值。结点v的标准分N score(v)被定义为N score(v)=N(v)/N max,其中N(v)是结点v的权值(权值越大,结点就越重要),N max是数据图中最大的结点权值。在BANKS系统中,结点的权值被设置为结点的入

(B) A Fragment of the Database

度。这样,如果一篇论文被引用的次数越多,它的权值就越大。

在BANKS 系统中,关键词搜索的最后步骤是显示查询结果。BANKS 系统使用嵌套表格的方式显示答案树。例如图2(B)的答案树将显示为三层嵌套表格:三

个分别表示中间结点的表格顺序嵌套在表示根结点的表格之中,而且每个表示中间结点的表格内嵌套有一个表示叶子结点的表格。BANKS 系统除了支持数据库上的关键词搜索,它还提供丰富的界面来支持对数据库的浏览。

2.2 DBXplorer

和BANKS 系统不同,DBXplorer 系统[12] 在进行

关键词搜索时不是使用有向数据图,而是使用无向模式图。DBXplorer 系统将一个查询结果定义为多个元组的一个连接,由这个连接生成的结果元组包含所有的检索词。

在DBXplorer 中关键词搜索由三个步骤组成:1)搜索符号表,找到包含检索词的表、列或者行。符号表的作用相当于一个倒排表,是在进行关键词搜索之前通过预处理数据库生成的;2)根据模式图计算连接树。一棵连接树(join tree)是从模式图生成的一棵子树,它必须同时满足两个条件:a) 任何一个叶子结点对应的表至少匹配一个检索词;b) 任何一个检索词,都会被一个叶子结点对应的表匹配。这样,如果将连接树中所有的表连接起来,连接结果就会包含所有可能的查询结果。3)对于每一棵计算出的连接树,构造一条对应的SQL 语句,该语句连接连接树中的所有表并选择出连接结果中包含所有检索词的行。

图3. 连接树

根据模式图计算连接树的主要过程是:首先将

模式图G 中不包含检索词的叶子结点剪去得到模式图G’;然后使用启发式方法从模式图G’中选择一个叶子结点;最后从这个选中的叶子结点开始基于宽

度优先算法遍历模式图G’,并在遍历的过程中生成连接树。图3右侧表示了根据模式图G 计算得到的四棵连接树。这里的模式图G 包含5个表,要查找的关键词是K 1,K 2,K 3。图3中黑色结点表示包含关键词的表,即表T 2中包含全部关键词,表T 4中包含关键词K 2,表T 5中包含关键词K 3。

DBXplorer 系统对关键词搜索的结果计分的方法很简单,一个查询结果的分数与生成查询结果时所用的连接的个数有关。由于连接个数越多,结果越难理解,因此连接个数越多,查询结果得分越低。这相当于连接树包含的边数越少,对应的查询结果得分就越高。

DBXplorer 系统在显示查询结果时,能以文字形式显示与连接树有关的信息和以表格的形式显示连接后生成的结果元组。

2.3 DISCOVER

DISCOVER 系统[13][14]可以看作是对DBXplorer 系统的改进,下面讨论的是DISCOVER 系统与DBXplorer 系统相比较时的一些新特点。

DISCOVER 系统能正确处理第2.1节中在DBLP 文献数据库上用关键词Soumen ,Sunita ,Byron 进行搜索的例子,而DBXplorer 系统不能。这是因为DISCOVER 系统计算查询结果的算法相当于DBXplorer 系统中对应算法的一个改进。DISCOVER 系统根据元组集图来计算候选网,这个算法虽然也是基于宽度优先遍历算法 ,但是它不事先作元组集图的裁剪。这里提到的候选网(candidate network)的概念对应于DBXplorer 系统中连接树的概念,而元组集图(tuple set graph)与模式图的最大区别在于它在模式图的基础上加入了与查询有关的元组集。图4是DISCOVER 系统在处理上述关键词搜索时使用的元组集图,注意边的方向是从主码到外码,而且为了简单起见,图2中的Cites 关系被忽略了。

图4. 元组集图

T 5

5

2 3

Schema graph G

BANKS 系统和DBXlorer 系统只能支持AND 语义的关键词搜索,即查询结果中要包含所有的检索词。DISCOVER 系统则不仅支持AND 语义的关键词搜索,而且还支持OR 语义的关键词搜索。

现代的数据库系统基本上都具有全文搜索功能,如Oracle 数据库系统[20],IBM DB2数据系统[22]和Microsoft SQL Server 数据库系统[21]都支持用户在关系的单个文本属性上建立全文索引然后在该属性上进行关键词查询。DISCOVER 系统充分利用了数据库系统的全文搜索功能,它不仅使用数据库系统来找到包含检索词的关系和元组,而且还直接使用数据库系统计算出的返回结果分数来给最终查询结果的计分。DISCOVER 系统改进后的计分公式是:

)

()

,(),(T size Q a Score Q T Score A

a i i ∑∈=

其中Q 表示查询,T 是一个查询结果,A 是T 中所有的文本属性值的集合,),(Q a Score i 是由数据库系统返回的属性值i a 的分数,)(T size 是生成查询结果T 的查询包含的连接个数。

关键词搜索常常以top-k 查询的形式出现。所谓top-k 查询,就是查询返回结果时只需要返回所有结果中与查询最相关的前k 个结果。DISCOVER 系统能够有效地执行top-k 查询,它的算法能够避免生成所有的查询结果。

2.4 ObjectRank

ObjectRank 系统[16]和前面介绍的几个系统有很大的不同。首先它将一个查询结果定义为数据图中的一个结点。其次,它使用Google 搜索引擎的核心算法即PageRank 算法[17]来为查询结果计分。之所以ObjectRank 系统能够采用PageRank 算法,是因为数据库和Web 都可以用图来表示。在表示Web 的Web 图中,结点表示网页,边表示网页间的链接。

PageRank 算法是一种链接分析算法,它基于结点间链接的语义来决定结点的重要性。例如,一篇论文的重要性不是取决于它引用的论文,而是取决于引用它的论文。我们可以将结点想象成一个水库,结点的重要性就是水库的储水量,而结点间的链接是这些水库间的通道,结点间链接的语义决定水如何从一个水库向另一个水库流动。每个水库有一个初始的储水量,在水流动一段时间以后,整个

系统最终将达到一个稳定一致的状态。PageRank 算法的目标就是计算出在这个最终状态下每个结点的重要性。

在PageRank 算法中,计算初始时重要性不高的结点在计算结束时其重要性可能会很高。由于PageRank 算法的这个特点,ObjectRank 系统找到的与关键词最相关的结点可能根本就不包含这个关键词。

Google 搜索引擎采用PageRank 算法计算出来的结点重要性是全局的,与查询时所用的关键字无关。ObjectRank 系统与之不同。对于一个结点,它除了要用PageRank 算法计算出其全局重要性之外,还要用PageRank 算法计算出其和关键词的相关性,即ObjectRank 系统为每个结点和关键词的组合计算一个分数:

r w,G (v )= r w (v )( r G (v ))g

其中w 是关键词,v 是结点,r w (v )是由关键词决定的相关性,r G (v )是与关键词无关的全局重要性,g 是一个用户定义的常数。在ObjectRank 系统中,所有结点和关键词组合的分数由预处理模块事先计算好并存储在分数索引文件中。分数计算的计算量很大,文献[16]中给出了一些计算优化方法。

对于用户提交的查询,ObjectRank 系统的查询处理模块将根据分数索引计算出查询结果中一个结点的最终得分。例如,对于AND 语义的关键词搜索w 1,w 2,…,w m ,结点v 由这些关键词决定的分数是:

∏=…=

m

i w AND v r

r i

,...,1w ,,w ,w )(m

21

像DISCOVER 系统一样,ObjectRank 系统不仅支持AND 语义的关键词搜索,而且还支持OR 语义的关键词搜索。另外,ObjectRank 系统也支持top-k 查询。

2.5 相关工作分类

与数据库上的关键词搜索相关的研究工作目前已经不少了,所有这些研究工作的共同特点是用户无需知道数据库的模式,也无需学习SQL 语言。我们根据一个查询结果中包含的数据图结点个数以及查询算法是否需要遍历数据图对这些研究工作做了一个分类,如图5所示。

在图5中,如果查询的结果包含多个数据图结点,那么这些结点就应该以合适的方式被连结在一起,以便用户能够理解它们代表的逻辑含义。

DataSpot系统和BANKS系统使用信息结点来揭示一个查询结果的含义。DBXplorer系统和DISCOVER 系统则将一个查询结果定义为这些连结在一起的结点的连接。DbSufer系统和它们不同,它找到的是一条包含所有检索词的浏览路径,即从第一个包含检索词的结点出发沿着结点间的链接漫游到最后一个包含检索词的结点时留下的踪迹。

查询时需要遍历数据图DataSpot[8],

Proximity Search[9],

BANKS[7][10],

DbSurfer[15]

ObjectRank[16]

查询时不需要遍历数据图Mragyati[11],

DBXplorer[12],

DISCOVER[13][14]

数据库全文检索

[20][21][22],

SISQL[18][19]

一个查询结果对应

多个数据图结点

一个查询结果对应

一个数据图结点图5. 相关研究工作的分类

图5中查询时不遍历数据图的算法都需要使用数据库的模式信息,并且都需要生成相应的SQL语句交给数据库执行以便获取中间的或者最后的查询结果。需要注意的是,数据库全文检索系统和SISQL要求所有的检索词都必须出现在同一个元组之中。

3 研究内容

本节分五个方面讨论数据库关键词搜索系统遇到的问题和已经取得的成果。

3.1 系统的体系结构

大部分的数据库关键词搜索系统都包括两个组成部分:预处理模块和查询处理模块。

预处理模块负责在执行第一个用户查询前预先对数据库进行处理,以便生成查询处理模块需要的各种信息,加快系统处理用户查询的速度。预处理模块生成的结果可以存储在内存中,也可以存储在磁盘上。例如,在BANKS系统中,预处理模块将数据库转变为数据图存储在内存中,而在DBXplorer 系统中,对数据库进行预处理的结果是存储在磁盘上的符号表。不同数据库关键词搜索系统的预处理模块复杂程度不同。例如,在DISCOVER系统中,由于可以利用数据库系统的全文搜索功能,预处理模块几乎可以去掉,而在ObjectRank系统中,绝大部分的计算是由预处理模块完成的。

查询处理模块负责处理用户查询。用户查询的处理可以分成三个阶段。首先,系统对用户提交的关键词搜索请求进行分析,确定需要查找的关键词以及关键词搜索是AND语义还是OR语义。

其次,系统根据搜索条件进行计算以生成查询结果。不同的系统在这个阶段上的工作内容有很大的不同。例如,在ObjectRank系统中,这个阶段的主要工作包括计算结点由查询中关键词决定的分数和查询数据库获得查询结果,而在DISCOVER系统中,这个阶段包括生成元组集图、根据元组集图计算出所有的候选网和生成top-k查询结果。

最后,系统以适当的方式将查询结果呈现给用户。第3.5节更多地讨论了查询结果的呈现。

本文的第五节介绍了我们研究的SEEKER系统的体系结构。SEEKER系统的预处理模块利没有在图中画出,它负责建立一个数据库全文索引。SEEKER系统的查询处理模块则可以进一步被划分为5个小模块,如图7中所示。

3.2 数据模型、查询和查询结果的定义

数据模型是指关键词搜索系统如何看待数据库。大部分关键词搜索系统都用图来表示数据库。数据库图可以是有向的也可以是无向的,它包括模式图和数据图。例如,BANKS系统通过遍历有向的数据图来搜索信息结点,而DBXplorer系统则利用无向的模式图来生成所有的连接树。在所有系统的数据库图中,都是用结点表示关系/元组,用边表示关系/元组间的外码-主码联系。

虽然存储有大量数据的数据库对应的数据图会占用大量的存储空间,但是用图来表示数据库还是有一些不能忽视的优点。Web和XML文档也可以用图来表示。在Web图中,结点表示网页,边表示网页间的链接。Web图和数据图库图的这种相似性,启发我们借鉴搜索引擎的算法来实现关键词检索。ObjectRank就是这种思路成功的例子。XML文档和数据库都能用图来表示,意味着可以将数据库和XML文档上关键词搜索以统一的方式来处理。实际情况也的确是如此,BANKS系统和DISCOVER系统都可以用于XML文档的关键词搜索。

查询的定义是指用户如何表达他们的信息要求。它涉及两个方面的问题。一个是关键词搜索包括很多形式,例如单个关键词匹配、短语匹配、邻近查询、布尔查询和模式匹配,系统要决定自己能支持哪些形式。目前已有的系统都支持具有AND语义的关键词精确匹配搜索,DISCOVER系统和ObjectRank系统则还可以支持OR语义的关键词搜索。另外需要注意的是,语言也会带来特殊的问题。例如,在英语当中从一个单词可以派生出一组单词,而在汉语当中文本分词是个很不好解决的问题。

另一个问题是搜索范围的确定。目前的系统默认的搜索范围都是数据库中的元组文本属性。虽然大部分系统都声称自己很容易将搜索范围扩展到元数据,但是将搜索范围扩展到元数据会给一些系统带来很大的问题。例如BANKS系统中,一个关键词匹配上一个表名就意味着整个表对应的所有结点都被匹配上,而且BANKS系统要为每个匹配上的结点启动一个搜索线程。显然如果这个表非常大,那么产生的线程就会非常多。

除了将搜索范围扩大到元数据,还可以考虑将搜索范围扩大到元组的非文本属性,例如数值属性和时间属性。在数值属性和时间属性上搜索是很有意义的,例如用户想查询某个作者在1992年发表的论文。文献[23]讨论了在不知道模式信息时如何根据数值进行搜索的方法,是研究这个问题的一个很好的起点。

有的时候,允许用户在查询中给出模式信息是很有用的,例如以year:1992的形式说明要匹配的元组的year属性值必须是1992,虽然这种形式违反了关键词搜索不要求用户知道数据库模式的指导精神。这种形式的用户查询很容易扩展为非数值属性的表达式查询,例如year:>1992。不过这种扩展会碰到一个很复杂的问题,那就是支不支持带有集函数的表达式呢?例如想查找DBLP文献数据库中发表论文数在10篇以上的作者。

查询结果的定义是指一个查询结果的构成。本文在第2.5节已经提出,查询结果可以是来自数据库的单个元组,也可以来自数据库的多个元组,在查询结果由多个元组构成时,这多个元组是以一定的方式联系在一起的,具有特定的逻辑含义。例如,在ObjectRank系统中,查询结果被定义为单个元组,这个元组与查询相关但是不需要至少包含查询中的一个关键词。而在DBXplorer系统中,查询结果被定义为来自多个关系的元组的连接并且连接结果包含所有查询中的关键词。查询结果的定义影响系统的体系结构,对于不同定义的查询结果计分方法也不尽相同。

3.3查询结果的排序

和数据库系统不一样,在信息检索系统中,查询结果的排序处于核心的不可或缺的地位,而在数据库系统中,查询结果的排序只不过是可选的因素。

每个查询结果都被赋予一个分数,以反映它和查询的相关性,通常是分数越高,结果与查询就越相关。所谓查询结果的排序,也就是将所有的查询结果按照它们的分数从高到低排序。显然,在查询结果的排序中起决定作用的是给一个查询结果计分的方法。

现有的系统一共考虑了三个计分因素。第一个因素是单个元组/属性的IR分数,即根据该元组/属性包含关键词的情况计算得到的分数。例如,在DISCOVER系统中,每个属性的IR分数由底层的数据库全文搜索系统提供。而在我们研究的SEEKER 系统中,则使用底层的数据库全文搜索系统来为每个元组计算它的IR分数。

第二个计分因素是结果树的结构或者语义。结果树是指关键词搜索的结果是一棵由多个结点组成的树,例如BANKS系统中的连结树、DBXplorer系统中的连接树和DISCOVER系统中的候选网。可以选择结果树的大小,即结果树中包含的结点个数或者边数作为结果树的分数。BANKS系统、DBXplorer系统和DISCOVER系统在计分时都采用了这个方法。另外,还可以根据结果树的语义来计分。例如,在DBLP文献数据库中,如果要查找论文的作者,就可以给Author-Wirtes-Paper结果树比Paper-Cites-Paper结果树更高的分数,尽管它们的大小是一样的。

第三个计分因素是链接的语义。这时结点的分数由它和其他结点间的链接决定。ObjectRank系统就是采用这种方法的典型代表。另外,文献[30]提出了一些新的链接分析算法,这些算法也可以应用到数据库关键词搜索系统当中。

在现有的数据库关键词搜索系统中,查询结果的定义不同,它们采用的计分方法也就不同。对于查询结果包含多个元组的系统,一般考虑根据结点的IR分数和结果树的分数计分。例如,DISCOVER 系统在计分时同时考虑了属性的IR分数和结果树的分数。对于查询结果只包含单个元组的系统,则不需要考虑结果树的计分。例如,ObjectRank系统在计分时只考虑链接的语义。

这三个计分因素是否合适?还需不需要考虑新的计分因素?这取决于应用这三个计分因素的实际效果。我们认为,从概念上来看,它们都是必需的。需要注意的是这三个计分因素并不冲突,但是目前还并不清楚如何有效地将链接的语义和其他计分因素结合起来。BANKS系统作了一个尝试,它的计分方法除了考虑了结果树的分数,还试图考虑链接的语义,例如结点的分数是它的入度。

3.4 有效的查询算法

在查询处理时,虽然不同的系统使用不同的算法来生成查询结果,但是它们又有同样的问题需要面对,这个问题就是top-k查询。实现top-k查询最简单的方法是在计算出所有的查询结果之后再保留分数最高的k个即可。但是这种方法效率显然不高,更有效一些的算法应该能避免计算出所有的查询结果。

在DISCOVER系统中,top-k查询最终是一个top-k连接查询[24]。DISCOVER系统提出了一些算法来有效地实现这种top-k连接查询,文献[14]中给出了算法的具体细节。

与top-k连接查询相关的是top-k选择查询[25]。在我们研究的SEEKER系统中,由于需要支持数值属性上的范围查询,top-k选择查询的有效执行成了一个必须面对的问题。

3.5查询结果的呈现

查询完成以后,就要将查询结果呈现给用户阅读。查询结果的呈现并不是一个简单的问题。原因在于这样几个方面:第一,查询结果的逻辑含义是什么?由于关系数据库的规范化,原本完整的信息可能被割裂。这时,不仅单个元组表达的信息不完整,而且多个元组的连接结果的逻辑含义也不容易迅速被理解。

图6. 作者A1写的论文引用了作者A2的论文

第二,会出现大量类似的结果,这是由于查询结果中存在多值依赖的缘故。例如,图6表示在DBLP文献数据库中,作者A1写的论文引用了作者A2写的论文。如果用关键词A1,A2来搜索DBLP文献数据库,那么这种类型的结果就一共会有6个,并且它们的分数完全一样。太多类似结果出现在一起会使用户感到厌烦,而且降低了系统的性能。

第三,信息检索通常是一个反复尝试的过程。用户在进行第一次搜索以后,可以表达出他对哪些结果满意和对哪些结果不满意,随后系统就应该能根据用户的这些反馈生成更符合用户信息要求的查询结果。数据库上的关键词检索系统需要考虑如何呈现查询结果以便获得用户的反馈。

第四,用户有浏览数据库的要求。在呈现查询结果时,应该能支持用户以一个查询结果为起点开始浏览数据库。

在现有的系统中,BANKS以嵌套表格的方式显示查询结果,并且对用户浏览数据库有较强的支持。DBXplorer系统能够告诉用户查询结果是如何生成的,并以表格的形式显示连接操作生成的最终结果。DbSurfer系统使用类似Windows Explorer程序中文件夹浏览树的形式显示找到的踪迹。DISCOVER系统对结果的呈现所做的研究比较多,它提出了“信息单元”的概念和使用表示图来解决前面提到的第二个问题[28]。文献[2]的第10章和文献 [29]讨论了与信息检索和数据库查询结果呈现有关的问题。

4 研究趋势

已有的数据库关键词搜索系统还不是尽善尽美的。本文第三节已经概括了一些现有系统还没有解

决的问题,例如,所有的系统对都缺乏对相关性反馈这种在信息检索系统中常用的技术的支持。未来的研究工作除了要解决这些还没有解决好的问题之外,还要更关心系统的性能问题。如果性能不好,数据库关键词搜索系统就难以实际使用。当前已有的系统都是建立在模式非常简单、数据量比较少的数据库的基础上,它们处理模式比较复杂、数据量也非常大的数据库的能力还不能令人乐观。

评价数据库关键词检索系统性能的主要因素包括系统的时间和空间复杂度、信息的查全率和查准率。信息检索领域早就已经建立了多个参考文档集来评价各种信息检索系统的性能,例如TREC文档集[31]。近年来发展很快的XML文档检索也迅速建立了用于XML文档检索系统性能评价的参考XML 文档集[32]。为了进一步推动对数据库关键词搜索系统的研究工作,也有必要仿照信息检索和XML文档检索领域的做法建立用于数据库关键词搜索系统的参考数据库集。

本文第一节已经指出,当前互联网上绝大部分的信息存储在Hidden Web之中,搜索引擎无法对这些信息进行搜索。数据库关键词搜索技术为解决这种由Hidden Web带来的问题提供了一个很好的起点,因为它使数据库系统和搜索引擎支持相同的用户接口。但是问题并没有完全解决,因为搜索引擎并不知道自己应该用哪些关键词来搜索数据库。一个非常简单的方法就是搜索所有字典中的单词,但这种做法没有针对性,会造成计算能力的极大浪费。因此,需要寻找更有效的方法使得搜索引擎能够通过关键词搜索界面搜索到数据库里的所有信息。另外一个简单的方法是让搜索引擎起到元搜索引擎的作用,即它将搜索请求发送给各个数据库关键词搜索系统执行,然后集成所有数据库关键词搜索系统的返回结果。这种方法只适合于集成数量较少的数据库的查询结果。当在互联网上发布的数据库的数量很大的时候,这种方法的响应速度就将难以令人满意。

支持关键词搜索的XML文档检索系统近来发展很快[26][31][27][28][33][34],这为数据库关键词检索系统、文本文档信息检索系统和XML文档检索系统的集成提供了很好的基础。虽然集成这三种当前还区别较大的系统有多种方式,但是毫无疑问集成以后的用户界面将统一为关键词搜索。注意到文本文档和XML文档都能用数据库来存储,我们认为未来的数据库关键词检索系统更多地将是一个用关键词搜索作为统一的用户界面的集成系统。

5 结论

本文综述了数据库关键词搜索技术的研究现状,研究内容和研究趋势。对于用户而言,关键词搜索技术很容易学习。对于数据库的发布者而言,数据库关键词搜索技术可以推动Hidden Web问题的解决。同时,关键词搜索也可以用来实现信息集成。在这些因素推动之下,研究人员已经开发出了一些数据库关键词搜索系统原型,本文介绍了其中的几个典型代表并提出了一种对这些原型系统分类的方法。本文将数据库关键词搜索系统的研究内容划分为五个方面,即系统采用什么样的体系结构、如何对数据库建模和如何定义查询以及查询结果、查询结果的排序标准、有效的查询算法执行和查询结果的呈现方法。本文还概括了数据库关键词搜索系统需要解决的问题和发展趋势。

我们并未停留在对数据库关键词搜索技术的理论探讨之上。目前,我们已经构建了一个命名为SEEKER的数据库关键词搜索系统。该系统的体系结构如图7所示。

图7. SEEKER系统的体系结构

SEEKER系统的数据源是中国人民大学的经济学和法学案例库,它运行在网格平台上,以网格服务的形式来支持在经济学和法学案例库上的关键词搜索。

SEEKER系统当前已经取得的主要成果包括:1)提出了高效的查询算法来计算查询结果和实现top-k查询;2)对查询结果的计分采用了更合理的计分公式;3 )扩展了查询的范围,不仅包括元数据,而且还包括数据库中的数值属性。SEEK系统的实际构建也使我们发现了不少有待解决的新问题,本文的第3节就介绍了我们在SEEKER系统的研制过程中遇到的一些问题。

参考文献

[1]萨师煊,王珊. 数据库系统概论(第三版). 高等教育出版社,

2000.

[2]R. Baeza-Yates and B. Ribeiro-Neto. Modern Information

Retrieval. ACM Press, 1999.

[3]M. K. Bergman. The Deep Web: Surfacing Hidden Value.

White paper, Bright Planet, 2000.

[4]S. Lawrence and C. L. Giles. Searching the World Wide

Web. Science, 280(5360):98-100, 1998

[5] D. Florescu, A. Y. Levy, and A. O. Mendelzon. Database

Techniques for World Wide Web: A Survey. SIGMOD re-

cord, 27(3):59-74, 1998.

[6]S. Raghavan, H. Garcia-Molina. Integrating Diverse Infor-

mation Management Systems: A Brief Survey. IEEE Data Engineering Bulletin, 24(4):44-52, 2001

[7] A. Hulgeri, G. Bhalotia, C. Nakhe, S. Chakrabarti, and S.

Sudarshan. Keyword Search in Databases. IEEE Data Engi-

neering Bulletin, vol. 24, pp. 22-32, 2001.

[8]S. Dar, G. Entin, S. Geva, and E. Palmon. DTL's DataSpot:

Database Exploration Using Plain Language. In Proceedings of the 24th International Conference on Very Large Data-

bases, 1998.

[9]R. Goldman, N. Shivajumar, S. Venkatasubramanian, and H.

Garcia-Molina. Proximity Search in Databases. In Proceed-

ings of the 24th International Conference on Very Large Databases, 1998.

[10]G. Bhalotia, A. Hulgeri, C. Nakhe, S. Chakrabarti, and S.

Sudarshan. Keyword Searching and Browsing in Databases using BANKS. In Proceedings of 18th International Confer-

ence on Data Engineering, 2002.

[11]N. L. Sarda and A. Jain. Mragyati: A System for Keyword-

Based Searching in Databases. Report No. cs.DB/011052 on CORR, 2001.

[12]S. Agrawal, S. Chaudhuri, and G. Das. DBXplorer: A Sys-

tem For Keyword-Based Search Over Relational Databases.

In Proceedings of 18th International Conference on Data Engineering, 2002.

[13]V. Hristidis and Y. Papakonstantinou. DISCOVER: Key-

word Search in Relational Databases. In Proceedings of the 28th International Conference on Very Large Data Bases, 2002.

[14]V. Hristidis, L. Gravano, and Y. Papakonstantinou. Efficient

IR-Style Keyword Search over Relational Databases. In Proceedings of the 29th International Conference on Very Large Data Bases, 2003. [15]R. Wheeldon, M. Levene, and K. Keenoy. DbSurfer: A

Search and Navigation Took for Relational Databases. In Proceedings of the 21st Annual British National Conference on Databases, 2004.

[16] A. Balmin, V. Hristidis, and Y. Papakonstantinou. Objec-

tRank: Authority-Based Keyword Search in Databases. In Proceedings of the 30th International Conference on Very Large Data Bases, 2004.

[17]S. Brin and L. Page. The Anatomy of a Large-Scale Hyper-

textual Web Search Engine. In Proceedings of the 7th Inter-

national World Wide Web Conference, 1998.

[18]U. Masermann and G. Vossen. Schema Independent Data-

base Querying (on and off the Web). In Proceedings of the 4th IDEAS, 2000.

[19]U. Masermann and G. Vossen. Design and Implementation

of a Novel Approach to Keyword Searching in Relational Databases. ADBIS-DASFAA Symposium, 2000.

[20]P. Dixon. Basics of Oracle Text Retrieval. IEEE Data Engi-

neering Bulletin, 24(4):11-14, 2001

[21]J. Hamilton and T. Nayak. Microsoft SQL Server Full-text

Search. IEEE Data Engineering Bulletin, 24(4):7-10, 2001 [22] A. Maier and D.Simmen. DB2 Optimization in Support of

Full Text Search. IEEE Data Engineering Bulletin, 24(4):3-

6, 2001

[23]R. Agrawal and R. Srikant. Searching with Numbers. In

Proceedings of the 11th International World Wide Web Conference, 2002.

[24]I. Ilyas, W. Aref, and A. Elmagarmid. Supporting Top-k

Join Queries in Relational Databases. In Proceedings of the 29th International Conference on Very Large Data Bases, 2003.

[25] C. Dwork, R. Kumar, M. Naor, and D. Sivakumar. Rank

Aggregation Methods for the Web. In Proceedings of the 10th International World Wide Web Conference, 2001. [26] D. Florescu, D. Kossmann, and I. Manolescu. Integrating

Keyword Search into XML Query Processing. In Proceed-

ings of the 9th International World Wide Web Conference, 2000.

[27]L. Guo, F. Shao, C. Botev, and J. Shanmugasundaram.

XRANK: Ranked Keyword Search over XML Documents.

In Proceedings of the ACM SIGMOD International Confer-

ence on Management of Data, 2003.

[28]V. Hristidis, Y. Papakonstantinou, and A. Balmin. Keyword

Proximity Search on XML Graphs. In Proceedings of 19th International Conference on Data Engineering, 2003. [29]K. D. Munroe and Y. Papakonstantinou. BBQ: A Visual

Interface for Integrated Browsing and Query of XML. In Proceedings of 18th International Conference on Data Engi-

neering, 2002.

[30] F. Geerts, H. Mannila, and E. Terzi. Relational Link-based

Ranking. In Proceedings of the 30th International Confer-

ence on Very Large Data Bases, 2004.

[31] E. M. Voorhees and D. K. Harman. Overview of the 6th

Text REtrieval Conference (TREC-6). In Proceedings of the 6th Text REtrieval Conference, 1997.

[32]N. G?vert and G. Kazai. Overview of the INitiative for the

Evaluation of XML Retrieval (INEX 2002). In Proceedings of the First INEX Workshop, 2002.

[33]S. Cohen et al. XSearch: A Semantic Search Engine for

XML. In Proceedings of the 29th International Conference on Very Large Data Bases, 2003.

[34]Y. Li, C. Yu, and H. V. Jagadish. Schema-Free XQuery. In

Proceedings of the 30th International Conference on Very Large Data Bases, 2004.

Authors

Wang Shan, born in 1944, professor and Ph.D. su-pervisor, her research interests include database and knowledge system, data warehouse technology.

Zhang Kun-Long, born in 1971, Ph.D. candidate, his research interests include distributed data management technology.

Background

The keyword-based search paradigm has been popular-ized by web search engines. It is important to provide a similar search paradigm for databases, where end-users can search the data in databases without knowing the database schema and database query language such as SQL.

Today, there are many valuable databases on the web have “hidden” contents that are not able to be crawled by search engines because the query interfaces used by these two systems is very different. Keyword search in databases promised a solution to this problem.

Also, keyword search technology can be used for the in-tegration of database systems, information retrieval systems and XML systems.

This paper presents a survey of work on keyword search in databases. It also includes a brief introduction of the SEEKER system which we have developed.

Keyword Search in Databases

Wang Shan Zhang Kun-Long

(School of Information, Renmin University of China, Beijing, 100872)

Abstract. Traditionally, SQL query language is used to search the data in databases. However, it is inappropriate for end-users, since it is complex and hard to learn. It is the need of end-users that searching in databases with keywords, like in web search engines. This paper presents a survey of work on keyword search in databases. It also includes a brief introduction of the SEEKER system which we have developed.

Keywords Relational Databases, Keyword Search, Database Publishing, Information System Integration

关键词的使用在搜索引擎中的技巧

搜索技巧,最基本同时也是最有效的,就是选择合适的查询词。选择查询词是一种经验积累,在一定程度上也有章可循: 一、.表述准确百度会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。 一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。 例如,要查找2008年国内十大新闻,查询词可以是“2008年国内十大新闻”;但如果把查询词换成“2008年国内十大事件”,搜索结果就没有能满足需求的了。 另一类典型的表述不准确,是查询词中包含错别字。 例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。 不过好在,百度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。 二、查询词的主题关联与简练目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。 这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。 绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。 因此,最好的查询词,应该是“时间名言”。 试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词: 所得税会计处理问题探讨 周星驰个人档案和所拍的电影 三、根据网页特征选择查询词很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,

关键词与搜索词的区别在哪里

SEM营销即搜索引擎营销,它是基于搜索引擎而触发的关键词竞价排名营销模式。竞价是SEM主要的一个环节,而关键词的选取却是竞价极关键的一环。 关键词的选取就是对于企业或品牌的产品或服务深度挖掘,精准描述,通过竞价账户进行设置。根据目标用户通过搜索引擎进行搜索匹配,一旦匹配精准,企业或品牌的关键词就会在搜索结果页中展现,提供给目标用户进行浏览,选择和购买的流程。 这里就涉及到关键词和搜索词之间的逻辑关系。那么关键词与搜索词的区别在哪里? 关键词的设置就是品牌的产品或服务的描述,是代表品牌自己的信息呈现;搜索词是体现目标用户搜索习惯及需求,是代表用户需求的信息。 当品牌通过SEM所选取的关键词不能深度了解目标用户需求的搜索词时,就会存在营销偏差,以致造成了品牌的关键词与目标用户的搜索词之间的匹配错位,那么SEM的整体营销效果就会大打折扣,就会出现有展现无点击,有点击无转化的尴尬局面。 如果品牌所选取的关键词只是代表自己的意愿,不能代表目标用户的需求,就会出现一种营销,两处闲愁的局面。品牌主觉得自己的关键词选择已经能够详细描述产品或服务的信息,结果目标用户的需求与自己选取的关键词不能互相匹配,当然营销效果就会出现这样的局面。由于SEM主要是针对关键词研究而开展的营销模式,当然就不能忽略目标用户的需

求,应该深度了解目标用户的需求,通过分析目标用户的真实需求来选择关键词,做到所选取的关键词与目标用户的搜索词互相匹配的原则。 关键词在SEM营销模式上有三种用户搜索目的:浏览,选择和购买。基于这三种不同目的来选取关键词,通过用户搜索目的的不同,进行竞价排名优化。不同的搜索目的排名的方式不同,导致竞价后台的匹配模式也就不同。只有这样,才是站在用户的角度来进行竞价账户搭建,通过不同搜索目的采取不同的出价,排名,匹配来达到SEM整体效果。 一种营销,两处闲愁,是对于SEM关键词与搜索词较好的阐释。也是在证明营销要真正实现一切以消费者为中心的理念,是需要经过前期仔细的市场调查和分析,发现消费者的真实需求,找到需求痛点,为消费者提供有效的解决方案。要知道在当下互联网大环境下,消费者变得越来越易变性。传统营销对于消费者需求研究的模糊性千万不要在网络营销上出现同样的错误了。 汇桔网精选全国各地的营销推广公司,通过互联网省钱更赚钱,上汇桔网查看当地最优质的最专业的营销推广外包公司,给您的企业一站式网络推广外包营销服务!

关键词查找方法

关键词查找方法: 1.金花关键词工具 2.百度下拉框 3.百度相关搜索 4.爱站关键词挖掘https://www.wendangku.net/doc/681566892.html,/ 5.百度推广后台 一、先打开百度推广的页面,点击“快来注册”,去注册一个百度推广的帐号。 二、注册帐号后进入百度推广的管理后台,点击左侧的“搜索推广”进入,进入到搜索推广的界面。 三、在搜索推广界面选择上面的“工具”栏目,下面会看到一个“关键词推荐”的功能,这个就是我们要用到的查询和挖掘长尾关键词的免费工具了。 四、选择“按关键词搜索”,选择还匹配模式,再输入你的主关键词,就可以挖掘出大量的长尾关键词啦。 五、由一个关键词拓展挖掘的长尾关键词是300个,我们可以进行2次拓展。 六、保存长尾关键词。打开“下载关键词”的功能,这时又会出现两个选项,一个是“文本文件(*.txt)”,一个是“Excel文件(*.xls)”,记得一定要选择“Excel文件(*.xls)”这个选项。 6. 谷歌AdWords工具 先到谷歌注册一个网站推广的帐号,我们先从谷歌的主页进入“加入营销计划”这个页面,这里面有两个选项,一个是“广告客户”,一个是“网站发布商”,要选择“广告客户”这个选项,点击“开始使用关键字广告(AdWords)”这个按钮,先去注册一个推广的帐号。 注册好帐号后进入管理后台,我们在导航条里可以看到一个“优化”的栏目,进入“优化”这个页面,在左下角有一个“关键词工具”,打开这个工具输入我们要挖掘的关键词。 这里面也有下载数据的功能,可以把挖掘到的长尾关键词下载到本地电脑来。同样也是保存xls格式。 通过这2个工具挖掘,一些关键词完全可以挖掘出成千上万个长尾关键词,这时候我们就要开始做后到的几个工序。 在关键词搜索列表里,我们需要关注日均搜索量和竞争激烈程度,这样才能找出精准的,同时竞争度合适的关键词。如下图所示 使用关键字工具的方法如下: 1. 访问https://www.wendangku.net/doc/681566892.html,并登录到您的AdWords 帐户。

各大搜索引擎关键词要点分析概要

搜索引擎关键词要点分享 一.怎样选定关键词 对于站长而言,优化关键词,不仅仅只是SEO优化其中的一部分,更是提高排名,带来高流量的回报。在一些SEO网站或者论坛以及QQ群,提高网站流量最快的方法是优化长尾关键词,长尾关键词的竞争小,首先,我们要先选择适度的长尾词,所谓的适度长尾词,是指不要选择太冷的长尾词,有些主关键字原本就不怎么样的词,再去做长尾其效果势必不明显,还不如反过来去做主关键字。逻辑推理,就是用人性的思维去理解长尾词。试想如果自己是用户会如何的去输入内容,从而来选择所需要的信息;再将这些信息罗列成长尾词,便是逻辑推理法,符合的是用户的行为习惯的运用。 1、利用百度竞价后台的推广助手 推广助手本来是帮竞价用户来推荐关键词的,只要你输入一个关键词,马上就会出来很多以这个关键词为核心词的关键词,挖掘长尾词工具是不可缺少的,一般都只能查询一部分,剩下的只能自己去慢慢挖掘了,但工具查询出来的还是可以参考的,长尾词也是做流量的,不要挑三拣四的,老是想找指数多点流量多点的词做,有的做还嫌弃啥呢?其中就有大量的长尾关键词,而且都没还带有流量搜索数据以及竞争激烈程度图,这样也是有很多的帮助,数据分析很彻底,可以通过这样来分析竞争对手到底可以打败,长尾词就是多才好,多多有善这个更有利于我们得到精确的数据,可以选择一些大流量的长尾词而竞争小的来做。 2、百度下拉框 百度下拉框,细心的朋友都会发现当你搜索一个词的时候,百度下拉这个排列顺序是搜索越多的词排名越靠上,其实也是有很多数据可以看的,主要是看你怎么去发现,这个想知道竞争难度,就得去百度直接搜索这个长尾词看了。下拉出来很的相关关键词,百度下拉框当用户搜索某个关键字的时候,就会出现一些很长的长尾,也有部分是刷的,不然怎么会有刷百度下拉框的软件出现呢?这个也是作弊手法,就是模拟用

网页关键词搜索技巧

把搜索范围限定在网页标题中——intitle 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞注意,intitle:和后面的关键词之间,不要有空格。把搜索范围限定在特定站点中——site 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,天空网下载软件不错,就可以这样查询:msn site:https://www.wendangku.net/doc/681566892.html,注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。把搜索范围限定在url链接中——inurl 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所

跟的关键词,不要有空格。精确匹配——双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。要求搜索结果中不含特定查询词 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。例如,搜神雕侠侣,希望是关

如何查看关键词的热度

如何查看关键词的热度 一般情况下,搜索引擎返回结果数量和关键词竞争度对照如下: (1)搜索结果少于50万:属于竟争较小的;轻易可做到首页 (2)搜索结果50-100万:属于中等偏小的; (3)搜索结果100-300万:属于中等的; (4)搜索结果300-500万:属于中等偏上的;需投入不少时间精力可以排上去 (5)搜索结果500万以上:属于高难度词。 比如:“优惠券网”这个关键词谷歌返回结果为300W,“优惠券”这个关键词返回结果为8700w,初步认为“优惠券”关键词竞争强度要大于“优惠券网网”。 这里有个其中一个技巧推荐大家:就是根据网页标题含目标关键字的网页数量来判定关键词竞争强度,返回结果越多则强度越大。查询语法:【intitle:目标关键字】。比如,【intitle:北京搬家】的百度返回结果数量是87W,谷歌返回146W,而直接使用关键字搜索得出的数量相差就远了,谷歌返回453万,百度290万。当然,实际应用中,我们可能会发现也存在大量的搜索结果与竞争度不一致的情形。例如“北京搬家”百度返回结果290W,“北京搬家公司”百度返回结果为551W。这种情况下,从SERP数量上来看就不太靠谱了,返回结果数量有很大的水分存在。这时候需要借助其他的分析条件来进行综合评定。 第二:看关键词搜索次数 比较经典的工具就是百度指数,这个数值反应了这个关键词的用户搜索频繁度,日搜索量越大,说明该词商业度越高,给客户带来的效果越好,自然该词也会是众多商家争夺的目标,因此竞争难度也会越大。 我们可以分成以下几个数值范围(以百度指数为参考依据): (1)搜索次数少于100:属于竞争较小的; (2)搜索次数100-300:属于中等偏小的; (3)搜索次数300-500:属于中等的; (4)搜索次数500-1000:属于中等偏上的;

关键词搜索网站大全

比较流行的关键词查询工具站:? 1. Google Adwords - ?这个不用说,相信大家都用过。 2. Keyword Tracker - ? 也是一个老牌站,数据不错,但长尾词流量显示较真是量高。E&#AX: 3. Keyword Discovery - ? 这是我最常用的一个(除Adwords 外)。 4. Wordze - 没太多研究…….? ? 5. SEO Book Keyword Tool - 在点石经常听到,说明很多中国站长都在用它,群众的眼睛是雪亮的,这么多人用,相信不错! 6. SEO Digger - ? 主要用它来查排名的。 7. Keyword Spy - 没有研究,待大家观察、补充。 8. Spyfu - 它能告诉你,你竞争对手的网站,哪个关键词排在搜索引擎的前面 9.Nichebot - 没用过,有经验的朋友可以分享下使用心得 其他一些主流引擎关键词查询工具: 1.Google Search Suggest -? Adcenter Keyword Tools -? Sets -? Related Keywords -? Research tool- 2. Data Miner Tool -?关键词趋势类工具站:? 3.1. eBay Pulse -? Buzz -? Hot Trends -? Trends -? Zeitgeist -? Search Hot Searches -? Trends -? Jeeves Interesting Queries -? Hot 50 -? -? Word Similarity - 4. Search Intelligence -?

关键词搜索网站大全

比较流行的关键词查询工具站: 1. Google Adwords - https://https://www.wendangku.net/doc/681566892.html,/select/KeywordToolExternal 这个不用说,相信大家都用过。 2. Keyword Tracker - https://www.wendangku.net/doc/681566892.html,/ 也是一个老牌站,数据不错,但长尾词流量显示较真是量高。E&#AX: 3. Keyword Discovery - https://www.wendangku.net/doc/681566892.html,/search.html 这是我最常用的一个(除Adwords 外)。 4. Wordze - https://www.wendangku.net/doc/681566892.html,/ 没太多研究……. 5. SEO Book Keyword Tool - https://www.wendangku.net/doc/681566892.html,/keyword-tools/seobook/ 在点石经常听到,说明很多中国站长都在用它,群众的眼睛是雪亮的,这么多人用,相信不错! 6. SEO Digger - https://www.wendangku.net/doc/681566892.html,/ 主要用它来查排名的。 7. Keyword Spy - https://www.wendangku.net/doc/681566892.html,/ 没有研究,待大家观察、补充。 8. Spyfu - https://www.wendangku.net/doc/681566892.html,/ 它能告诉你,你竞争对手的网站,哪个关键词排在搜索引擎的前面 9.Nichebot - https://www.wendangku.net/doc/681566892.html,/ 没用过,有经验的朋友可以分享下使用心得 其他一些主流引擎关键词查询工具: 1.Google Search Suggest - https://www.wendangku.net/doc/681566892.html,/webhp?complete=1 2.MSN Adcenter Keyword Tools - https://www.wendangku.net/doc/681566892.html,/Keyword-Research.aspx 3.Google Sets - https://www.wendangku.net/doc/681566892.html,/sets 4.Google Related Keywords - https://www.wendangku.net/doc/681566892.html,/seotools/ontology/index.php 5.Keyword Research tool- https://www.wendangku.net/doc/681566892.html,/keyword-research-tool.shtml 6.Keyword Data Miner Tool - http://www.seocompany.ca/tool/keyword-find/ 关键词趋势类工具站: 1. eBay Pulse - https://www.wendangku.net/doc/681566892.html,/ 2.Yahoo! Buzz - https://www.wendangku.net/doc/681566892.html,/overall/ 3.Google Hot Trends - https://www.wendangku.net/doc/681566892.html,/trends/hottrends 4.Google Trends - https://www.wendangku.net/doc/681566892.html,/trends 5.Google Zeitgeist - https://www.wendangku.net/doc/681566892.html,/press/zeitgeist.html 6.AOL Search Hot Searches - https://www.wendangku.net/doc/681566892.html,/ 7.PPydt Trends - https://www.wendangku.net/doc/681566892.html,/ 8.Ask Jeeves Interesting Queries - https://www.wendangku.net/doc/681566892.html,/docs/about/jeevesiq.html 9.Lycos Hot 50 - https://www.wendangku.net/doc/681566892.html,/ https://www.wendangku.net/doc/681566892.html, - https://www.wendangku.net/doc/681566892.html,/ 11.Dependency-based Word Similarity - http://www.cs.ualberta.ca/%7Elindek/demos/depsim.htm 12.Hitwise Search Intelligence - https://www.wendangku.net/doc/681566892.html,/

2.如何正确设置搜索关键词

如何正确设置搜索关键词 在输入关键词页面我们可以看到“关键词”“词组”“任一关键词”“同时包含”“排除”这几个栏目,下面给大家一一讲解各个栏目的作用和填写方法。 关键词,词组,任一关键词三者只能填写一个 如果您的产品关键词是一个单词组成的,比如shoes,那您就直接输入在关键词里 如果您的产品关键词是由两个及两个以上的词组组成的,比如led lighting,那就直接输入在词组里。 任一关键词建议不填写。 如果在搜索一个关键词或词组的同时,希望返回的结果里同时也包含其它单词,那就在同时包含里输入信息 排除直接采用软件默认过滤条件 一般我们建议客户设置关键词有三个组合 第一:产品关键词+网站关键词 比如说产品关键词是steel pipe 网站关键词一般的话是our products ;about us 那你就可以在词组里输入steel pipe 同时包含里输入our products 或者是about us 第二:行业关键词+产品关键词 比如说你的steel pipe是属于建材这个行业的

那你在搜索的话就可以在词组里输入building material 或者是construction 同时包含里输入steel pipe 第三:产品关键词+产品关键词 比如说你的steel pipe 是建材这个行业的然后一般做steel pipe的又做瓷砖的话(当然这个是假设啦) 那你就可以在词组里输入steel pipe 同时包含里输入瓷砖(英文的) 下面我们以阀门为例 词组:Gate Valves (闸阀) 同时包含:our products (我们的产品) 词组:BRONZE V ALVES(青铜阀) 同时包含:our products (我们的产品) 词组:Butterfly Valves(蝶阀) 同时包含:Nuclear Power Plant(核电站) 词组:Ball Valves(球阀) 同时包含:Petrochemical(石化) 词组:control valves(控制阀) 同时包含:Gate Valves(闸阀)

如何利用关键词搜索客户

如何利用关键字在网上有效地搜索潜在客户? 第一类:搜索引擎 方法1:Importers方法 操作方法:在Google中输入产品名称+importers。 小技巧:可以用importer替代importers 方法2 关键词上加引号 操作方法:搜索“产品名称importer”或者“产品名称im porters”,在键入时将引号一起输入。 方法3 Distributor方法 操作方法:搜索产品名称+ Distributor 方法4 其他类型目标客户搜索 操作方法:产品名称+其他客户类型(相关目标客户的词语除了importer,distributor,还包括buyer,company,wholesaler,retailer,supplier,vendor及其复数形式。 方法5 Price 方法 操作方法:搜索Price+产品名称 方法6 buy方法 操作方法:搜索buy+产品名称 方法7 国家名称限制方法 操作方法:在前面6种方法的基础上加入国家名称限制 方法8 关联产品法 操作方法:产品名称+关联产品名称 方法9 market research方法 操作方法:产品名称+market research 方法10 著名买家法 操作方法:产品名称+你的行业里面著名买家的公司简称或者全称 方法11 观察搜索引擎右侧广告 操作方法:搜索产品名称后,查看搜索结果右侧广告 方法12 寻找行业展览网站 注:时间问题,部分小技巧省略 某些方法是要部分财力投入的,对我们这些中小企业来说,可以从免费入手,一步步来发展。第二类高级搜索引擎

方法13 高级搜索的title方法 操作方法:使用google高级搜索功能的Allintitle功能,搜索上述各个项目的关键词 一般来说,前面介绍的12种方法使用title方法后,都能够加强结果的准确性和买家信息的相关性。 方法14 寻找有连接到大客户网站的网页 操作方法:使用google查找大客户网站的连接 这种方法查找出来的连入网页主要有如下情况:该页面有该客户的广告、该页面推荐了该客户、该页面谈论到了该客户 方法15 寻找有引用大客户网址的网页 操作方法:同上述方法,只是查找的是引用客户网址的页面,而不是连入页面 方法16 网址包括大客户公司名 操作方法:使用google高级搜索功能,输入大客户名称,在字体位置选择“网页内的网址”搜索 方法17 多种语言方法 操作方法:搜索关键词的其他语言书写 方法18 专业文档方法 搜索引擎还提供类似PPT、PDF、word、excel文档的高级搜索功能。

关键词寻找十大绝招

关键词寻找十大绝招,让你的关键词用不完 Note:这里行业一定要选对类目,而且这个类目选择以后是不能更换的,如果更换,需要达到一定积分,所以第一次添加行业时要慎重。 然后选择行业,以发光狗拉带和项圈为例:

这里可以找到全球行业热搜词,在右边可以切换国家,不同国家的热搜词,这里大家可以表格给记下来,发布时做好记录,哪些关键词发过了,哪些没发,要有记录。 Note:在热搜词的下面有一个“搜索上升最快的词”方法同热搜词一样 二。阿里后台---数据管家---热门搜索词--预订热门词(同样以我司发光狗拉带为例) 我们发现这样搜出的关键词有点少,所以我们也可以这样搜,当然我们发布的时候,是上面的和产品匹配度较高的优先,这些关键词覆盖面已经很广了,而且这个每个月会更新一次,然后会给出你上个月没有用过的关键词,所以呢这里的关键词,是以月为单位的,一个月内不可以重复用,因为可能会重复。下个月会有你没发布的关键词出炉。同样,放进关键词库,然后发布的时候记录下来。

三。客户询盘:这个不用多说,大家都知道哈。每封询盘来到,我们第一要做的就是记下关键词,这些都是宝贵资源啊 四。同行网站:虽然有点不道德,但确实有用哈:阿里巴巴主页面-Products--输入关键词----看同行排在前面的产品的名称,他们关键词一定在名称里,而且是连着的,所以很容易找出来。 五。国外的B2B,这个就需要你细分市场,看你们的产品主要适合哪一块市场,然后去“龙之向导”(百度直接搜龙之向导)搜到他们国家的主要B2B,输入产品关键词,看他们的名称如何设的,及他们的叫法。比如,ebay,敦煌网。。。这些网也可以利用 六。阿里主页面,Products---related research:主页面有个相关搜索,这些是搜得比较热的关键词:如下图: 然后大家点一下那个More,会有更多的关键词出来 七。利用国外一些业内知名网站,行业老大的网站,找关键词,查看网站首页源文件,这样得到的结果,还是附合客户国家搜索习惯的。 八。RFQ页面:阿里主页面---Products---Buyers 同样这里也有个related research可以利用。这里的RFQ就和询盘一样,我们可以利用起来,积累关键词,还是比较有用的

标题优化及关键词搜索

【讲师】(幕思城火星) (14:01:31): 大家好,我是火星 首先感谢大家的热情,今天能和大家一起来探讨淘宝SEO自然搜索排名方面的知识,我感到非常兴奋! 我教过的学员有很多长期霸占大词在淘宝首页的,希望大家认真听哦! 这节课程适合自然搜索流量不高或者排名不理想的卖家朋友学习。 【讲师】(幕思城火星) (14:02:59): 任何高级的技巧都是建立在完全掌握基础知识的基础上的才能发挥好 课程目标: 让绝大部分卖家重新认识一下标题优化,并且比较全面的了解哪些因素可能导致你的排名下降或者排名上升。 课程大纲: 1.什么是淘宝SEO 2.关键词的分类 3.如何查找关键词 4.如何组合关键词 5.搜索排名其他因素 刚开始讲标题优化可能大家之前都有了解或者学习过,不过可能火星这次讲的内容和你之前了解的一些不一样 【讲师】(幕思城火星) (14:04:00): 希望大家和我一起来重新学习一下,尤其是越到后面的内容越精彩

首先我们一起来学习一下什么是淘宝seo 淘宝SEO指的是通过对店铺的各个方面进行优化,比如对宝贝标题关键词、宝贝所在类目、宝贝属性、宝贝图片、宝贝描述等方面进行优化,使宝贝排名靠前来提高宝贝曝光度和点击率,从而增加流量和提高转化率的手段。 【讲师】(幕思城火星) (14:05:35): 大家可以大概的浏览一下概念了解一下淘宝seo大概是一个什么意思 宝贝能否被搜索到,宝贝标题是首要条件 如果标题都不包含买家经常搜索的关键词, 买家通常也就不容易搜到您的宝贝 【讲师】(幕思城火星) (14:06:35): 了解了淘宝seo之后大家可以想象一下这里面说了标题关键词、宝贝类目属性、主图等因素 这节课我们重点讲标题优化希望和大家一起学习 学习标题优化之前我们首先要搞清楚标题是什么?标题是由什么构成的? 关键词 【讲师】(幕思城火星) (14:08:16): 那么关键词又有哪些关键词呢?我们怎样判断哪些词是我们要的词呢?所以这里要给关键词分一个类 首先是一级关键词 一般也被称为大词。 特征是:一般是由一个两三个字组成的一个词语。 例如:女装、手机、连衣裙、针织衫、童装、风衣、羽绒服、跑步机、睫毛膏......这种关键词的属性特征是:每天的搜索量巨大,竞争度(宝贝数量)也巨大【讲师】(幕思城火星) (14:09:43):

相关文档
相关文档 最新文档