主讲:于俊清
华中科技大学数字媒体实验室
https://www.wendangku.net/doc/d012381712.html,
搜索引擎技术基础
1
搜索引擎的前世今生
商用搜索引擎结构与组成搜索引擎质量评估搜索引擎排序策略分布式搜索引擎
A
B
A
B
B
A
逻辑与
逻辑或逻辑非
逻辑与、逻辑或、逻辑非示意图
华中科技大学数字媒体实验室
google搜索引擎提供的布尔模型搜索
8
向量空间模型问题解决
充分利用锚文本(anchor text)信息
?提高网页向量表示的精确性 根据语义对查询词进行扩展 用户先验行为信息积累
?对用户整体搜索偏好和热点分析,提高检索实时性?对用户个体检索偏好分析,提高信息检索个性化
华中科技大学数字媒体实验室
https://www.wendangku.net/doc/d012381712.html,
25
万维网链接图入度和出度分布情况
(a)入度(b)出度
34
华中科技大学数字媒体实验室
链接结构分析
超链接的两个特性(续)
万维网节点间的超链接关系远比上述特性1、2描述的情况复杂的多,如:
?导航栏链接:方便并协助用户访问?广告等商业内容传播链接?版权信息、注册信息超链接
华中科技大学数字媒体实验室
https://www.wendangku.net/doc/d012381712.html,
37
https://www.wendangku.net/doc/d012381712.html,