文档库 最新最全的文档下载
当前位置:文档库 › 搜索引擎蜘蛛地工作原理

搜索引擎蜘蛛地工作原理

搜索引擎蜘蛛地工作原理
搜索引擎蜘蛛地工作原理

一、蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛分布爬行。

蜘蛛访问网站时,首先会访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,再或者网站,蜘蛛将遵循协议,不对其进行抓取。蜘蛛也是有自己的代理名称的,在站长日志中可以看出蜘蛛爬行的痕迹,所以为什么这么多站长解答问题的时候会说先查看网站日志(作为一个出色的SEO你必须具备不借助任何软件查看网站日志的能力,并且要非常熟悉其代码的意思)。

二、追踪链接

由于搜索引擎蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。

整个互联网网站都是相互链接组成的,也就是说,之处从任何一个页面出发最终会爬完所有页面。当然网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面。最简单的爬行策略有两种,一种是深度优先,另一种是广度优先。

深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的。也不能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。因此,为了尽量多的抓取用户信息,深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。那么,友情链接的作用就不言而喻。

三、吸引蜘蛛

由此可见,虽然理论上说蜘蛛可以爬行和抓取所有页面,但实际不行。那么SEO人员想要收录更多的页面就只有想办法引诱蜘蛛抓取。既然抓不了所有页面,那么我们就要让它抓取重要页面。因为重要页面在索引中起到重要决定,直接影响排名的因素。这会在接下来的博文中讲述。哪么那些页面算是比较重要的呢?重要页面有这么几个特点。

1.网站和页面权重

质量高、年龄老的网站被给予很高的权重,这种网站上的页面蜘蛛爬行的深度比较高,所以会有更多的内页被收录。

2.页面更新度

蜘蛛每次爬行都会把页面数据储存起来。如果第二次爬行时发现此页面与第一次收录的内容完全一样,说明页面没有更新,蜘蛛也没必要经常再来爬行和抓取。如果页面内容经常更新,蜘蛛就会频繁的爬行和抓取。那么页面上的新链接自然的会被蜘蛛更快的追踪和抓取。这也就是为什么需要每天更新文章。

3.导入链接

无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本不知道页面的存在。此时的URL链接起着非常重要的作用,内链的重要性发挥出来了。另外,高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。

所以说为什么都要高质量友情链接,因为蜘蛛从对方网站爬行到你网站之次数多,深度也高。

4.与首页点击距离。

一般来说网站首页权重最高,大部分外部链接都指向首页,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也就越大。这也就是为什么要要求点击三次就能查看完整个网站的意思。

四、数据库

为了避免重复爬行和抓取网址,搜索引擎会建立一个数据库,记录已被发现还没有抓取的页面和已经被抓取的页面。那么数据库中的URL怎么来的呢?

1.人工录入种子网站。

2.蜘蛛抓取页面,如果发现新连接URL,数据库中没有,就会存入待访问数据库(网站观察期)。蜘蛛按重要性从待访问数据库中提取URL,访问并抓取页面,然后把这个URL 从待访问地址库中删除,放进已访问地址库中,所以在网站观察期的时候尽量有规律的更新网站是必要的。另外站长心态要放平。

3.站长提交网站。一般来说,提交网站只是把网站存入待访问数据库,如果网站持久不更新蜘蛛也不会光顾,搜索引擎收录的页面都是蜘蛛自己追踪链接得到的。所以你提交给搜索引擎其实用处不大,还是要根据后期你网站更新程度来考虑,搜索引擎更喜欢自己沿着链接发现新页面,当然如果说你SEO技术够老练有这能力,其实还是建议让蜘蛛自然的爬行和抓取到新站页面。

五、爬行时的复制内容检测

一般都知道在搜索引擎索引环节中中会进行去重处理,其实在蜘蛛爬行的时候已经在进行检测,当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。所以对于新站来说切莫采集和抄袭。这也就

是为什么很多站长查看日志的时候发现了蜘蛛,但是页面从来没有被抓取的原因。因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。

相关文档