所谓的提权蜘蛛和降权蜘蛛都是什么
所谓的提权蜘蛛和降权蜘蛛都是什么?之前有看到过降权蜘蛛和提权蜘蛛,即如果抓取你网站的蜘蛛IP是降权蜘蛛的IP,那你的网站就是被降权了;反之,抓取你网站的蜘蛛IP为提权蜘蛛的IP,那你的网站权重较高。
对此问题表示也不能肯定,然而百度LEE团队官方曾经在百度站长平台公开回答过该问题,并明确的否认了。当然,百度还不承认有百度权重,然而确实有,呵呵。官方的答复不可不信,也不可全信。今天又看《走进搜索引擎》,发现可能真的有所谓的提权蜘蛛和降权蜘蛛。
搜索引擎工作过程中,在抓取环节,有一个重要性网页优先抓取的策略,其实很好理解,搜索引擎需要抓取的新网页和每天重访的网页规模都是巨大的,为保证更重要的网页能够优先抓取,使得在时效性和权威性上获得满意的效果,就需要对重要性网页进行优先抓取。(这不就是百度权重高的网站吗?)
同时,在抓取环节,还有一个抓取提速策略,通过增加同时工作的爬虫(即蜘蛛)数量。在多个蜘蛛抓取的情况下,需要按照域名来分解任务,使特定的爬虫抓取特定的域名下的网页。
在域名分配的同时,要保证每个蜘蛛的工作量相等;如默认正常网站的规模为普通水准,抓取工作量一般;而重要性高的网站,通常其网站规模庞大,内容丰富,抓取工作量较大;但是网站被降权的网站通常使用大量垃圾内容作弊来获取排名,其网站规模肯定也较大,抓取工作量也较大。
假设:1*重要性网站=2*普通网站=1*作弊网站,那么蜘蛛抓取工作量体系结构类似于:
spider1抓取重要性高的域名A
spider2抓取普通网站B和C
spider3抓取作弊网站的域名D
则spider1为提权蜘蛛,spider3为降权蜘蛛。
因为蜘蛛不光要抓取,还要返回抓取的网页结果和新的URL,而URL的重要度会影响URL的抓取优先度,所以高权重网站上的URL是不能和普通网站、作弊网站上的URL放在一起的,因此为提高蜘蛛的工作效率,同一个蜘蛛肯定不会同时抓取不同重要度的网站。
至于考核蜘蛛(即沙盒蜘蛛)、劣质文章蜘蛛等什么乱七八糟的蜘蛛,应该是不存在的。
谷歌的沙盒期是会对新网站正常抓取,只是不会放出或者不会给予好的排名罢了,不关人家蜘蛛的事情。
至于劣质文章蜘蛛,蜘蛛是按照域名来划分工作,那可能就是降权了,要不就是想多了。
如果百度真的存在提权蜘蛛和降权蜘蛛的话,谷歌应该也有,毕竟搜索引擎工作原理是一样的。