为了更好的观察网站被蜘蛛爬行的规律,我租用的服务器又没有提供访问日志,不得已,花了不少时间编写了一个基于PHP的专门分析蜘蛛爬行纪录的程序,经过三个月的对几个目标网站的观察,得出以下几个小经验给大家分享,当然,因研究有限,肯定有不足的或错误的地方,请大家不要向我扔砖头啊。
一、百度蜘蛛
这期间我上了两个新网站,发现,百度蜘蛛一般一到三天就可以爬行到首页,开始更新很猛,大约会持续两天到一个星期,三天后就可以在百度中site到首页,虽然百度蜘蛛爬行了上万个页面,但往往只会收录几个页面,两个星期之后,百度将每天只抓取一两次首页,其它页面很少抓取,这个过程会持续一段时间,长的是几个月,短的几天。但百度在这段时间里收录量会有所增加。这段时间 可能是考察期吧。在这段时间里,我的一个站被百度K了,蜘蛛也就不来了。过了这个时间段后,百度蜘蛛访问将趋于稳定,我有两个站百度每天都只来抓取200到300次,收录量变化不大。而我另一个站 shop.hhbmw.com 可能因为外链较多,百度蜘蛛来得相对较勤,近一个月来,每天来访2万到8万次左右,波动比较大,不过,site一下,百度收录量并不高,这可能要到下次百度大更新时才能反应结果。
百度蜘蛛访问目标网页时,会把URL中的汉字编码字符转换成汉字,(如 http://shop.hhbmw.com/proview/%E9%99%86%E5%BB%BA%E5%86%9B88/6c318ea2660bcc4b73b220e16edf96b3.htm 会变成 http://shop.hhbmw.com/proview/陆建军88/6c318ea2660bcc4b73b220e16edf96b3.htm ,即“%E9%99%86%E5%BB%BA%E5%86%9B88” 转换成了“陆建军88”),这样就会出现一个问题了,如果主机对中文URL支持不好,可能会影响百度的收录。
百度蜘蛛访问某个站点时,其访问也有一定的规律,不少都是按汉字的音序来访问的。
二、谷歌蜘蛛
谷歌蜘蛛对新网站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的网站更新越快。反之,GOOGLE PR低的网站更新较慢。
三、搜捭、搜狗、有道蜘蛛
更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。
四、雅虎、MSN
雅虎的更新快,但收录少,MSN的更新极慢。
对于robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持。
而有道蜘蛛基本上不理会robots.txt 的Crawl-delay 语法。
附今天的访问日志截图: