百度蜘蛛、Google蜘蛛技术分析

王朝网站推广·作者佚名  2011-12-05
窄屏简体版  字體: |||超大  

这篇百度蜘蛛和Google蜘蛛详解的技术文章源于我本人的多个站点,经过约一周的详细观察和分析,所有蜘蛛的数据均真实有效,当然并不排除误差现象,写出来,一则是自己整理,二则与大家分享,希望对大家了解搜索引擎蜘蛛有所帮助。

首先来看下百度和Google对蜘蛛的官方解释:(请去访问官方说明)

百度蜘蛛:Baiduspider Google蜘蛛:Googlebot

以下是我各个站点每日来访的百度蜘蛛和Google蜘蛛的ip段,对应每个站点的成熟度各有不同,我们试着在其中找到规律:(蜘蛛的来访数量与外链的数量,站点的更新频率,权重都息息相关,此处的数据仅代表我个人的站点)

百度蜘蛛分析:

A站.B站.F站均为一年至四个月的半成熟站点,百度蜘蛛( Baiduspider)每日来访次数均在5000-8000+次左右

E站.G站均为二个月至四个月的新站,百度蜘蛛( Baiduspider)每日来访次数均在2000-3000+次左右

C站在上周因服务器问题无法访问一天,正常的爬行次数在3000+

D站为特殊情况,尚待研究。H站上线50天,爬行次数1000+

从以上的列表中可看到:

123.125.64.*123.125.66.* 这两个ip段为最常规出现的百度蜘蛛,应该是正常抓取和站点状态正常时百度的例行巡逻兵。

119.63.193.* 119.63.198.*这两个ip段出现的站点均有更换ip,无法访问,新站初始的情况,我们理解为:新站考察期蜘蛛段。

121.14.89.* 这个ip段作为度过新站考察期,来的更高等级的常驻蜘蛛,作为更深一级的爬行蜘蛛。

Google蜘蛛分析:

从以上的列表中可看到:

202.101.43.*222.73.247.*66.249.65.* 这三个ip段是最为常规出现的。

66.249.16.*出现的站点均为新站或站点出现无法访问情况后再次出现的ip段。

210.72.225.*这个ip段不间断巡逻各站。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

综合以上数据可看出些许百度蜘蛛和Google蜘蛛的不同:

1、 百度的蜘蛛访问及抓取量远大于Google蜘蛛

2、百度的蜘蛛ip段较固定且有规律,Google可能因蜘蛛的分级及不同服务器过来抓取的频率不同而显得多样化

3、 除非你的站点完全被Google惩罚,否则来访的蜘蛛数量不会有太大的差别,但百度则可能封杀你之后就很难恢复,或对你的站点极少爬行。

可能这张表单里的数据也有我没有完全理解的可能性,发出来就是与大家一起共同讨论,希望有研究的朋友可以多多留言,我更希望能有不同的看法出现,希望这篇文章对大家在seo方面的研究有所帮助。

参考网站日志文件网站:http://www.ggthsjx.com 请留下你们的见解。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航