洞察百度行踪:蜘蛛是怎样爬向我们网站的
大网站可以耍大牌,比如淘宝等,但是我们小网站还是要依靠百度生存,当然,听到一声利好,百度要解除屏蔽网站,真心希望能够.我的站文秘杂烩网www.rrrwm.com 被拔毛成首页已经三个多月了,衷心希望更早一点收录。我想不少站长和我的想法一样。 既然思念百度,那就必须了解一下如何查找百度蜘蛛爬行规律是我们遇到一个问题,这里我可以告诉大家,通过IP地址看网站日志寻百度蜘蛛的爬行规律,因为百度没有收录,一段时间以来,也就琢磨着如何做些让百度收录的事。百度的收录是大家关心的问题。如果我们可以了解百度蜘蛛的爬行规律,了解其脉搏,相当于每天会诊,了解收录情况,提高收录技巧。因我们的很多站都是那一种用虚拟空间的,比如文秘杂烩网的网站服务器上,就能够提供日志,有日志就好办了。这理所当然就为查找日志提供了不少便利。但是我们平常所讲的网络日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件,这里还有很多
我们可以通过http查看返回命令的那种方式,来查看检验百度蜘蛛爬行情况,爬行规律。
现在更多的网站是没有提供可以通过软件来查看的日志格式。
更多的是类似下面的日志格式,如下:
09:35:50 GET /goods.php 211.147.222.11 要66658 550
第一 09:35:50 这是指访问时间
第二 懂英文的朋友不吃亏。GET /goods.php 访问的页面 get表示获取,表示抓取了
第三 访问网站的源IP211.147.222.11
第四 出现265 这意味着一次成功访问
第五 表示记录的内容大小,是这个数字66658 550
但是如果我们看到都是这种格式的日志如何去分析了,这是一个问题,我们一个一个观来,看的头都大了,头疼死了。文秘杂烩网站的日志记录每天都有1M多,在一千条记录中,岂不是大海捞针,会看都头晕眼花,不能其解,寻寻觅觅却落得两手空。但是这里面有一个秘密,一个经验,经过偶的长期观察发现,我们大家知道百度的可爱蜘蛛的来源以及服务器、IP地址,均全部在一个域下面的通个网段。
那就是要看网段的IP地址,据了解百度的IP都是位于风水宝地北京网通电报大楼,那个地方人杰地灵,属于全国互联网核心骨干机房,但是目前这类IP段已经没有了。所以全部现在我们所能看到的都是以202.108开头的IP,IP地址都是类似于202.108.X.X。(现在几乎全都被大网站使用了,如网易、搜狐等)把你们认为头疼看得眼花的日志调出察看,用ctrl+f查找一下是否有这个网段的IP地址。一旦我们发现有的话,那这个就是我们朝思暮想的百度蜘蛛的访问地址了,然后你就查找一下访问的时间,这样就一目了然了,因此我们可以很快的找到可爱百度蜘蛛访问我的网站文秘杂烩网的时间规律了。朋友,是不是很简单,闲空之余,也算掌握了百度的一些知识,长一些见识吧。
站长网新闻榜 www.admin5.com/top