大家都知道,在网站上线前,就是你的网址暴露在互联网中,能引来谷歌,百度,雅虎,搜狗等等搜索引擎蜘蛛来爬前,网站的主题,关键字,描述,和网站的结构布局一定要明确。一旦蜘蛛来爬过去,你的网站主题关键字描述及结构布局,还在乱改动,这会很影响网站的收录情况和权重。这也往往是新手,常常犯的错误。网站上线后,还在乱改,结果即使收录了,也会k首页,降权重等等惩罚。
所以有人说,在网站上线前在网站的robots.txt里设置搜索引擎来爬行,等网站标题关键字布局等确定后,再解禁来爬。本人以前没有试过,新上线的一个网站天涯美容屋减肥网,这前因为做股票网,做了几天,又想主题做减肥。转来转去。以前看了有人说可以在robots.txt写禁止蜘蛛来爬,我查了网站log纪录,只有googlebot来抓过,因为上线才一天,其它搜索引擎还没来,我也没提交过。所以只在就禁止 Googlebot 将来抓取我的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: Googlebot
Disallow: /
结果以为没事。然后自己改版着不多了,天涯美容屋减肥网上线了,提交搜索引擎,发外链,引蜘蛛,robots.txt里也解禁了googlebot的来爬,结果一周后过去了,像百度,yahoo,搜狗等等的搜索引擎蜘蛛全来过了,唯独googlebot再也没有来,我很奇怪的。一向googlebot来的很快的,我做了几个站,一般都是googlebot很快来访,baidu蜘蛛反而要一天后才来。这回一周多了还不来,我越想越不对劲。在a5论坛和推一把论坛和google的论坛里都发了提问,没人能给我正确的回答,都不知道原因。我自己也作了一点测试,用谷歌的模拟蜘蛛程序来抓我的天涯美容屋减肥网,结果显示:首先我把天涯美容屋减肥网的网址,指向了自己的本机上,然后用模拟googlebot蜘蛛来抓,结果显示如下:
以下是 Googlebot 抓取该网页的过程。
URL: http://www.tianya5.com/
日期: Wed Feb 03 03:11:47 PST 2010
HTTP/1.1 200 OK
Connection: close
Date: Wed, 03 Feb 2010 11:11:40 GMT
Content-Type: text/html; charset=gbk
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET,PHP/5.2.9-2
Access Denied
竟然是拒绝访问,我这下头大了,拒绝访问?我再一次检查了网站的robots.txt里面没有禁止谷歌来抓啊,网页的meta标签里也没有写禁止,我甚至把robots.txt都删掉了。再用模拟蜘蛛程序来抓仍然是拒绝访问.我再次发论坛求助,仍然没人知道原因和解决办法.然后我就写了一封信给google,信内容如下:
"我的网站,天涯屋美容减肥网 本来我用这个域名开始做股票网的,做了几天,觉得股票网不行,然后就改版做这个减肥网,改版的两天时间内我在robots.txt里设置了拒绝所有蜘蛛来爬,现在我解禁了,别的蜘蛛像bd热狗yahoo都有来爬,就唯有googlebot再也没来,已经有一个星期了,刚才我用网站管理员工具里实验室里的"像googlebot一样爬取"的功能测试爬取。
天涯屋美容减肥网 首页,显示结果是:
以下是 Googlebot 抓取该网页的过程。
URL: http://www.xxxx.com/
日期: Wed Feb 03 03:11:47 PST 2010
HTTP/1.1 200 OK
Connection: close
Date: Wed, 03 Feb 2010 11:11:40 GMT
Content-Type: text/html; charset=gbk
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET,PHP/5.2.9-2
Access Denied
我检查了robots.txt,甚至删掉了这个文件,仍然是access denied,请问google管理人员,这是怎么回事,如何解决,是不是因为我以前拒绝过googlebot,现在googlebot里有数据把我这个站加入了拒绝访问的名单了,还是怎么回事,急等回复,谢谢"
信发过后,我同时也在作测试,我把天涯屋美容减肥网的网址指向自己本地主机,然后用模拟蜘蛛程序来爬,竟然能正常访问,这证明这个域名是没问题的,应该没有进我所猜想的黑名单.这下我更想不通了?难道是程序问题,程序里除了robots.txt和meta标签里能禁止搜索引擎蜘蛛来爬,还有其它地方也能禁止?难道是虚拟主机问题?主机禁止了googlebot来爬?难道是因为我一周前禁止过googlebot来爬,就留下了某种我不知道的缓存文件,仍然禁止着?然后我又把google adsense加入了这个站,adsense能显示广告,说明adsense能来访问.但是googlebot却不能访问。
更为奇怪的是,一个小时后,也就是笔者在写这个文章前,我用谷歌网站管理员工具里的"像googlebot一样爬取"的功能测试时,竟然能爬行了,我看了一下log纪录,googlebot爬行了11次.这又是什么原因?是我写了信的原因?google工作人员看到了,解决了,效率这么高?还是我把网址指向了我本机,又指回来,这样来回折腾后,又好的原因?实在想不明白,唯一得到的结论是:
一定要谨慎使用robots.txt禁止搜索引擎抓取.新站没做好前,不要让自己的网址出现在互联网任何地方,也不要设置禁止蜘蛛来爬,等网站标题结构等确定好后,再去提交,引蜘蛛.本人亲身经历,希望新手引以为戒。