分享
 
 
 

请谨慎使用robots.txt禁止搜索引擎抓取

王朝网站推广·作者佚名  2011-12-05
窄屏简体版  字體: |||超大  

大家都知道,在网站上线前,就是你的网址暴露在互联网中,能引来谷歌,百度,雅虎,搜狗等等搜索引擎蜘蛛来爬前,网站的主题,关键字,描述,和网站的结构布局一定要明确。一旦蜘蛛来爬过去,你的网站主题关键字描述及结构布局,还在乱改动,这会很影响网站的收录情况和权重。这也往往是新手,常常犯的错误。网站上线后,还在乱改,结果即使收录了,也会k首页,降权重等等惩罚。

所以有人说,在网站上线前在网站的robots.txt里设置搜索引擎来爬行,等网站标题关键字布局等确定后,再解禁来爬。本人以前没有试过,新上线的一个网站天涯美容屋减肥网,这前因为做股票网,做了几天,又想主题做减肥。转来转去。以前看了有人说可以在robots.txt写禁止蜘蛛来爬,我查了网站log纪录,只有googlebot来抓过,因为上线才一天,其它搜索引擎还没来,我也没提交过。所以只在就禁止 Googlebot 将来抓取我的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: Googlebot

Disallow: /

结果以为没事。然后自己改版着不多了,天涯美容屋减肥网上线了,提交搜索引擎,发外链,引蜘蛛,robots.txt里也解禁了googlebot的来爬,结果一周后过去了,像百度,yahoo,搜狗等等的搜索引擎蜘蛛全来过了,唯独googlebot再也没有来,我很奇怪的。一向googlebot来的很快的,我做了几个站,一般都是googlebot很快来访,baidu蜘蛛反而要一天后才来。这回一周多了还不来,我越想越不对劲。在a5论坛和推一把论坛和google的论坛里都发了提问,没人能给我正确的回答,都不知道原因。我自己也作了一点测试,用谷歌的模拟蜘蛛程序来抓我的天涯美容屋减肥网,结果显示:首先我把天涯美容屋减肥网的网址,指向了自己的本机上,然后用模拟googlebot蜘蛛来抓,结果显示如下:

以下是 Googlebot 抓取该网页的过程。

URL: http://www.tianya5.com/

日期: Wed Feb 03 03:11:47 PST 2010

HTTP/1.1 200 OK

Connection: close

Date: Wed, 03 Feb 2010 11:11:40 GMT

Content-Type: text/html; charset=gbk

Server: Microsoft-IIS/6.0

X-Powered-By: ASP.NET,PHP/5.2.9-2

Access Denied

竟然是拒绝访问,我这下头大了,拒绝访问?我再一次检查了网站的robots.txt里面没有禁止谷歌来抓啊,网页的meta标签里也没有写禁止,我甚至把robots.txt都删掉了。再用模拟蜘蛛程序来抓仍然是拒绝访问.我再次发论坛求助,仍然没人知道原因和解决办法.然后我就写了一封信给google,信内容如下:

"我的网站,天涯屋美容减肥网 本来我用这个域名开始做股票网的,做了几天,觉得股票网不行,然后就改版做这个减肥网,改版的两天时间内我在robots.txt里设置了拒绝所有蜘蛛来爬,现在我解禁了,别的蜘蛛像bd热狗yahoo都有来爬,就唯有googlebot再也没来,已经有一个星期了,刚才我用网站管理员工具里实验室里的"像googlebot一样爬取"的功能测试爬取。

天涯屋美容减肥网 首页,显示结果是:

以下是 Googlebot 抓取该网页的过程。

URL: http://www.xxxx.com/

日期: Wed Feb 03 03:11:47 PST 2010

HTTP/1.1 200 OK

Connection: close

Date: Wed, 03 Feb 2010 11:11:40 GMT

Content-Type: text/html; charset=gbk

Server: Microsoft-IIS/6.0

X-Powered-By: ASP.NET,PHP/5.2.9-2

Access Denied

我检查了robots.txt,甚至删掉了这个文件,仍然是access denied,请问google管理人员,这是怎么回事,如何解决,是不是因为我以前拒绝过googlebot,现在googlebot里有数据把我这个站加入了拒绝访问的名单了,还是怎么回事,急等回复,谢谢"

信发过后,我同时也在作测试,我把天涯屋美容减肥网的网址指向自己本地主机,然后用模拟蜘蛛程序来爬,竟然能正常访问,这证明这个域名是没问题的,应该没有进我所猜想的黑名单.这下我更想不通了?难道是程序问题,程序里除了robots.txt和meta标签里能禁止搜索引擎蜘蛛来爬,还有其它地方也能禁止?难道是虚拟主机问题?主机禁止了googlebot来爬?难道是因为我一周前禁止过googlebot来爬,就留下了某种我不知道的缓存文件,仍然禁止着?然后我又把google adsense加入了这个站,adsense能显示广告,说明adsense能来访问.但是googlebot却不能访问。

更为奇怪的是,一个小时后,也就是笔者在写这个文章前,我用谷歌网站管理员工具里的"像googlebot一样爬取"的功能测试时,竟然能爬行了,我看了一下log纪录,googlebot爬行了11次.这又是什么原因?是我写了信的原因?google工作人员看到了,解决了,效率这么高?还是我把网址指向了我本机,又指回来,这样来回折腾后,又好的原因?实在想不明白,唯一得到的结论是:

一定要谨慎使用robots.txt禁止搜索引擎抓取.新站没做好前,不要让自己的网址出现在互联网任何地方,也不要设置禁止蜘蛛来爬,等网站标题结构等确定好后,再去提交,引蜘蛛.本人亲身经历,希望新手引以为戒。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有