分享
 
 
 

搜索引擎指南robots.txt文件

王朝other·作者佚名  2006-11-24
窄屏简体版  字體: |||超大  

有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的。作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。

创建robots.txt文件

好,现在我们开始行动。创建一个叫robots.txt的文本文件,请确保它的文件名是正确的。该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则 robots.txt仅仅只是个常规文件而已,没有任何作用。

现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion Protocol)的协议。其实,它的格式很简单,并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的。

1) robots.txt基本设置

User-agent: *

Disallow: /根据以上的声明,所有的爬虫(这里用*表示出来)均不允许对您的网站的任何部分进行索引,这里的/表示所有页面。通常情况下这不是我们需要的,但这里仅仅是让大家有个概念而已。

2) 现在让我们做一些小小的改动。尽管每个站长都喜欢Google,但是你可能不希望Google的镜像机器人挖掘你的网站,也不希望它把你的网站的镜像放在网上,实现在线搜索,如果仅仅是为了节省你的网站所在的服务器的带宽,下面的声明可以做到这一点

User-agent: Googlebot-Image

Disallow: /3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息

User-agent: *

Disallow: /cgi-bin/

Disallow: /privatedir/

Disallow: /tutorials/blank.htm4) 你还可以对多个机器人设置不同的目标,看看下面的代码

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /cgi-bin/

Disallow: /privatedir/这个设置很有趣,这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作,除了google,在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点。这里说明,规则是可以定制的,但不是继承而来的。

3) 有另外一种使用Disallow的方法:即允许访问网站所有内容,其实只要冒号后不输入任何东西就可以了

User-agent: *

Disallow: /

User-agent: ia_archiver

Disallow:在这里,除了alex以外的所有爬虫都不允许搜索我们的网站

4) 最后,一些爬虫现在支持Allow规则,最著名的就是Google。正如这个规则的名字所说,"Allow:"允许你精确的控制那些文件或者文件夹是可以被访问的。然而,这个文件目前还不是robots.txt协议的组成部分,所以我建议只有在必须使用时才使用它,因为一些不够聪明的爬虫可能认为它是错误的。

下面的内容来自于Google's的FAQs for webmasters,如果你希望除了Google以外的爬虫都不挖掘你的网站,那么以下的代码是做好的选择

User-agent: *

Disallow: /

User-agent: Googlebot

Allow: /

原文:http://javascriptkit.com/howto/robots.shtml 译者:Tony Qu,BluePrint翻译团队

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有