通过新浪“屏蔽门”来学习正确的robots.txt文件写法

前一段时间由于部分站长对robots文件的误读，导致了一则虚假消息的诞生--“新浪封杀门”，消息称新浪博客开始封杀百度蜘蛛，其判断的依据只不过是新浪博客在的robots文件中有一段"User-agent：Baiduspider "，这个其实上传于2005年的robots迷惑了不少站长，真的以为新浪博客开始封杀百度了，一时间网上到处都是外链不好做的呼声，其实如果你熟悉robots的写法，就可以很轻松的识别这条虚假信息。

robots.txt文件放置于网站根目录下，搜索引擎蜘蛛访问一个网站后最新查看的就是robots文件，它就相当于你网站的“门卫”，如果“门卫”拒绝搜索引擎蜘蛛进入，则搜索引擎无法收录你网站的任何界面。

在“百度搜索帮助中心”(http://www.baidu.com/search/robots.html)中，

对如何禁止百度蜘蛛访问是这样定义的：

User-agent: Baiduspider

Disallow: /

仅允许百度蜘蛛的访问：

User-agent: Baiduspider

Disallow:

禁止百度蜘蛛访问特定目录：

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

结合这3种语法，我们再来看看网上流传的新浪博客的robots写法：

User-agent： Baiduspider

Disallow： /admin/

Disallow： /include/

Disallow： /html/

Disallow： /queue/

Disallow： /config/

其真正的目的只是禁止百度搜索引擎访问5个后台目录，和内容页并没有关系，因此说那个robots并不是封杀百度蜘蛛的，而是告诉百度蜘蛛要“去改去的地方”。

一个正确有效的robots文件可以帮助你更好的被百度收录，各位新手站在朋友如果对robots还不熟悉，可以到“百度搜索帮助中心”(http://www.baidu.com/search/robots.html)下载标准案例，将里面的内容改成自己的网址即可。

以上是我的一点体会，希望有朋友们转载的时候可以保留我的链接http://www.jfbest.com 多一份保，留多一份口碑，多一份运气，多一份财富!谢谢!