当前位置: 王朝网络 >> 网站推广 >> 要善于利用robots.txt这个设置做SEO优化

要善于利用robots.txt这个设置做SEO优化

王朝网站推广·作者佚名 2011-12-04

上次和大家一起分享了<新站如何在百度K站严重的情况下收录>，有很多童鞋加我QQ向我取经，其实我也是刚刚接触SEO自己并不是有经验的人，而且职业也并不是从事网络这个行业，只是自己爱好而已。我也是经常在卢松松、牟长青等一些知名推广博客和网站里不断的取经，加上自己有足够的时间和耐心去测试，从实践中去吸取教训获得经验!

好了咱们接下来来说今天的主题robots.txt，robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面!

关于robots的介绍，已经很清楚了，这里说说为什么对网站来说很重要。很多站长都没有在自己的网站根目录添加这个文件并设置它，它的标准格式你可以在搜索引擎搜索，也可以借助谷歌网站管理员工具去生成。

用robots.txt告诉蜘蛛自己的网站权重分布

要知道，对于一个网站来说，权重是有限的，尤其是草根的网站，如果将整个网站赋予等同的权限，一来不科学，二来完全是浪费服务器资源(搜索蜘蛛比正常访问更占用服务器资源，CPU/IIS/带宽等);你可以想想，就想你网站结构不明确一样，没有良好的权重声明，那蜘蛛就无法判断你网站上什么内容是什么重要的内容，什么内容才是你的主要内容。

屏蔽蜘蛛对后台文件的收录使用的是其它的规范化网页代码，这里不做说明，以我自己旗下的草蛋网来说，我觉得可以屏蔽的就有cache、include、js、update、skins等目录，为了不傻B的告诉别人管理员目录，所以这里不写管理员目录。

User-Agent: 适用下列规则的漫游器，一般填写“*”

Disallow: 要拦截的网页，一般写在Allow的前面

Allow: 不拦截的网页，一般填“/”

Sitemap:网站地图URL

如果你想屏蔽某些蜘蛛，有人问如果设置个性化呢?你写在上述的上面就可以了

User-agent: Baiduspider

Disallow: /

用robots.txt限制垃圾搜索引擎收录，减少网站压力，你可以看看你的流量统计，看有流量主要来自哪些搜索引擎，不来流量的蜘蛛完全屏蔽;因为我有一个哥们是虚拟主机提供商的，所以知道垃圾蜘蛛对网站稳定的影响很大;他告诉过我曾经遇到过部分网站一天IP只有几十个，但是消耗的流量就相当一千多ip正常访问。下面的例子是假设只允许百度、谷歌的蜘蛛访问，其它全部禁止

User-agent: baiduspider

Disallow:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

Sitemap:

用robots.txt告诉蜘蛛网站地图是哪个文件，Sitemap是告诉蜘蛛你的地图文件是哪个文件，使用绝对地址，谷歌蜘蛛建议到谷歌网站管理员工具去提交，关于robots的高级应用可以自行查找资料。

参考资料：

http://baike.baidu.com/view/1011742.htm

附一些搜索蜘蛛机器人的姓名：

百度各个产品使用不同的user-agent：