上次和大家一起分享了<新站如何在百度K站严重的情况下收录>,有很多童鞋加我QQ向我取经,其实我也是刚刚接触SEO自己并不是有经验的人,而且职业也并不是从事网络这个行业,只是自己爱好而已。我也是经常在卢松松、牟长青等一些知名推广博客和网站里不断的取经,加上自己有足够的时间和耐心去测试,从实践中去吸取教训获得经验!
好了咱们接下来来说今天的主题robots.txt,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面!
关于robots的介绍,已经很清楚了,这里说说为什么对网站来说很重要。很多站长都没有在自己的网站根目录添加这个文件并设置它,它的标准格式你可以在搜索引擎搜索,也可以借助谷歌网站管理员工具去生成。
用robots.txt告诉蜘蛛自己的网站权重分布
要知道,对于一个网站来说,权重是有限的,尤其是草根的网站,如果将整个网站赋予等同的权限,一来不科学,二来完全是浪费服务器资源(搜索蜘蛛比正常访问更占用服务器资源,CPU/IIS/带宽等);你可以想想,就想你网站结构不明确一样,没有良好的权重声明,那蜘蛛就无法判断你网站上什么内容是什么重要的内容,什么内容才是你的主要内容。
屏蔽蜘蛛对后台文件的收录使用的是其它的规范化网页代码,这里不做说明,以我自己旗下的草蛋网来说,我觉得可以屏蔽的就有cache、include、js、update、skins等目录,为了不傻B的告诉别人管理员目录,所以这里不写管理员目录。
User-Agent: 适用下列规则的漫游器,一般填写“*”
Disallow: 要拦截的网页,一般写在Allow的前面
Allow: 不拦截的网页,一般填“/”
Sitemap:网站地图URL
如果你想屏蔽某些蜘蛛,有人问如果设置个性化呢?你写在上述的上面就可以了
User-agent: Baiduspider
Disallow: /
用robots.txt限制垃圾搜索引擎收录,减少网站压力,你可以看看你的流量统计,看有流量主要来自哪些搜索引擎,不来流量的蜘蛛完全屏蔽;因为我有一个哥们是虚拟主机提供商的,所以知道垃圾蜘蛛对网站稳定的影响很大;他告诉过我曾经遇到过部分网站一天IP只有几十个,但是消耗的流量就相当一千多ip正常访问。下面的例子是假设只允许百度、谷歌的蜘蛛访问,其它全部禁止
User-agent: baiduspider
Disallow:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Sitemap:
用robots.txt告诉蜘蛛网站地图是哪个文件,Sitemap是告诉蜘蛛你的地图文件是哪个文件,使用绝对地址,谷歌蜘蛛建议到谷歌网站管理员工具去提交,关于robots的高级应用可以自行查找资料。
参考资料:
http://baike.baidu.com/view/1011742.htm
附一些搜索蜘蛛机器人的姓名:
百度各个产品使用不同的user-agent:
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
网页以及其他搜索 Baiduspider
搜搜蜘蛛的user-agent:
Sosospider
Sosoimagespider
谷歌的
googlebot
googlebot-image
googlebot-mobile
Mediapartners 或 Mediabot 这个特别说明:谷歌广告爬虫,用来匹配广告,如果你做了谷歌广告并且限制了所有蜘蛛,你就悲剧了,没有做谷歌广告的,爬虫不会造访(这就是谷歌的强悍之处,用一个蜘蛛来为广告服务)
其它的就不说了,可以自己搜索一下,小弟文笔疏浅如果有说的不足的地方,希望各位大虾能够指点一 二!
本文转载时请注明来自草蛋网www.fuckegg.cc,转载时请保留此链接,请遵重原创 赵峰设计www.zhaofeng.org!