对于有些站长来说,Google的抓取过于频繁(消耗了大量带宽)。而另一些站长又觉得访问得太少。有些站长抱怨Googlebot没有访问他们站点的全部内容,而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容,还放到了Google的索引当中。
从某种程度来说,吸引爬虫是做不到的。如果站点内容质量高、更新速度快而且外部引用多的话,Google自然会访问它。光靠叫唤可不能让站点扬名!然而,你却可以阻止爬虫。你可以控制G00glebot爬取哪些页面、降低抓取频率(如果你愿意的话)或者控制每次抓取的深度。
阻止Google抓取某些特定页面的最佳方法是使用robots.txt文件。它就是一个简单的ASCIl文本文件,放在站点的根目录下面。例如,如果你的域名http://www.xxxx.cn的话,那么该文件应该被放置在http://www.xxxx.cn/robots.txt 。你可以通过robots.txt来阻止Google索引图片、运行PERL脚本(例如,需要客户填写的表恪)或者访问带有版权的页面。robots.txt文件的每块的第一行是蜘蛛的名称,接下来是不允许防问的目录或文件的列表,块与块之间用空行分隔。文件名的格式还支持通配符,例如用“#”和“?”来代表任意数字或字母。
下面的robots.txt文件将会阻止所有的爬虫访问图片目录和PERL脚本目录,并且f又阻止Googlebot访问带有版权的内容和版权声明页面(假使图片放置在“image’’目录下,并且带有版权的内容放置在“copyright”目录下):
User-agent:*
Disallow:/images/
Disallow:/cgi—bin/
User—agent:Googlebot
Disallow:/copyright/
如果要控制Googlebot的抓取速率的话,就需要注册Google站长工具了(我会在7.2节的跟踪与调整中详细叙述相关内容)。你可以选择三个等级:快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(也是被推荐使用的)抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量,但是同时Google的抓取也会变得不那么频繁了。
需要注意的是,并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的网络蜘蛛)。比如说很多蜘蛛程序不支持写在网页meta标签中的元数据爬虫指令。但是为了兼顾完整性,我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写:
<metaname=”robots”content=”NOINDEX”>
而不让蜘蛛程序抓取该页面上的链接,则meta标签可以这样写:
<metaname=”robots”content=”NOFOllOW”>
Google对NOINDEX和NOFOIlLOW都是支持的,但是其他搜索引擎通常都不支持。所以SEO葵花宝典建议还是使用robots.txt更好一些。