SEO葵花宝典：控制Google爬虫抓取

对于有些站长来说，Google的抓取过于频繁(消耗了大量带宽)。而另一些站长又觉得访问得太少。有些站长抱怨Googlebot没有访问他们站点的全部内容，而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容，还放到了Google的索引当中。

从某种程度来说，吸引爬虫是做不到的。如果站点内容质量高、更新速度快而且外部引用多的话，Google自然会访问它。光靠叫唤可不能让站点扬名!然而，你却可以阻止爬虫。你可以控制G00glebot爬取哪些页面、降低抓取频率(如果你愿意的话)或者控制每次抓取的深度。

阻止Google抓取某些特定页面的最佳方法是使用robots.txt文件。它就是一个简单的ASCIl文本文件，放在站点的根目录下面。例如，如果你的域名http://www.xxxx.cn的话，那么该文件应该被放置在http://www.xxxx.cn/robots.txt 。你可以通过robots.txt来阻止Google索引图片、运行PERL脚本(例如，需要客户填写的表恪)或者访问带有版权的页面。robots.txt文件的每块的第一行是蜘蛛的名称，接下来是不允许防问的目录或文件的列表，块与块之间用空行分隔。文件名的格式还支持通配符，例如用“#”和“?”来代表任意数字或字母。

User-agent:*

Disallow:/images/

Disallow:/cgi—bin/

User—agent:Googlebot

Disallow：/copyright/

如果要控制Googlebot的抓取速率的话，就需要注册Google站长工具了(我会在7.2节的跟踪与调整中详细叙述相关内容)。你可以选择三个等级：快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(也是被推荐使用的)抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量，但是同时Google的抓取也会变得不那么频繁了。

需要注意的是，并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的网络蜘蛛)。比如说很多蜘蛛程序不支持写在网页meta标签中的元数据爬虫指令。但是为了兼顾完整性，我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写：

<metaname=”robots”content=”NOINDEX”>

而不让蜘蛛程序抓取该页面上的链接，则meta标签可以这样写：

<metaname=”robots”content=”NOFOllOW”>

Google对NOINDEX和NOFOIlLOW都是支持的，但是其他搜索引擎通常都不支持。所以SEO葵花宝典建议还是使用robots.txt更好一些。