SEO葵花宝典:控制Google爬虫抓取

王朝网站推广·作者佚名  2011-12-05
窄屏简体版  字體: |||超大  

对于有些站长来说,Google的抓取过于频繁(消耗了大量带宽)。而另一些站长又觉得访问得太少。有些站长抱怨Googlebot没有访问他们站点的全部内容,而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容,还放到了Google的索引当中。

从某种程度来说,吸引爬虫是做不到的。如果站点内容质量高、更新速度快而且外部引用多的话,Google自然会访问它。光靠叫唤可不能让站点扬名!然而,你却可以阻止爬虫。你可以控制G00glebot爬取哪些页面、降低抓取频率(如果你愿意的话)或者控制每次抓取的深度。

阻止Google抓取某些特定页面的最佳方法是使用robots.txt文件。它就是一个简单的ASCIl文本文件,放在站点的根目录下面。例如,如果你的域名http://www.xxxx.cn的话,那么该文件应该被放置在http://www.xxxx.cn/robots.txt 。你可以通过robots.txt来阻止Google索引图片、运行PERL脚本(例如,需要客户填写的表恪)或者访问带有版权的页面。robots.txt文件的每块的第一行是蜘蛛的名称,接下来是不允许防问的目录或文件的列表,块与块之间用空行分隔。文件名的格式还支持通配符,例如用“#”和“?”来代表任意数字或字母。

下面的robots.txt文件将会阻止所有的爬虫访问图片目录和PERL脚本目录,并且f又阻止Googlebot访问带有版权的内容和版权声明页面(假使图片放置在“image’’目录下,并且带有版权的内容放置在“copyright”目录下):

User-agent:*

Disallow:/images/

Disallow:/cgi—bin/

User—agent:Googlebot

Disallow:/copyright/

如果要控制Googlebot的抓取速率的话,就需要注册Google站长工具了(我会在7.2节的跟踪与调整中详细叙述相关内容)。你可以选择三个等级:快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(也是被推荐使用的)抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量,但是同时Google的抓取也会变得不那么频繁了。

需要注意的是,并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的网络蜘蛛)。比如说很多蜘蛛程序不支持写在网页meta标签中的元数据爬虫指令。但是为了兼顾完整性,我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写:

<metaname=”robots”content=”NOINDEX”>

而不让蜘蛛程序抓取该页面上的链接,则meta标签可以这样写:

<metaname=”robots”content=”NOFOllOW”>

Google对NOINDEX和NOFOIlLOW都是支持的,但是其他搜索引擎通常都不支持。所以SEO葵花宝典建议还是使用robots.txt更好一些。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航