按照雅虎官方的解释,如果我们想要禁止雅虎搜索网站内容,在我们的服务器的根目录中放置一个 robots.txt 文件,加入以下内容:
User-Agent: *
Disallow: /
因为以上是大部分网络搜索程序都会遵守的标准协议,加入这些协议后,不仅雅虎搜索无法抓取网站内容,其他搜索程序都不会再抓取我们的网络服务器或目录。
所以网智成建议您,应慎重选择,我们可以写成这样:
User-Agent: Googlebot
Disallow:
User-Agent: *
Disallow: /
这样写就是只有名为Googlebot的爬虫可以抓网站所有的内容,雅虎搜索和其他搜索引擎的爬虫都不能抓取网站的所有内容。
或者
User-agent: slurp
Disallow: /
只禁止雅虎的"slurp"搜索引擎蜘蛛的抓取。