由于雅虎搜索对于网络抓取采取大量系统,因此,我们的网络服务器会从不同的YST(雅虎搜索技术)抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果我们的服务器主机拥有多个IP,它的活动则会处于更高的级别。
YST有一个特定的扩展名,在我们的服务器根目录下的robots.txt里可以应用,通过它可以对雅虎搜索的抓取程序设定一个较低的抓取请求频率。可以在robots.txt里加入Crawl-delay:xx的指示,其中,“xx”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对我们的服务器是一个负担,我们可以将这个延时设定为任何恰当的数字,例如50或200。
例如:我们想要设定一个5秒的延时,可以在robots.txt里加入以下语句 :
User-agent: Slurp
Crawl-delay: 5
也可以设定更长时间的延时,在此网智成不再赘述。