这几天我观察到自己的网站的蜘蛛留下的日志都是200.0.64,想想以前的网站200.0.0.感觉总有点很不对劲的味道。于是自己在网络上人肉搜索了下。看到的一种结果差点把我吓死,都说64状态是k站或者放到沙河的预兆。于是也对自己的站进行了逐一检查,到目前为止,好像也有一个站被k了。当然这个还存在第二种解释,那就是网络不可达。虽然心里比较认同第一种的解释。但是心里总是慌慌的。总这么下去也不是个办法。即使是网络不可达,长久下去也不是个很好的办法。于是就潜心对这个状态尽心了深入的分析。也和很多的人讨论了下。最初的也得到了我自己的一个解释。200这个大家都知道。对于0,我认为是蜘蛛成功抓取页面并带回数据库,并更新该页面在百度的数据的相同页面。而64是不更新。这个结论的得出是我发现0的问题大多是出现在新页面和更新了后的首页。而64是大多出现在没有变动的内页。对于这个结论,我起初感觉是很合情合理的。
但是慢慢的,我发现这个结论是个错误的。错误的根本就出现在我没有对蜘蛛抓取的大小进行记录,当我把记录日志扩展后发现。所有的64状态,文章的抓取是页面大小是0.也就是说蜘蛛根本就没有带走这个页面。从而我对于前面的200有了个新的认识。那就是200泛泛的说可以是是成功抓取。但是要精确点的话,我认为是“成功打开页面比较合适”。加上后面的0才是成功抓取。加上64是成功打开页面而不抓取。
那是不是网络不可达而造成了这个现象。我也感觉到这个很牵强。这个可以从蜘蛛的请求数看到。蜘蛛既然可以向我请求到页面。页面也打开了,那怎么会不可达。
文章首发:枯狼窝
具体页面:www.9991web.cn/post/64.html