在公司维护一些英文网站,主要是日常一些SEO方面的工作,如增加链接,做一些关键词等,但自从2009年3月份以后,网站经常被挂满了隐藏链接,这是典型的黑客侵入了网站系统,可能已经加了后门,从那以后,首页经常被加入隐藏链接,虽然一直被覆盖,但一两天以后,首页又被重新加上了隐藏链接。但对于这件事,我也只是敷衍了事,检查日志文件看不出什么眉目,也就没当回事,想就只是加几个链接而已,也没有什么大不了的。
六月十九日,早晨检查网站,看到网站访问量大减,心中觉得奇怪,看一下访问者都是从Yahoo! 和 Bing 进来的,就是没有从Google 进来的,看一下 Google 管理员工具看到 Google 早在十七日就已经发邮件过来通知我,网站因为添加隐藏文本而被删除,吓了一跳,于是下载了整个网站,找到了黑客后门,删除掉,修改页面,重新提交审核,两天以后,也就是二十一号早晨发现网站已经被重新收录,而且排名位置基本没变。
从中,有几个问题比较值得注意,从十七日Google 发邮件通知删除索引,但那一天还是有从 Google来的流量,到十九日就完全没有从Google来的流量了,导致访问量变化非常明显,那就是说即使 Google 搜索质量小组发邮件来说已经删除索引了,但实际上索引并未完全删除,还是有流量从Google 过来的,而且两天后,Google 重新收录网站,排名基本都没变,索引页面数也和以前比没有变化多少,但尤其值得注意的一点是,居然发现首页的 Google 快照是 六月十八日, 这一发现确实是挺让人震撼的,那也就是说,Google spider 在删除索引以后,还是来抓取页面的。
在十九日删除索引后,整个网站在Google是搜索不到的,后来重新收录,看到大部分的页面的快照还是在十七日之前的,认真分析一下的话,会想说,索引真的是完全被 Google 从索引数据库中抹除了吗,恐怕未必,否则快照日期不会是在删除之前的日期,而应该是审核通过重新抓取的日期。
在此,大胆提出一个猜想,Google 搜索引擎的算法没人知道,但有一些痕迹是可以猜想的,我想:Google 是不是采取这样的一种策略,专门有服务器存放被惩罚的或者是被删除的网站,就像google sandbox 一样,甚至被删除索引的网页的处理方法就是 google sandbox 的另一种表现,当一个网站被删除索引时,索引全部移动到这样的一个服务器中,在正常排名的索引中再也不会有这些网站存在了,但蜘蛛还是会访问这些被屏蔽的网站的,可以通过快照日期能够看出来,不然的话,通过服务器的日志文件也能看出来,一旦网站被重新审核通过,从这样的一个服务器中移动到正常索引中,时间会很短,这也是为什么一旦审核通过,收录页面数量会从0回来以前的水平,如果是重新收录的话,不应该会有这么快的收录速度。
只是把自己发现的一些问题提出来,希望朋友们提出自己的看法,和我一起交流。