今年元旦以来,许多中小网站在百度中的收录突然减少,甚至清零。许多个人站长认为是百度又一次大规模K站或拔毛。但是随着时间的推移,两种比较可信的说法浮出了水面:
说法一、由于中文网页数的巨幅增加,百度的硬盘采购跟不上,只好减少中小网站的收录,以保持搜索正常运行。
说法二、百度在调整算法,将原有的多个数据库统一为较少的数据库,提高搜索效率。
昨天的一则新闻《百度拆除服务器硬盘 改用闪存的存储》则揭示了与前两种说法不同,但仍有关联的答案。百度的确在进行算法调整,这个通过一些在百度的朋友也得到了印证,但是具体算法即使在百度内部也是个谜,毕竟这是百度的核心商业机密。但我没想到的是,百度的算法调整结束不久,巨大的硬件换代也完成了。这意味着,百度即将开始增加中小网站收录,以前中文网站流量来源中百度第一的情况又要回来了。
经过近段时间的观察(通过site:url命令来观察),发现百度至少还有4、5个数据库仍未同步,这些数据库的抓取时间和页面数都不相同。随着固态硬盘的全面上线,数据传输速度和响应时间大大提高,会大大加速百度数据库的合并过程。到时候再site,就不会发现有N个不同的页面数结果了。
在百度宣布全面换装固态硬盘之前,GOOGLE就曾经表示要在部分数据服务器中使用固态硬盘,但没想到百度这次走在了GOOGLE的前面,实在是国人的骄傲。