8月13号,百度大更新了。这次更新,最引起站长关注的是百度快照现象;很多站长反映自己网站的快照回到了网站出世之前,或者是还未到来的2010年,2036年。据此现象,很多人的说法是百度算法失误。起初我也以为是百度算法的重大错误,但分析了多个快照异常的网页后,我发现这些快照并不是凭空产生的,而是存在一定的规律,就是每一个出现这种快照的页面里,肯定有一个跟快照显示的时间是一样的日期。这一点很多站长也发现了。但我认为这是百度更加注重用户体验感的做法,只是算法还不够完善而已。我用我自己的网站来分析这个观点。
我的小说站在三月份的时候,由于服务器被封,导致网站部分数据丢失,被百度K了所有的小说,剩下文章频道的一些文章没有被K。过了两个月,百度依然不收录我的book目录,但news目录更新的文章一般在三四个小时就被收录了。于是我想到了一个办法,把book目录改成了soft。果然,很快被百度重新收录了。按理来说,我网站的小说页面快照应该都是六月以后的,因为六月以后才有soft目录。但今天百度更新后,我发现收录的很多页面快照都变回了小说的发布时间,比如2008年4月26日,我最先发布的一批小说。
试想一下,如果百度像以前一样将快照显示为最近的收录时间,那么用户搜索到一部小说时,就会以为该小说是最新的。但当点击进去时,却发现该小说早就上传了。这就违背了用户体验的问题。百度快照是给用户看的,而这个时间要真正对用户有意义,是该页面的内容产生时间,而并不是该页面被收录的时间。相信很多站长有过这样的经历,去搜索一些最新的技术文章或内容,快照是几年前的一般不会点击进去看,而快照是最新的但点击进去发现该文章并不是最新发布的,你也会很快离开。这就是用户体验。百度在努力满足用户体验的问题,用页面内容的实际产生时间作为网页的快照,而获取页面实际产生时间的最好依据,就是页面中出现的时间。但百度算法还不能完全判断他从页面中抓取到的时间是不是真的页面产生时间,所以很多快照出现了2010,1990年之类的现象。
百度的这一举动,可以说是搜索引擎的一大创新。我们站长从中也能体会到用户体验的重要性,只有一切以用户为中心去做站,才能在未来更激烈的竞争中生存下来。以上纯属个人的观点,本人菜鸟一个,网站被K后流量一直未能恢复。如果有什么说得不对的地方,还望见谅。