昨天提供了可以在Google搜索结果页面显示网页发布时间的firefox搜索插件,很多朋友都有下载,我想安装使用应该没有什么大问题的。Kmior朋友留言询问关于Google搜索结果里面的更新时间问题。在回答这两个问题之前,我们先来了解下与Google搜索结果有关的几个时间——网页发布时间、Google爬虫访问页面的时间、网页被Google收录的时间、Google缓存时间。
网页发布时间就是某个具体URL诞生的日子,这个很好理解。有些网页上会有标明,我们也可以通过这个插件查看到,或者通过Google高级搜索也可以看到(但是后两个方法获得的时间不一定准确)。
Google爬虫访问页面的时间,是指Google爬虫光顾过页面的时间,不表示Google收录该页面。爬虫访问时间在apache日志里面可以查看到。Google爬虫会不定期的访问某个页面,其中最近的访问时间就是Google快照里的缓存时间(Cache)。
网页被Google收录的时间是指Google将网页收录到数据库里的时间。目前我们在Google里搜索的时候,会看到某些结果旁边有标记时间,譬如下图。
对于新页面来说,这个页面是初次被收录的时间——很多时候这个页面与新网页的发布时间比较近,因为Google现在技术很NB;对于老页面而言,这个页面是Google数据库对该页面的最新更新时间——老页面只有在被发现有重大更新的时候,Google才会重新下载页面内容并做相关更新,比如搜索结果里面的更新时间显示、Cache页面更新等等。
如果Google的爬虫在访问某个页面的时候,收到304回应,那GG就不会重新下载页面的内容,因为304代码表示页面未有变动。但如果是非304反馈的时候,GG就会下载页面内容,与数据库里的旧版本比较后决定是否采取对应行动,因为页面上的改动有些是非常微小不重要,是不需要GG采取任何更新动作的。所以页面的更新时间意义不大,也不是每次修改页面内容都会对搜索引擎有影响作用。
不知道这篇内容能否对Kmior朋友的困惑有帮助。因为写这篇文章的时间比较紧张,所以如果发现有什么错误或者问题,欢迎留言讨论。
文章来源:http://www.ycdwkj.com 转载请注明:宜春动网科技。