Google使用的是Linux服务器。在Google对其索引的更新过程中,它的8个数据中心的上万个服务器都会被更新。当然,从一个索引到下一个索引总会有一些变化。这只不过是由于总是有新的页面被添加进来,同时一些网站内容的变化也会使它们在搜索结果上的排名发生变化。不过在Google Dance过程中,这些变化是极具戏剧性的。新的索引会分割后传送给这些服务器,依次对这些服务器进行更新,直到最终这些服务器全部更新为一个全新的索引数据库。
Google Dance和DNS(域名服务器):Google的索引结果由8个不同的数据中心所提供。在这8个数据中心中包括了上万个网络服务器,这些数据中心主要被安放在美国。Google 使用多种数据中心以更快地对终端用户的搜索请求给予响应。如果你试图进入一个物理上向你关闭的数据中心,那么从理论上来说你的链接需要更少的跳点,或你需要经历更少的内部节点来进入数据中心和返回你自己的地址。每个数据中心都有它自己的IP地址(Internet上的数字地址),并由DNS(域名服务器)对这些IP地址的访问路径进行管理。DNS系统可立即将你的请求路由给距离你最近或负荷较轻的那个数据中心。然后再经由那个数据中心将你的访问轻松路由给一个闲置服务器。通过这种方式,Google通过使用DNS列表,采用分两步走的方式,达到了传输负载的均衡。并使访问量的管理内在化,从而缩短了数据传输的距离,并提高了对搜索请求的响应速度。
在Google Dance过程中,并不是8个数据中心的所有服务器都能够同时接受新的索引。事实上新的索引只能被分割传送给每个数据中心,分割后的每个部分又被依次传送给每个数据中心。不同的分割段在不同的时间内被上传给每个服务器群,这样也会影响到搜索结果。
在Google Dance过程中,倘若用户在Google上进行查询,他们可能在这一分钟得到的查询结果来自一个其全部或部分数据尚未得到更新的数据中心,而在几分钟后又会从另外一个数据中心得到更新后的数据。但从用户的角度来看,这个变化发生在不到一分钟内。
搜索引擎大约每个月都进行一次全新的索引,但因此也导致其产生了很多的问题。毕竟搜索引擎要对成千上亿的文档进行遍历和索引,然后把其编译的结果数据处理成一个连贯的单元,这可不是一个小工程。即使过了Google Dance,在搜索结果上可能还会有一些较小的波动。这是由于在不同数据中心上的索引不相同所至。新网站的加入,废站点的删除,等等。据估计每天至少会有八百万个新网页生成,其中有一些被加入搜索引擎,从而影响了搜索结果。
现在,如果你想看看Google对其Google Dance所下的定义,可访问其相关页面www.google.com/googledance2002。非常有意思,值得一看哦!
作者简介: Richard Zwicky: Metamend软件公司的创始人和首席执行官。Metamend公司位于英国哥伦比亚州维多利亚市,是一家搜索引擎优化软件公司。
上一页 [1] [2]