在Google Dance过程中,你可以检查上页所列的这8个Google网络服务器。某段时间内它们显示的结果会有较大的不同,就好象在跳舞一样。正因如此,它们的更新过程就被称作“Dancing/跳舞”,所以就有了Google Dance这个名字。
无论是参加贸易展销,开研讨会,还是在座谈会上发言,都会有人问我这样一个问题:“Google dance是什么东东?”我也听到过若干不同版本的“Google dance”论,不过只有一种说法是对的:Google Dance其实就是指Google重新安排它的搜索结果的排名的过程。在Google Dance时期(三到五天内),你可以发现Google的搜索结果会有大幅度的波动。 Google多长时间更新一次? Google Dance这个名字通常用于描述Google搜索引擎对其主要的索引结果进行更新的过程。每隔36天(一年10次),Google会对其主要的索引结果进行一次更新。不过在今年的5月,Google提前对其搜索结果进行了更新,而且是一次大的更新。Google的更新过程可以很容易地通过搜索结果的显著变化来识别,通过Google对所有索引页面的网页快照的更新也能够看出来。你可以发现,每一分钟都会有明显的变化。不过Google的更新过程并不是象开关切换那样,从一个索引列表瞬间就可以切换到另外一个索引列表。实际上,Google需要几天的时间来完成对主要搜索结果的更新。由于Google也和其它搜索引擎一样,以其随时向其访问者提供权威而可靠的搜索结果来赢得客户。这样Google的更新过程就变成一个比较严重的问题。在更新过程中,Google不可能关闭服务器来进行维护,即使是只有一分钟的掉线也会给Google带来不可想象的损失。所以就有了我们现在看到的这个术语--Google Dance。 其实每个搜索引擎都会定期的对其数据库进行更新,以保证提供最新的搜索结果。只是它们的更新周期各有不同而已。但是由于Google作为搜索引擎的龙头,有着巨大的影响力,因此我们对它的更新倍加注意。在Google的更新过程中,其索引始终在变化,所以它的搜索结果也会有很大的变动。页面等级(PageRank)和返回链接的更新也是在这个时期完成的。 是不是只有搜索结果得到更新? 事实上并不是这样。任何一个更新过程完成之后,Google搜索结果的页面位置都会有一些变化。一方面这是由于Google的网络蜘蛛(spider)一直在活动并不断发现新站点;另一方面是由于一旦网络蜘蛛检测到那些失效的“死”站点,便会将这些站点从其索引列表中删除。而在Google Dance过程中,Google的Robot会对每个已被收录的站点重新进行遍历,计算其链入和链出数,并对这些链接的价值进行评估。然后根据其PageRank系统来计算每个页面的PageRank值,再依据这个数字来重新安排各个站点在列表中的位置。
因为Google总是在遍历和更新其挑选的页面,因此其搜索结果在这一个月内也会有稍微的变化。不过只有在Google Dance期间,其搜索结果才会有幅度较大的变化。你要考虑到Google有8个数据中心,共享着超过一万台的服务器。由于某种原因,Google索引列表的更新虽然在几天之内完成,但整个搜索结果的更新会持续一个月。无论是对Google还是其它搜索引擎,搜索列表的更新工作自始至终都是必不可少的。这些在进行中所增加的更新,在任一时间内,只会影响索引的一部分而不是全部。
如何检查Google Dance? Google有8台主要的WWW网络服务器在线,它们分别是
1. www-ex.google.com - (就是我们平常所用 www.google.com )
2. www-sj.google.com - (亦可通过www2.google.com进入)
3. www-va.google.com - (亦可通过www3.google.com进入)
4. www-dc.google.com
5. www-ex.google.com6. www-in.google.com
7. www-zu.google.com
8. www-cw.google.com
在Google Dance过程中,你可以检查上页所列的这8个Google网络服务器。某段时间内它们显示的结果会有较大的不同,就好象在跳舞一样。正因如此,它们的更新过程就被称作“Dancing/跳舞”,所以就有了Google Dance这个名字。
想要查看Google Dance是否在进行中,最简单直接的办法就是 www.google.com 去做一个查询。在Google搜索结果页面上方的蓝条中,会显示这样的信息:“共有626,000项查询结果,这是第1-10项。搜索用时0.48秒。”然后你再到www2.google.com和www3.google.com上做相同条件的查询,如果相同的查询得出的搜索结果数量不同,那就表明Google正在更新中。
当然了,你也可以查看所有上面列出的8个网址。www2其实就是www-sj,www3 是www-va。需要注意的是,在URL一栏要求输入完整的地址www-扩展名.google.com才能得到正确的测试结果。也有一些网站提供了这样的工具,允许你对这8个数据中心的搜索结果同时进行检查,并比较查询结果。如果在上述8个网址下的搜索结果数量和排名顺序都相同的话,就表明Google的更新过程已经完成了。
Google Dance的重要性:
对大多数人来说,Google的更新过程对他们来说并不重要。然而对于任何一个身处搜索引擎优化行业的人来说,这却是一个值得注意的时期。首先,在Google Dance时期,我们总会接到很多客户的电话,说他们在Google上找不到自己的网页了。其实这都是暂时的。但有时候这种状况可以持续一天, 所以便引起了人们的恐慌。当这些网页在Google上再度出现时,它们的排名已经较原来更靠前了。这样才平息了人们的恐慌。看到这个搜索引擎具有如此的重要性,不能不说是一件非常有趣的事情。
Google Dance的技术背景:
Google的搜索结果来源于上万个网络服务器。这就意味着当你在Google中键入一个问题或查询时,由这上万个服务器中的一个来处理你的查询请求。而且它必须在远小于一秒的时间内响应你的查询(给你想要的查询结果)。试想一下吧,这就好象我们把国家图书馆里所有的书籍都平放到一个飞机场的地上,然后寻找“孙子兵法”,目标是希望在一眨眼的时间内就能找到正确的结果。——几乎不可想象,是不是?可是别忘了,我们每天都是这样在搜索引擎上搜索我们想要的东西的。
Google使用的是Linux服务器。在Google对其索引的更新过程中,它的8个数据中心的上万个服务器都会被更新。当然,从一个索引到下一个索引总会有一些变化。这只不过是由于总是有新的页面被添加进来,同时一些网站内容的变化也会使它们在搜索结果上的排名发生变化。不过在Google Dance过程中,这些变化是极具戏剧性的。新的索引会分割后传送给这些服务器,依次对这些服务器进行更新,直到最终这些服务器全部更新为一个全新的索引数据库。
Google Dance和DNS(域名服务器):
Google的索引结果由8个不同的数据中心所提供。在这8个数据中心中包括了上万个网络服务器,这些数据中心主要被安放在美国。Google 使用多种数据中心以更快地对终端用户的搜索请求给予响应。如果你试图进入一个物理上向你关闭的数据中心,那么从理论上来说你的链接需要更少的跳点,或你需要经历更少的内部节点来进入数据中心和返回你自己的地址。每个数据中心都有它自己的IP地址(Internet上的数字地址),并由DNS(域名服务器)对这些IP地址的访问路径进行管理。DNS系统可立即将你的请求路由给距离你最近或负荷较轻的那个数据中心。然后再经由那个数据中心将你的访问轻松路由给一个闲置服务器。通过这种方式,Google通过使用DNS列表,采用分两步走的方式,达到了传输负载的均衡。并使访问量的管理内在化,从而缩短了数据传输的距离,并提高了对搜索请求的响应速度。
Google Dance过程中,并不是8个数据中心的所有服务器都能够同时接受新的索引。事实上新的索引只能被分割传送给每个数据中心,分割后的每个部分又被依次传送给每个数据中心。不同的分割段在不同的时间内被上传给每个服务器群,这样也会影响到搜索结果。
在Google Dance过程中,倘若用户在Google上进行查询,他们可能在这一分钟得到的查询结果来自一个其全部或部分数据尚未得到更新的数据中心,而在几分钟后又会从另外一个数据中心得到更新后的数据。但从用户的角度来看,这个变化发生在不到一分钟内。
搜索引擎大约每个月都进行一次全新的索引,但因此也导致其产生了很多的问题。毕竟搜索引擎要对成千上亿的文档进行遍历和索引,然后把其编译的结果数据处理成一个连贯的单元,这可不是一个小工程。即使过了Google Dance,在搜索结果上可能还会有一些较小的波动。这是由于在不同数据中心上的索引不相同所至。 新网站的加入,废站点的删除,等等。据估计每天至少会有八百万个新网页生成,其中有一些被加入搜索引擎,从而影响了搜索结果。