基于google HILLtop算法的更新
基于 Atul Gupta 的关于Hilltop算法的文章,我做了一些研究总结出这篇文章。Atul Gupta是 SEO Rank公司的CEO,正如他在文章上所说的。Hilltop算法在十一月16号的更新(号称佛罗里达更新)中起到了不可轻视的作用。
在我的有关google”佛罗里达更新的影响”的丛书里。在我较前的一篇文章里,我讨论了过度优化惩罚在一些网站上的体现,这些网站多是对某个关键字进行过度的优化。 经过对hilltop算法的阅读与研究,我发现这个并不是一个新的算法,早在2001年已经出现了。
正如你所预料的,与以前的更新一样,google 对于依然保持一贯的沉默。所以,我的分析只是基于一些在google搜索引擎上的观察和测试。在深入研究这个算法是怎样影响到你在google排名之前,让我解释一下Hilltop算法为何物以及他的工作原理是什么。
这个对于你来说可能是一个搜索引擎全新的算法,我建议你去阅读有关google的page rank算法。
在最基本的排列中,google 的 page rank算法决定了一个网站的重要程度及最后的排名。根据这个原则,一个拥有100个链接的网站比一个只有10个链接的网站排名要高。在你考虑的时候这个原则将变得更有意义。
Hilltop 算法的定义:
与page rank 对比,google的Hilltop 算法决定了指定网页与搜索框里的搜索查询语句或者关键字的适当与重要程度。在基本、简单的排列中,取代了只依靠page rank的值去寻找那些权威的页面,当PR相同的两个描述同样主题的网站中的排名里,这个(hilltop)算法就显得非常的重要了。
通过这样的方法,计算来自描述相同主题的相关文档的链接对于搜索者的价值会更大(即相同主题网站之间的链接比不相关网站的链接价值要更大)。在1999与 2000年,当这个算法被Bharat与其他的google 人开发出来的时候,他们称这种相关的文档为“行家”(做相同主题)文档,而从这些行家文档链接到目标文档决定了他们的“得分的权威性”。再次强调,这个意义不大。
对于这个主题的一些更深入的信息,阅读由Bharat编写的一些文档,可以从多伦多计算机科学部得到。
利用Hilltop算法去定义相关性的网站
Google同样也利用这个算法去定义一个网站与另一个网站的相关性,实际上,Hilltop 算法在google 中作为一个检测杂交链接与相似链接的技术。
另处一方面要注意的,google 的Hilltop算法是基于行家文档的计算,正如以上描述的。
Hilltop 算法要求,如果有两个相关的网站链接到你的网站,那么你的网站在搜索中出现的机会会更大。如果Hilltop算法不查找到最少两个相关性的网站,那么搜索返回的结果的机会绝对是0。Hilltop算法实际上是拒绝那些通过任意链接的方法来扰乱google的排名规则而得到较好排名的做法。
但是,在2004年Hilltop算法又是什么呢?
由于新的一年才刚开始,有些人可能会问:“这真的很cool,但是在“佛罗里达风暴”后,2004年将会有什么变化呢?”,这是一个很大的问题,而在过去的几个星期也有很多人发表了关于这方面主题的文章。
今天跟过去,很多搜索引擎停止了那种只使用一种有价值的算法去决定排名的做法。如keyword标签,meta tag等。这只是一个开始,google在第一步已经完全忽略meta 标签了。与meta相对照,一个网站的可视部分使用spam技术较在meta使用的要少,因为可视部分。
Google新算法背后的原因:
在1998年google刚刚开始的时候,PR在决定适当程度与重要性方面起到了一个非常完美的作用。尽管如此,PR算法在设计上还是存在了一些脆弱性与限制性。google在很早以前也就知道了。
PR值对于搜索述语或者指定的关键字起的作用不大,因此,高PR值只是给搜索述语或者指定的关键字提供参考。这就是google在Hilltop算法中尽量排除的东西。Google总是尽其所能去列出与搜索者相关的结果。
回到Bharat,他在Hilltop 算法的专利,成为了google的代理。在与PR算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。
Google的Hilltop算法现在已经能更好的与旧的算法(PR算法)联合起来工作。根据我的观察Hilltop算法比起它在2000年刚设计的时候已经有了很大的进步。显然这也是2003年11月16日“佛罗里达”更新中影响的一个最主要的算法。
Hilltop 与google 33亿页面的庞大目录
在最初的时候,google的运作基本上是靠10000台奔腾级别的服务器(有些人称他们为廉价的个人电脑),它的数据库平均地分布在多台的个人电脑上,这就是google在成长时期要建立的硬件技术。
回到Hilltop算法,如果我们对10000台低廉服务器是怎样拥有动态智能的处理能力进行观测,(能迅速地在数以万计的不同类型的网页中确定本地的一个行家文档)。很明显的就会发现,google 的Hilltop算法在起着巨大的作用。
在搜索引擎方面,从我所看到的和知道的。自从11月16日,google现在的运行方式是一种批处理方式。成批地处理关键字、关键字短语与搜索语句。Google会在庞大的数据库里储存这些结果,以备搜索者在短期内继续用同样的关键字短语等进行搜索。
Google 是这样进行处理的:在数据库里会储存一些搜索频率比较高的关键字、关键字短语等。这些信息是通过“广告”程度进行收集的。(Adwords ppc)
在我的观测中,google明显地为一个关键字的实际 给予一个随机的数值.回头看一下以前每个月的“google dance”,将会得出以下的结论:Hilltop算法会在那些被除数搜索频率较高的关键字中更新一次。因此,产生“google dance”影响。
另外,在“佛罗里达”更新之前我已经注意到的了。那些突增的搜索关键字会得到较快的更新频率。如一则新闻,“禽流感”。每天的搜索次数,数以万计;Google就会对与这个关键有关的网站进行更新。
总结:在结束这篇文章时,正如我以前的一些文章,如果你想你的网站排名较好的话,网站管理员和站主要跳出以前旧的思维。现在,链接流行度(ink popularity)变得比以前更加重要。
另外,尽你一切的努力把你的网站提交到更多的开放目录下。首先以DMOZ开始,避免那些免费的如自助链接之类。这些有可能使到你的网站得到惩罚。经济允许的话,还可以向一些收费目录提高,如google的ppc广告程序或者overturn 等。你可能会在这里得到真正的收益。注意:自1月15后(正如所料),yahoo已经把google排名完全放弃。