搜索引擎算法介绍之HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。Hits算法由乔恩·克莱因伯格(Jon Kleinberg)于1998年设计提出,该算法的研究工作启发了PageRank算法的诞生。HITS算法的主要思想是:网页的重要程度是与所查询的主题相关的。
我们可以这样理解:HITS算法是基于主题来衡量网页的重要程度,相对不同主题,同一网页的重要程度也是不同的。例如,百度对于主题“搜索引擎”和主题“湖南SEO”的重要程度是不同的。
HITS算法使用了两个重要的概念:权威网页(authority)和中心网页(hub)。
例如:Google、Baidu、Yahoo!、bing、sogou、soso等这些搜索引擎相对于主题“搜索引擎”来说就是权威网页(authority),因为这些网页会被大量的超链接指向。
http://www.pyy1990.cn/post/Hits-Algorithm.html这个页面链接了这些权威网页(authority),则这个页面可以称为主题“搜索引擎”的中心网页(hub)。
HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。
HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。
同时产生的两个问题是:
HITS算法将链接与内容分开来考虑,仅考虑网页之间的链接结构来分析页面的权威性一个页面与另一页面的引用有多种情况,如为了导航或为了付费广告。
第一个问题提出的解决方法是:利用超链文字及其周围文字与关键字相匹配而计算超链权值,并引入系数对周围文字和超链文字进行权值的相对控制。
第二个问题的解决方法是:HITS算法引入了时间参数,即利用对一链接引用的时问长短来评价是否为正常引用。
关于HITS算法的原理,前面已经有一篇文章进行简单的介绍了。其实HITS算法相当的复杂,并非几句话所能概括。本文是收集整理而成,旨在让和小彭一样的新手朋友能更好的理解简单的Hits算法。
原文:小彭@长沙SEO http://www.pyy1990.cn/ 转载请保留。