PageRank算法诞生于1998年的斯坦福大学,Google的创始人拉里·佩奇和谢尔盖·布林发明了这项技术。
PageRank算法简单来说就是通过网页间相互的链接关系以确定网页的重要性及等级。网页A链向网页B则为网页A对网页B的投票,google根据投票网页和被投票网页(即网页A和网页B)的等级来决定新的等级,一个网页的PageRank值由所有链接它的网页的重要性经过递归计算得出。
简单的PageRank算法理解:
假设有4个页面:A,B, C 和 D。如果所有页面都链向A,那么A的PR值将是B,C 及 D的和。
A = B + C + D
继续假设:B链接到A的同时链接到C,并且D链接到A的同时链接到A,B,C的3个页面。因为B页面的PR值是恒定的,所以B向A和C这两个页面传递的PR值相同,由两个页面均分。同样的,D页面的PR值只有三分之一算到了A的 PageRank 上。
A = B/2 + C/1 + D/3
可以这样理解,每个网页传递的PR值由导出的链接均分。假设页面的导出链接数为L,那么A页面的接收的PR值为:
A = B / L(B) + C / L(C) + D / L(D)
最后:上述这些被换算成百分比再乘上一个系数q,则得出该页面的PR值,但是按照此算法,没有页面的PR的将会是0,所以Google通过数学系统给了每个页面一个最小值1 - q。
A = {B / L(B) + C / L(C) + D / L(D)+...} q + 1 - q
每一个页面的PR值均是由其他页面的传递而计算得到,经过不断的计算PR值就会逐渐趋于平稳。
简单的PageRank算法说明到这里,有兴趣的可以查找更多的搜索引擎算法研究资料。
2005年Google推出nofollow属性,此属性可以使Google认为该链接不对目标网页进行投票,保证爬虫的正确识别和防止大量spam的产生。但据点石互动2009年6月4日消息《Google调整nofollow属性效果》称该属性效果已经降低。
PageRank算法最直观的体现显示在Google工具条上的(0-10)的绿色指标(PR值)上。PR值从低到高0-10标示网页的等级,当显示为0或10时可以忽略(0有可能为全站的网站上线而PR值尚未更新、10则表示该网站已经相当权威)。
小彭在《在百度优化中,高质量的外链项目属于重中之重》一文中提到:“高pr不一定代表高质量,可低的pr一般来说站点的质量都不怎么样”,此文说明在针对百度的网站优化过程中,PageRank算法体现出的PR值在SEO工作中仅能做为SEO工作者的一个判别指标,切不可盲目迷信PR值。
原文:小彭@长沙SEO http://www.pyy1990.cn/ 转载请保留