排序的一般原理是:首先确定若干影响排序的因素,然后再依据适当的算法求得一个合理的排序值。对于按词检索的系统来说,以单个关键词检索为例,每一个关键词对应于一个网页都有一个排序值。
从搜索引擎的排序策略分析,我们可以大概了解到搜索引擎的通性。如表1所示:
影响排序的对象和关系
因素
表示形式
网页标记与检索词的关系
关键词在正文中出现的频率
Keywords
关键词是否在标题中
Title
关键词是否在链接文本中
LinkText
关键词在正文中的位置
Position
用户行为
网页点击率
HitCount
网页浏览数
PageViews
站点用户链接数
UserReach
链接关系
网页等级
PageRank
查询和文档的关系
查询和文档的相关度
Query