搜索引擎维护的两类信息:
网页相关信息(通过信息获取部分获取);用户行为信息(通过log记录获取)
传统IR技术:(information retrieval)
文档的向量空间模型
Tf*idf算法
―――利用web信息本身的特点和用户行为信息补充
―――分析网页通过超连接形成的有向图
Google 随机冲浪模型 pagerank技术排序
Ibm clever 权威型&目录型网页 HITS计算权值
天网 LHN(link hit number)计算权值
用户经验少但是数量巨大――利用direct技术跟踪用户对检索结果的后续行为
Gray Cullis搜索引擎信息分类:
网页本身信息;链接信息;人工编目信息;用户行为信息。
基本的用户行为特征:
查询词分布情况统计
雷同查询的衰减
相邻n项查询词的偏差分析
翻页情况统计
用户点击url的分布情况统计
网页入度; 镜像度; 域名深度