搜索引擎中用户行为特征分析

王朝other·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

搜索引擎维护的两类信息:

网页相关信息(通过信息获取部分获取);用户行为信息(通过log记录获取)

传统IR技术:(information retrieval)

文档的向量空间模型

Tf*idf算法

―――利用web信息本身的特点和用户行为信息补充

―――分析网页通过超连接形成的有向图

Google 随机冲浪模型 pagerank技术排序

Ibm clever 权威型&目录型网页 HITS计算权值

天网 LHN(link hit number)计算权值

用户经验少但是数量巨大――利用direct技术跟踪用户对检索结果的后续行为

Gray Cullis搜索引擎信息分类:

网页本身信息;链接信息;人工编目信息;用户行为信息。

基本的用户行为特征:

查询词分布情况统计

雷同查询的衰减

相邻n项查询词的偏差分析

翻页情况统计

用户点击url的分布情况统计

网页入度; 镜像度; 域名深度

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航