搜索引擎的基本组成和及其功能
• 一 个 搜 索引擎程序主要由搜索器、索引器.检索器和用户接口等四个部分组成,主要存储设备由页面存储器和存储桶两部分组成。
• 搜索器:爬虫 抓取 压缩 存储库
• 索引器:存储库提取网页信息,分析和分解,建立关键字索引,初步排序处理,存入存储桶,即硬件存储单元。
• 用户通过用户接口提交查询,检索器根据输入关键词,在索引器和存储桶进行查找,并且采用算法进行对结果的最终排序
网页信息相关的页面优先度算法
• 以网页内容为基础的算法:关键词在特殊位置出现的状况:例如titile,meta,des.
• 关键词在页面正文出现的状况:关键词出现总次数,出现单词平均间隔,关键词出现的频率。
• 以网页链接为基础的算法:例如PageRank算法 HITS算法 对于HITS不足补充加强的一些列算法。
用户行为相关页面的算法
• 不能忽略用户对搜索结果相关性的意见。通过对WEB日志的分析,调整页面优先度
• 以点击率为为基础的Dir ect Hit 算法:通过搜索结果返回的点击率和相关页面停留时间长短来判断页面受欢迎程度。
• 其他用户行为:例如通过用户行为二次筛选,逐渐缩小搜索结果与用户期望的差距。Cookie记录,热门关键词等。。
使站点被收录
如何让站点收录
• 假如没有给收录,是否给搜索引擎封杀?是否蜘蛛访问你的站点?
• 所有站点数据呈现下降趋势,甚至为零,并且多个搜索引擎出现这种情况
• 通过网站日志分析蜘蛛是否访问站点:没有链接,无效链接,无功而返。
我们要吸引链接。
怎样使更多网页被收录
• 消除蜘蛛陷阱:robots.txt的设置 不要用蜘蛛访问不到的技术显示内容,例如弹出窗口,框架,FLASH,IMG,js 利用JS写的下拉菜单。这样一不能识别内容,二不能顺着链接爬行。 动态URL地址过长,动态参数过多,? & = 等等,避免进入黑洞。。制作404页面,确保服务器的响应。。至少在10秒以内能打开网站。
• 减少被忽视的内容:精简网页,蜘蛛爬过一定大小的页面就会停止爬行,加入网页内容过多,可以用不必要的内容用JS来写。。 FLASH里面确保是你不想被收录的内容,避免使用框架。
• 建立蜘蛛程序通道:设计站点地图。
优化内容
搜索排名要素:主要的两类
• 页面要素:链接流行度,用户行为,URL的长度 和深度,新鲜程度:内容,站点的结构,不要作弊
• 搜索请求要素:关键词突出度,密度,频率,内容,TF*IDF,搜索项接近度
吸引链接到你站点
• 目前最重要排名因素还是由链接决定的。
• 内容为王在以前的互联网上是站有统计性的,但引起互联网变化的不是内容,和是链接。这正的互联网是能容易从一部分内容转移到另外一部分内容。1998年的GOOGLE出现,打破了传统的基于关键词搜索排名算法,而是基于链接分析,利用链接来评判网页等级质量。PR
• 链接的流行度:链接数量,链接质量,锚文本,
• 链接相关性:单纯的锚文本来判定相关是不够的,搜索引擎会查看锚文本周边的词,查看整个页面甚至整个链接来源站点上的词。
链接的权重价值
• 内部链接<在同一个家族内<双向链接<拥挤的单向链接<稀疏的单向链接
• 何为同一家族内链接:IP WHOIS 重复类似的锚文本 对这些权重都不会高。。
本文来自www.chenhuayi.com原创,转载请注明出处。