分享
 
 
 

搜索引擎技术深度研究

王朝网站推广·作者佚名  2011-12-06
窄屏简体版  字體: |||超大  

随着网络科学技术的高速发展,人们对网络搜索引擎的依赖越来越强,尤其是在当今网络资源丰富,网络信息需求量日益上升的二十一世纪,搜索技术占据了互联网的一个非常重要的制高点。现在人们经常用搜索引擎来搜索多媒体资料、最新资讯和地图等各种资料。

第一、 搜索引擎的基本原理

搜索引擎是一个能够获得网站网页资料,建立数据库并提供查询的系统。

1.1搜索引擎的结构

网页搜集就是通过网络蜘蛛去网页上爬行,并且沿着每个网页中的链接去爬行其他网页,最终可以爬行到很多网页,并将这些网页压缩处理,存储到知识库当中。网络蜘蛛程序会不断的对整个网络进行爬行,以保证信息的及时性和有效性。

预处理是对搜集到的网页进行链接分析,网页重要程度计算以及关键字提取,建立一个索引数据库,这个数据库的体系结构必须利于搜索,而且包含的信息要尽量全面。

服务指的是为用户提供服务,当用户输入关键字后,按照关键字在索引数据库中快速的找到相关的信息,返回给用户。

1.2搜索引擎的分类

搜索引擎可以分为三类:全文检索搜索引擎、目录搜索引擎、元搜索引擎。

全文搜索引擎是通过网络蜘蛛去爬行各个网页,将其信息提取出来并存入一个数据库中,当用户使用时对用户输入的关键字进行匹配,并将信息返回给用户。这是使用最多的一种搜索引擎,google,baidu就属于这种类型。

目录搜索引擎是将搜索的资源按照一定的方式进行分类,最终建成一个很大的目录系统,用户查询时可以逐层打开浏览目录,最终找到想要的信息,目录搜索引擎严格上来说并不是一个真正的搜索引擎。我们使用的yahoo,新浪就是属于这种。

元搜索引擎是一种调用其他搜索引擎的引擎,它可以涵盖更多的资源,提供比较全面的服务。使用比较多的有Dogpile,Vivisimo以及国内的搜星。

上述三种不同的搜索引擎分别可以用于不同的场合,有着自己的优缺点。全文搜索引擎一般用于综合性的搜索,它的优点是信息量大,更新及时,不需要人工干预,缺点是处理的信息量大,信息筛选困难。目录搜索引擎大多是面向网站,提供目录浏览服务和直接检索服务,它的优点是人工的干预有利于提高信息搜索的准确度,缺点是需要人工介入,维护成本高,更新慢,信息量小。元搜索引擎由于可以查询多个其他的搜索引擎,所以特别适合于要求查全率高的场合,但是目前不同的搜索引擎之间,建立索引数据库和执行提问检索的具体方法或规则并不相同,大大影响了元搜索工具的检索效果。

第二、搜索引擎实现的几个关键技术

2.1 网络蜘蛛

网络蜘蛛的可以采用一下几种方式实现:

(1) 基于广度优先。基于广度优先的算法按照所遇到的链接的先后顺序进行访问。它是所有网络蜘蛛中是最简单的一种策略。

(2) 基于深度优先。基于深度优先的思想根据选定的条件计算网页与搜索主题之间的相似度,选择相似度最高的链接进行搜索,在相似度的计算过程中,通常采用余弦进行计算。

(3) 基于网页评级。基于网页评级是利用网页评级并结合内容对搜索到的文档集合进行评级,利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。

(4) InfoSpider。InfoSpider是利用进化的关键词表和神经网络方法,对与主题相关的网页进行相似度的计算,根据计算的结果决定下一个将要搜索的对象,同时计算新获得的文档与主题的相关程度以及在获取文档过程中所花费的代价修正代理的能量,并根据其能量级别决定对该代理进行撤消、再生与生存。

2.2网页重要性的评判

对网页重要性的评判方法主要有两种,一种是基于链接的

方式,另一种是基于相似度的方法。

基于链接方式的计算的依据链接信息与被链接的对象必然存在某种可信的映射关系。在应用过程中经常用到以下内容:

(1) 入度:包含有链接目标指向本网页的网页数量;

(2) 出度:由该网页链接出去的网页链接数量;

(3) 网页评级(Page Rank):指在任意时刻用户访问该网页的可能性。

这种方法得到广泛的应用,并且十分有效。

基于相似度的计算,一般都利用向量空间模型将查询串与文本转化为向量,然后评估文本与查询串之间的相似度。

2.3搜索引擎硬件系统的建立

搜索引擎的硬件系统是整个系统的支柱,为了提供更快的查询速度,硬件系统一般采用分布式的结构,Google的服务器就分布在全球各地,还采用并行技术,加快执行速率。另外,索引数据库的硬件设计也很重要,对于提高数据访问速度非常关键。

第三、搜索引擎反展趋势

未来的搜索引擎有着一下的特点:

(1) 能够收集到互联网上几乎所有的信息;

(2) 可以屏蔽一些非法的信息;

(3) 查全率和查准率的提高

(4) 不仅能够识别文本检索词,还能构识别图像、音频、视频等等;

(5) 信息更新更快;

(6) 跨库查询方便简介;

(7) 交互界面人性化、个性化;

(8) 可以实现智能搜索。

(9) 移动搜索将会取得长足的发展。

第四、总 结

本文对搜索引擎进行了详细的讲解,对他的关键技术的实现进行了分析,并且提出了以后的发展趋势,随着技术的发展,人们需求的提高,搜索引擎将会别的越来越智能,越来越高效实用。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有