分享
 
 
 

搜索引擎基础算法如何确定返回结果之算法分析

王朝互联网·作者佚名  2012-08-23
窄屏简体版  字體: |||超大  

搜索引擎是否试图最佳匹配输入查询返回页面?如果你意识到这一点,你就会明白,为什么谷歌和其他搜索引擎会使用一个复杂的算法来确定什么结果他们应该返回?在该算法的因素中包括“硬因素”,比如反响你链接到一个页面的数量,一些通过喜欢和+1功能实现的社会建议。这些通常都是一些外部影响,还有一些页面本身的因素,只有通过分析在线和离线因素可能为谷歌来确定哪些页面是背后问题的查询,对于这个谷歌将不得不分析一个页面上的文本。

1、TRUE或FALSE(真或假)

虽然搜索引擎在最近几年的发展中已经非常迅速,但是它依旧只能处理布尔算法。简单来说一个长期被包含的一个文档,一些是真或假,1或0。另外你可以使用运营商的AND,OR和NOT搜索包含多个条件或排除条款的文件。这听起来相当简单,但是它确实存在一些问题。

假设我们现在有两个文档,其中包含以下文本:Doc1:“我们在纽约的餐厅提供bitterballen croquets服务(And our restaurant in New York serves croquets and bitterballen)”;Doc2:“在荷兰您从墙上检索croquets和frikandellen。(In the Netherlands you retrieve croquets and frikandellen from the wall)”

如果我们要构建一个搜索引擎,第一步是标记文本。我们希望能够迅速确定哪些文件包含特殊的术语,如果我们都把令牌放在一个数据库,这很容易实现,一个令牌就代表在为本中任何一个单术语。所以有多少令牌在Doc1中包含呢?

当你开始想回答这个问题的时候,你可能想顶一个一个“术语”。实际上在Doc1中“纽约”应该被认为是一个特殊的单术语。我们怎么能确定这两个单词,实际上是一个超出了本文范围的一个词,所以目前我们威胁每个单独此作为一个单独的令牌。. 所以我们有10个令牌在从Doc1和11令牌在Doc2。为了避免重复的信息在我们的数据库中,我们将存储类型而不是令牌。

类型是在文本上的单独令牌。在Doc1中包含两个令牌“and”,这里需要说明大小写不易的AND可以算作是两次。在这个例子中我们可以将“and”和“&”作为一个相同的类型存储。

通过存储在缩句库中的所有烈性的文件,搜索引擎可以找到他们,我们可以在数据库布尔值的帮助下进行搜索。如果搜索“croquets”将会从Doc1和Doc2中返回两个结果,但是如果搜索“croquets和bitterballen”将只返回从Doc1结果。这样的结果会导致一个问题是你可能会获得太多或太少的结果。此外,它缺乏组织能力的结果。如果我们想要提高我们的方法,必须确定我们吗尅一使用其他存在/缺乏一个文档,你会使用页面要素组织结果。

2、带索引

一个相对简单的方法是使用带索引,一个web页面可风味不同的区域。想到一个标题,描述,作者和内容,通过在文档中添加一个内容,我们可以为每个文档计算出一个简单的评分,这个是搜索引擎用于确定页面主题的方法。

不同的区域有不同的重量,在搜索引擎的索引中根据这些区域的质量来确定网站在serp中排序。比如,标题(0.4)描述(0.1)内容(0.5),比如我们执行以下搜索查询“croquets和bitterballen”,其中我们有一个文档被索引的值如下表格所示:

区域

内容

布尔

得分

标题

纽约咖啡馆

0

0

描述

美味的咖啡厅与croquets和bitterballen

1

0.1

内容

我们在纽约的餐厅供应croquets和bitterballen

1

0.5

因为在seo优化某些时候,站长朋友都开始滥用权重分配到描述,这就使得谷歌的身体分割在不同的区域和不同的权重分配到每个区域变得更加重要。

想要很好实现这些是相当困难的,因为在网络中包含具有不同结构的各种文档,但是如果使用XML文档就显得简答的多,它比html文件的结构和标签要丰富的多,这是的分析更加简单。当然在现在和html5中或许谷歌会支持它的一些微格式,但它仍然有它的局限性。例如,如果你知道,谷歌分配更多的重量内的< content >标记和内容在< footer >标签的内容,你将永远不会使用< footer >标签。

要确定页面的情况下,谷歌将不得将网页分割成快。通过这种方式,谷歌可以判断哪些数据块在页面上是重要的,哪些不是。可以使用的方法是比较文本/代码的比率。如果一个页面中包含更多的文本,html代码中半酣的主业内容在页面快上。如果页面快中包含许多的html代码/链接,有很少的内容,可能是菜单,这就是为什么选择正确的编辑器是非常重要的,因为某些编辑器使用很多不必要的HTML代码。

文本/代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。带索引方法的优点是,你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。

原创文章是是由:http://www.thebaiduseo.cn/news-19.html站长首发,转载请保留有效的链接地址,谢谢!

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有