在前面一篇文章里(搜索引擎工作原理折射SEO知识上)有说到搜索引擎的工作原理的前部分也就是如何通过蛛蛛来抓取网络信息的问题。从中我们也了解到,蛛蛛的一些习性与SEO的一些操作小技巧。在今天的文章中我们会看到更多的有关于搜索引擎的内容,好了废话就不多说了。
我们都知道蛛蛛它毕竟还只是个程序而已,他做的工作不会通过网站的前台来分析一个网站内容,而是通过网站的代码来进行抓取信息的。而在网站的源代码里我们会看到好多html、js等一些程序的语句。而蛛蛛他只会对里面的文章感兴趣,也就是说他只提取网页里的一些文字。有些朋友可能就会说到了,那我们还写什么代码?代码不是起不到作用了吗?
其实不是这样的,在网站的标签优化中我们都知道比如H标签、nofollow标签、alt标签等。这些标签还是能在蛛蛛抓取我们网站信息的时候起到强调与修饰作用。比如遇到图片的时候,但蛛蛛并不能识别图片里的信息,那么我们就会考虑去设置一下 alt标签来帮助搜索引擎来识别图片里的信息;为了让网站的一些权重不分散,我们在必要地方给链接加上了nofollow。
既然搜索引擎蛛蛛是对网站文字特别感兴趣,那对于中文SEO优化来说。是不是会有个概念性的东西在这里面,那就是“分词”
最简单的一个例子,比如我们中文里面的“网站优化”这四个词,在百度搜索引擎数据词库里,其实是把网站与优化两个不同的词分开来存放的。当用户来搜索网站优化这个词的时候,搜索引擎的步骤也就是把网站这个词库里的网页信息与优化词库里的信息做一个交集来检索与排名。这点后面还会有说到。
在说到分词的时候我们不得不提一个东西,那就是我们如何来看网站一个分词情况:在百度搜索引擎里面搜索“宁波何涛SEO”在出面的搜索结果里面,我们看下网站的那个快照如图
我们是不是很容易的看到在快照里的显示结果百度把这个词分成了三块不同背景色的词组。这个只是其一,我们也可以在百度的搜索结果里看到只要是我们搜索的词,都会有标红的情况。这个也是分词的另一种表现形式。
有些朋友可能会说了,你说的那些是个别情况,我们在现实过程去搜索的词远远比这个复杂,而且可能还会有一些语气助词等。做为越来越完善的搜索引擎而言。他们其实也早就考虑到了这个问题,首先是因为这些个语气词在搜索过程中实际上是起不到任何作用的。在搜索引擎进行预处理的时候,他们也会把这些词给过滤。一方面是减少检索负担,另一方面也是为了增加内容的准确度。
在搜索引擎把蛛蛛抓取来的信息进行归档之前,还有个程度是必不可少的,他必须得做内容的重复审核。一重意思:搜索引擎必须把同一个网站里的数据进行删选。有一种情况:比如有人在搜索我的网站宁波SEO的时候,在排名结果中第一页会出现我们的首页与内容页的可能性。其实做为一个成熟的搜索引擎来说,这种情况是要避免的。因为这样的内容对用户的用处不大,就相当于同一个内容给排了两次。第二重:对于不同的网站而言,因为网络上的内容那是成千上万的。这里面就会出现两个不同的网站,但内容相同的情况。就是我们常说的网站内容转载的问题,搜索引擎也会考虑到重复的信息进行删选。
有了上几步的重重审核,接下来的就是得做个有效的数据整理。我列两张表给大家看下就明白了:
正向索引
我简单的解释一下上面的表格里的意思:正向索引表格,也就是搜索引擎临时不能直接用于排名的数据表。这个里面他是按照文件来分配每个关键词的。也就是说主键是文件。我们再换到第二张表来看,搜索引擎已经把关键词做为了主键,这也与我们搜索某个关键词来找自己想要的信息一样。我们可以发现:当用户搜索关键词7的时候,这个时候搜索引擎就没有必要对每篇内容再进行检索,它只要做的就是从关键词的词库里面提取出文件1,文件2,文件8等。
至少这几个文件又是如何来排名的,这个也是下次我会写出来的,感谢大家花时间来看我的文章整理。