隐含语义索引原理,它是基于一个什么样的算法呢?它又有什么作用呢?它对关键词排名的哪个部分起着决定性的作用呢?前面我的一篇文章《从隐含语义索引浅谈关键词布局》提到关键词相关的问题,今天接着深入分析!
1、隐含语义索引原理的作用
隐含语义索引原理主要是解决文章内容问题。包括下面几个方面:
①、内容的重复性问题
②、关键词的相关性问题
③、关键词的密度问题
④、关键词堆砌问题
⑤、文章原创性问题
2、关键词密度问题
我们学习SEO以后经常在思考,搜索引擎是怎么判断我们的文章是否原创的呢?怎么判断我们一篇文章是质量高还是质量低的呢?怎么样能够知道我的文章有没有关键词堆积?怎么样能够知道我的文章中的关键词密度。这个隐含语义索引原理就是现在主流搜索引擎用的一个核心的索引原理。它是基于中文分词原理来的。我们前面的课程中有详细的讲过中文分词原理。
中文分词原理就是说,搜索引擎如果要通过上千万亿个网页去判断某个关键词的关键词排名,并且计算它的排名的话,是非常非常困难的。不可能像现在这样,在零点零几秒就能够计算出一个结果出来。汉语的词汇量,一共只有8万条。通过语义索引,把上千万亿个网页分割成了8万条词条上面,就使得计算变得非常的简单了。使得计算从一个很复杂的、非常庞大的数字,变成一个计算机可以人为控制的数字了,仅仅只有8万条。
搜索引擎的蜘蛛把一个页面里的代码、文字全都下载下来之后,它会进行分析。把这个页面里面所有的中文字词整理出来,进行切割。这个切割的过程就是分词,把页面内容分成若干个不可再分的词。然后把一些过路词去掉。什么是过路词呢?这个、那个、在、的……等等等等,这些关键词是没有意义的词。只留下一些名词、动词、形容词。
把一个页面分解成这些词以后,就开始统计每个词出现的次数和频率。这样搜索引擎就知道了你的关键词在页面出现了几次,也就算出了关键词密度。
3、关键词堆砌问题
搜索引擎知道了你的关键词在页面出现了几次,也知道了跟它相关的词又在页面出现了几次。比如你一个词出现了100次,它的相关词只出现了2次,搜索引擎就知道你肯定是在堆砌关键词,是在作弊。所以说,有没有关键词堆砌,这是可以算出来的。而且不同的行业不同的词,它们的比率是不一样的。这就解决了关键词堆砌的问题。
4、相关性关键词问题
相关关键词它的比率到底是多少呢?比如说SEO培训,“SEO”出现的次数,和“SEO培训”出现的次数,他们的比率是多少。再比如上海不锈钢,“上海”出现的次数,和“上海不锈钢”出现的次数,他们的比率又是多少。这个人家是可以算出来的。
你在一篇不相关的文章插入一个关键词。比如网站上面根本没讲SEO,你插一个“SEO”在里面。这个时候“SEO”可能就会起反作用。因为它通过隐含索引原理,可以计算出来,你这个关键词跟你这个页面不相关。
5、原创性问题
搜索引擎能不能识别伪原创?它是可以识别的。因为通过相关语义索引原理,它知道每一个词的比率。你把位置换一下,难道频率就不一样了吗?频率还是一样的,各位!只是说你增加一些词还有减少一些词,频率会有一定量的变化,但是变化不会太大。换近义词可以,但是近义词只有一个。而且换近义词以后关键词就不是那个词了。几篇文章组合也行,但是你这种文章还有可读性吗?没有可读性了。
有的人可能会问,老师既然如此,为什么我伪原创的文章,还会收录呢。怎么解释这个问题。隐含语义索引原理,搜索引擎大体的都是用这个来识别的,但是它不能100%识别。说白了,这是一个程序的计算问题。这个蜘蛛,他就是一个程序。但这是可以实现的技术问题。你要相信,总有一天,他可以做到接近100%识别的。你明白没有?所以,你有时候别老想着去做这事。一旦有一天他接近90%了,我可以说,现在互联网上大量做垃圾站的那些人,迟早都要完蛋。最后,绝对是用户体验最佳的那个网站得胜。认同吗?搜索引擎的发展变化太快了,因为搜索引擎有的是钱,有世界上最好的工程师。给用户带来最佳体验的网站以及网站内容,绝对会笑到最后,他一定是这样的。
搜索引擎使用隐含语义索引原理,但是它需要程序去实现,这个过程是多久呢,应该在未来2~3年内,就可以接近90%了。90%是一个很猛的数字了,现在估计只有40%-50%左右。现在很多站长,已经越来越难了,收录一直在浮动。而为什么很多老站的收录一直都很稳定呢?这到底是什么原因造成的呢?这就是因为隐含语义索引原理的识别度越来越高了。很多长尾关键词页面,今天收录,明天就删了,是不是这样子?
6、内容重复性问题
隐含语义索引原理,能够让大家的网站,重复度高的,收录越来越少。如果你是采集,以后你的收录只会越来越少。有两个解决方案。
第一种,增加你的权重。
比如有两个网站,我的权重比你高。你先发,我采集你的。因为我的权重高,蜘蛛先爬到我。或者先爬到你,但是没有马上收录,然后爬到我,收录了。百度会认为谁是原创?告诉大家,如果我的权重高于你的。百度就会认为我的文章是原创。为什么呢?因为目前为止,百度判断原创还是主要依靠权重。除非你比我早发很多天。否则只要你一发我就采集你,百度必然会认为我是原创。你肯定干不过我。我一发就收录了,而且排名很好。你只能靠慢慢累计权重提升排名,没别的办法。
第二种,我们不去采集,我们做100%原创性的内容。
被高权重的网站采集也没有关系。因为不可能永远那么凑巧,一发就被采集。而且假设你先把自己内容完全做好了的话,如果你是一个新站,请问谁会来采集你?只有你更新很及时而且网站有排名,才会采集你。你认同吗?如果你一开始把内页全部做好,全部都是原创的。别人是无法采集你的。一开始是不采集,后来是采集也没用。按照我说的一步一步提升权重。就像现在的SEOWHY,还有人去采集他吗?有,但是基本上没用了。
不建议做任何防采集的设置,会妨碍用户体验的。比如说你禁止用户使用右键,或者一些防采集的代码,都会影响你的收录以及你的整个网站的优化。不能做任何防采集的东西。
7、隐含语义索引原理的引申思考
关于隐含语义索引原理,我们可以思考两个问题。
1、保持页面上关键词的最新相关性。
不同的时期内,一个关键词的相关关键词是不同的。我们要不断调整我们的页面内容,使我们页面上的关键词保持最新的相关性。这样搜索引擎就会始终认为我们这个网站是有价值的。
2、研究那些外部链接比较少,而关键字排名比较靠前的网页。这些页面,说明百度对他的内容质量是打了高分的。
最后总结一句话:做伪原创、采集是没有前途的。
作者:青装SEO研究中心www.moonseo.cn核心成员,更多信息详请百度 青装 或SEO研究中心 如上有疑问欢迎来YY6359交流提问,青装将亲自为你解答!尖锐站长QQ群:29840300欢迎加入