当前位置: 王朝网络 >> 互联网 >> 优化新思路：SEO查重算法打造终极“伪原创”

优化新思路：SEO查重算法打造终极“伪原创”

王朝互联网·作者佚名 2011-12-16

窄屏简体版字體: 小|中|大|超大

大家好，我是 ,呵呵，第一次在在这里来写东西，感觉不太好意思啊，我是SEO初学者，在网上看过几篇文章，也看过两本书，对SEO来说，没有什么很深的体会，只是单纯就我所知道的某一点来写写，大虾们别笑啊!

我现在要讲的是：网页查重算法，也就是搜索引擎是怎么检查两个网页的相似性的?这应该是大家应该比较关心的问题吧，因为这有助于让你的“伪原创”更像一个“原创”

首先我跟大家讲有名的I—MATCH算法。

我们在比较两件事物的相似性时，往往都会拿能均衡的反应这事物本质的东西来比较，就像比赛时，要去除一个最高分和最低分，然后再变算总分一样~~

I—MATCH算法基于的依据是，在文挡中，特别高频的词和特别低频的词无法反应这一个文挡的真实内容，所以在比较之前，先将文挡中高频词和低频词去掉(注意：这里的高频和低频指的是文档频率，并非关键词在你网页中的密度!)

我们来看一个例子：

这里有两段网页文字：

1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格，新浪体育播报。

2.米卢率领中国足球队员首次杀入世界杯决赛阶段，搜狐体育播报。(嘿嘿，看到这两句很熟吧?)

文档(一)中去掉高频：中国，在，的，获得，比赛，资格，新浪，体育，播报

去掉低频：米卢

则剩下中频词有：足球队，率领，首次，世界杯，决赛，阶段

文档(二)中去掉高频：中国，搜狐，体育，播报

去掉低频：米卢，杀入

则剩下中频词有：率领，足球队，首次，世界杯，决赛，阶段

看到了吧?剩下的，两者是一模一样这就是相似性的存在

呵呵，其实这个例子很早就有过的。。

综上所述：搜索引擎要检测相似性，主要就是要分词和词频的比较!!

不知道大家是否都清楚了?呵呵，下次再讲一个经典算法：Shingle算法。

就到这里吧。祝大家的“伪原创”越来越好! SEO学习还任重道远啊!一起努力

点击展开全文

上一篇：菜鸟心得：解决网站改版对百度收录的影响

下一篇：目前比较流行的添加单向链接的方法

免责声明：本文为网络用户发布，其观点仅代表作者个人观点，与本站无关，本站仅提供信息存储服务。文中陈述内容未经本站证实，其真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

没有找到您想要的？点此查看更多相关文章
相关文章▶

2023年上半年GDP全球前十五强
百态 2023-10-24

美众议院议长启动对拜登的弹劾调查
百态 2023-09-13

上海、济南、武汉等多地出现不明坠落物
探索 2023-09-06

印度或要将国名改为“巴拉特”
百态 2023-09-06

男子为女友送行，买票不登机被捕
百态 2023-08-20

手机地震预警功能怎么开？
干货 2023-08-06

女子4年卖2套房花700多万做美容：不但没变美脸，面部还出现变形
百态 2023-08-04

住户一楼被水淹还冲来8头猪
百态 2023-07-31

女子体内爬出大量瓜子状活虫
百态 2023-07-25

地球连续35年收到神秘规律性信号，网友：不要回答！
探索 2023-07-21

全球镓价格本周大涨27%
探索 2023-07-09

钱都流向了那些不缺钱的人，苦都留给了能吃苦的人
探索 2023-07-02

倩女手游刀客魅者强控制（强混乱强眩晕强睡眠）和对应控制抗性的关系
百态 2020-08-20

美国5月9日最新疫情：美国确诊人数突破131万
百态 2020-05-09

荷兰政府宣布将集体辞职
干货 2020-04-30

倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观：鹏程万里
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案神机营：射石饮羽
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山：拔刀相助
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案天工阁：鬼斧神工
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道：单枪匹马
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野：与虎谋皮
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野：李代桃僵
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野：指鹿为马
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案金陵：小鸟依人
干货 2019-11-12

倩女幽魂手游师徒任务情义春秋猜成语答案金陵：千金买邻
干货 2019-11-12

优化新思路：SEO查重算法 打造终极“伪原创”

优化新思路：SEO查重算法打造终极“伪原创”