如果是做企业网站的经常会遇到网页被克隆的问题,我做的企业google推广业务网就遇到不少相似度高达90%以上的网页,有的甚至无耻到只改了title的几乎完全复制(不想给这些无耻的家伙做免费广告,比一一列出),不少站长可能会对这些无耻的抄袭非常气愤,其实不必恼火,根据我在做企业google推广业务网的经验,大多数克隆网页都没有好的下场。
克隆网页的官方说法是网页相似度,是指网页的内容的相似程度,根据我的经验和一些官方给出的解释,当两个页面的相似度在80%以上时,很有可能被搜索引擎尤其是Google判断为抄袭页面或复制页面,从而不被收录,甚至降权、删除。
其实搜索引擎技术可以轻易把你网站的内容同其他站点的内容进行比较,一般以先收录的为模板,视为原创,而后来收录的如果与模板相似度非常高,就可能被视为抄袭,搜索引擎会进行惩罚。
现在流行一些开源的模板,很多站长为求方便都会使用,而漂亮的模板一般都会很多人选择,那网页相似度多少合适,根据个人研究和官方回答最好是低于60%,这样才会被搜索引擎认可,但我个人认为一般高于50%都很有可能不被搜索引擎收录。虽然主页并非设计得很漂亮,但都是本人和其他同事一起创作的结果,我经常会留意一些跟我的站点业务相同的网页,发现从搜索引擎中能够查到相似页面的企业站并不多,但是从论坛上和一些企业站的交换链接却发现不少,证明了这些站并不受搜索引擎的欢迎。
由于目前山寨盛行,不少人最关心的还是如何既高仿又会被搜索引擎收录,我认为目前搜索引擎技术虽然已经发展得很快,但是要完全分析2个站的相似度还是有一定的缺陷,搜索引擎目前对于图片还未能做到百分比识别,因此图片和布局的模范还是可行的,但是网站的关键字、栏目名称设置和description一定要原创,高仿也最好不要,这些直接关系到搜索引擎的抓取,主页内容的标题也要修改,这样会很大限度地避免一些过度相似而导致网站不被收录甚至降权的问题。
希望以上内容对大家有所帮助,如果不同意的请大家拍砖,希望在交流中能够互相进步。