浅析搜索引擎对页面的收录

如何避免重复性收录

在互联网中，信息的重复是在所难免的。然而，搜索引擎怎么样才能识别重复的信息呢?怎样判断哪些网页的信息室原创，哪些是“复制”的?哪些重复的信息室有价值的，哪些又是可以舍弃的?下面大敏给各位分享下自学后得出的答案。

一个网站里，重复信息主要包括转载内容及镜像内容这两种，搜索引擎在对页面进行分析时，必须具备识别重复信息的能力。因为，存储大量的重复的信息，不仅给服务器增加负担，而且还会给用户体验造成影响。但这不意味着所有重复信息都是没价值的，搜索引擎认为转载内容不如原创内容重要，赋予原创性的内容页面有着更高的权重，而镜像内容则几乎被忽略

转载页面

转载页面是指那些与原创页面的正文内容(搜索引擎通过算法，清楚文章页面多余的信息，例如：广告，图片，侧边栏，然后，就得到正文内容)相近或相同的页面。然后，搜索引擎如何识别转载页面呢?首先，把正文内容分为N个区域，如果有M个区域(M是搜索引擎指定的一个阈值)是相同或者相似的，则搜索引擎认为这些页面互为转载内容，

如下图，页面一与页面二是不同网站上的两个页面，其中页面1中的A和页面2上的B分别是这两个页面上的正文内容。为了识别这两个页面是否互为转载页面，搜索引擎先把这两个页面的正文内容分成四个区域进行比较。假设这四个区域中有3个是完全相同或者相似的，则认为这两个页面时互为转载的。

在确定页面是否为转载页面后，接下来，搜索引擎再结合页面的最后修改时间(搜索引擎在抓取页面时已经存储的附加信息，下在一节《搜索引擎工作原理- 搜索引擎对页面的收录(三)》)、页面权重等因素判断是原创页面还是转载页面。

镜像页面

内容完全相同的页面互为镜像页面。要想判断页面是否互为镜像页面，搜索引擎首先把这些页面分成N个区域进行比较，如果这N个区域的内容完全一样，则认为这些也页面互为镜像页面。然后再综合页面权重值，页面最后修改时间，判断哪个才是源页面，哪个是镜像页面。

如下图，页面一及页面二，是不同的网站上的两个页面。把这两个页面分成三个区域进行比较(即A-1、A-2、A-3和B-1、B-2、B-3)，如果这三个区域的页面内容完全一致，则认为这两个也米娜互为镜像页面

镜像网站

镜像网站是指内容完全相同的网站，形成镜像网站主要有两种情况：第一种是多个域名或IP指向同一服务器的同一目录：另外一种是整个网站内容被复制到时用不同域名或者IP的服务器上。

为了识别站点是否互为镜像网站，搜索引擎首先判断这些网站的首页以及与首页直接连接的页面是否互为镜像也米娜。如果是，则互为镜像网站。然后综合网站权重值、建立时间等)识别哪个是源网站，哪个是镜像网站。这样，以后抓取页面就集中在源网站进行，这就是为什么一些镜像网站被搜索引擎舍弃，或者收录少的原因。

原创文章如转载，请注明原文链接 http://songel.com/archives/73.html