一般而言,我们把网站内容重复问题主要分为两种情况:站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。
第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。
如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。
有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。
检查您的网站是否符合网站管理员指南。最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。