原创内容的判断搜索引擎的盲区

8月10日，百度站长门诊开放日，很多站长提到了网站原创内容被百度判定为转载，而把转载网站判定为原创的问题，而且lee也表示近期将会对网站原创内容的识别改进算法。详情见：8月10日百度站长门诊开放日问题集锦。

紧接着在8月11日，谷歌宣布将对搜索结果进行重大调整，降低侵权网站的排名，谷歌在收到版权持有人对网站大量侵权指控通知后，便会降低该网站在谷歌搜索结果中的排名。搜索引擎作为互联网最重要的流量入口，肩负着连结网站和用户的，用户、搜索引擎、网站成为一个互惠互利的共生系统。但是，作为搜索引擎难点的原创内容判断到底会对用户和网站造成什么影响?

用户篇：

用户早已习惯了通过搜索引擎寻找自己需要的信息，搜索引擎是用户的工具，一般用户也很少关心信息的来源，只关心信息本身是否满足需求。即绝大多数用户不在乎信息的创造者，也不在乎来源于哪个网站。如用户通过搜索引擎到达新浪或搜狐等大型网站，无形中就加强了对信息的信任度。即使该信息并非是大型网站的原创。

搜索引擎篇：

搜索引擎服务的对象是用户，而不是网站;搜索引擎的首要任务是为用户提供有价值的信息。一般用户不在乎信息的原创，但是，搜索引擎为了维护搜索结果的公平和整个网络环境秩序，必须在复杂的网络中判定原创和转载，对大量产生高质量原创内容的网站更高的权重和更好的排名，带来更多的流量;对大量转载抄袭的网站降权。但这一切的前提是搜索引擎能准确无误的识别原创和转载，不仅对百度，即使是谷歌，也没能做到让人满意的地步。

抛开技术背景，纯粹从常识的角度，首先想到的就是时间，原创肯定比转载的内容出现的要早。假设文章1由网站A原创，被新浪转载后，其他各大网站又纷纷从新浪转载，一时间网络上出现大量的转载。据统计，搜索引擎目前只发现收录了整个互联网大概30%的数据，而这已经是一个天文数字，在资源有限的情况下，搜索引擎无法做到实时监控整个互联网的信息，于是，新浪成为文章1的原创者。

其次，根据文章的版权的信息，越来越多的文章会带有版权说明，虽然很多无良的转载会去掉这段信息，但是，总会有人留下这段信息，蜘蛛根据文章的版权信息来识别原创和转载。理论上可行，事实上，很多无良的转载不仅去掉了原来的版权信息，甚至加上了自己的版权，这就造成了同一篇文章多个原创出处的现象。

另外，搜索引擎工作有抓取、分词、去噪、提炼关键词等过程，与文章内容并无多大关联的版权信息往往在去噪过程中就被剥离。即使搜索引擎调整算法，保留的版权信息，同样无法避免上述无良转载的困境。

网站篇：

网站既要保证自己产生大量的高质量信息来讨好搜索引擎，又要做好用户体验来挽留用户，还常常受到搜索引擎的欺负，就像一个受气的小媳妇。很多站长常常抱怨搜索引擎，却忽略了一点，搜索引擎的客户是用户，不是网站，搜索引擎并没有义务要给网站流量。

但是，搜索引擎的不公和技术缺陷，带来可怕的马太效应，大网站越来越强，小网站越来越弱。大网站随意抄袭依旧排名坚挺，流量不断。小网站辛辛苦苦的生产，最后却是为他人做嫁衣，排名没有，门可罗雀。

可以看到，搜索引擎的用户不在乎信息生产者，但是这却关系到搜索引擎上游客户——网站的死活，关系到整个互联网环境，也是搜索引擎必须要克服的盲区。

原创内容的判断 搜索引擎的盲区

原创内容的判断搜索引擎的盲区