什么是网站信息采集?
网站信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程。当你看到一些好的文章,而这些文章又是很多,这个时候有些人就会想到,复制过来挺麻烦的,直接采集过来也就是几分钟的事情,在网络信息浩如烟海的今天,如何有效挖掘网络信息资源,如何收集企业外部大量的有效信息,对于站长们来说这个至关重要。
首先还是举例说明
我在2010年的时候开始运营考试网门户:www.exam66.cn这个网站,这个域名注册的时间比较久,算是一个老站了,是我一个朋友3年前注册的,后来他注册公司了,这域名也就没管了,我就买了过来,收录只有首页,快照也比较旧,当时我也是做站不久,算是懂一点皮毛;第一步我先是把网站先建立起来,然后就是内容方面了,开始的时候还是每天伪原创,每天30-50左右,坚持了两个多月,收录慢慢涨到几百页,后来一看人家那些大网站收录都是几百万的,流量又特别大,感觉合适才能和人家比,合适流量才能大起来,渐渐的我也开始采集了,刚开始采集的时候每天100-300篇,采集了一个多周,不见百度收录,我想可能是文章质量问题,然后就慢慢把采集过来的文章又重新编辑,加上一些自己的话语,使文章的质量又一步一高,就这样观察了两个周左右,果然被收录了,而且之前采集的信息全部被收录了,就这样我的贪念之心就起来了,每天采集的数量开始增加从100-300涨到300-500,持续了一个多月收录涨到了一万多,那时候确实挺高兴的,一直觉得收录越高,网站就越牛,又采集了一段时间,当收录涨到5万多的时候,流量已经达到5000多了,渐渐的感觉到人心不足蛇吞象,就这样一直采集收录涨到了13万,慢慢的流量竟然下降了,从每天持续5000以上的ip下降到百度搜索引擎占几十个iP,其他全部是谷歌的,当时我真的是晕了,第一时间感觉就是被百度惩罚了,然后接下来的几天里就没采集了开始伪原创,手工加文章,就这样过了几天百度竟然只剩下几个IP了,这时候我才感到网站的末日到来了。
采集有益
采集能使一个网站的收录在短时间内得到大幅度的提升(前提是你网站的权重要足够高),能够网络大部分的流量,抓住其他竞争对手的流量。
采集有害
大量的采集,会让百度认为你这站里面根本就没有客户想要的资料,纯属一垃圾站,如果你今天采集一百篇,明天采集两百篇,后天又不采集了,这样就属于更新频率不均匀,百度就要关注你了。
结论
采集的信息需要与网站的主题相关比较好,如果你的站是刚刚建立的,劝你少采集一些或者手工来加;权重高一点的网站你最好定一个主题,相对于比较泛泛的网站,专业度比较强的网站更好一些。其实网站的内容相关性还是比较重要的,如果你网站的内容很强,即使在seo方面做的是很好也可以有一个比较好的表现,毕竟在网站排名算法里,网站内容是最重要的一个方面;整个网站内容或者是大部分内容都是采集的,影响很大。如果你继续采集,搜索引擎就会认为你是一个低质量的采集站,这样以后你的收录更困难。所以从现在开始要不断坚持原创或高质量的伪原创,以前收集的也不要删了,以免做太大的改动;最好挑选出很多网站来进行采集,不要抓住一个网站去每天采集,这样下来你的网站大部分内容就和这个网站的一部分内容相似了,这样也是不好的;采集是可以的,但是在适当的写一些伪原创和原创的文章进去,这样也是可以的,不过本人建议还是不要采集,毕竟没有苦头也是尝不到甜头的。
上面说的这些都是我采集信息到现在的一些体会和经验,希望对新手朋友有所帮助,坚持了两个多月的伪原创和发外链,到现在我的网站慢慢有点恢复了,流量也慢慢涨到4000多了,有交流的可以加我QQ:446405905(元少)