虽然我现在并没有对SEO胡思乱想的收录和反向链接数量做一个详细的记录,但每天还是会去通过 site 指令观察网站的收录情况,我发现这段时间博客的百度收录并没有提高,最近更新的内页都没有收录,甚至删除了对分类页面的索引。百度了下“百度不收录内页”,发现也有很多朋友在网站优化的过程中也遇到了类似的问题,所以我就把网络上现存的资料结合我的一些想法来分析下引起百度不收录内页这种现象的原因。
域名的历史因素
判断下我们的网站域名在过去是否有人使用过,这个可以通过查询网站的反链接,通过domain 指令判断是否存在记录以及通过 http://web.archive.org/web/ 这个网站判断之前的域名历史情况。更为详细的可以查看"判断域名是否被K过的三个方法总结"
同ip 站点连带因素
查询同ip下的网站,观察这些网站是否有存在类似si 服,xx,赌博这类搜索引擎排斥的网站,这些网站的近期收录情况以及权重的初步判断。如果发现这些网站也存在类似的问题,那么说明百度已经对这个服务器 ip 不信任,并采取了遏制的措施,应该准备转移网站到另外一个服务器或者空间上了。
robots文件和meta robots限制
查看我们网站根目录下的 robots 文件,是否限制了百度蜘蛛的索引,如果 robots 文件并不存在问题的话,也不要忘记观察网页上的meta robots 属性。尤其是启用了seo 插件的wordpress 站点,比如说all in one seo 这个插件的设置选项里面,就有noindex category 的选项,如果开启了这个选项,那么蜘蛛爬行到博客分类页面的时候,就会follow 页面上的链接,但是并不索引分类页面。
网页内容质量问题
我们都知道,搜索引擎蜘蛛喜欢的是新鲜的,丰富的网页内容,而如果我们的网站内容基本上都是从别的网站转载过来的,甚至是采集过来的,那么网页不被收录也是情有可原的。互联网上存在的无穷无尽的网页,而且还在以庞大的基数扩张,搜索引擎想要返回给用户好感兴趣的,真正需要的信息,就必须保持索引库中的网页尽量有意义,收录重复页面只会让搜索引擎的索引库增多而并不能提高检索精确率。同时,就像我在第二点中提到那样,搜索引擎排斥违法的,不良信息类型的站点,我们不应该把这些内容填充到网站上去。
导出链接
观察我们网站的导出链接是否有死链接,错误链接,甚至有被百度K掉的网站链接,在搜索引擎排名机制中显示,当我们的网站存在链接指向一个页面的时候,默认就相当于对这个网页投了赞成票,而如果我们对百度认为的不良站点使用我们的投票权利,那么被百度惩罚也是正常的。一般来说,内页的导出链接并不会对整站产生影响,所以当我们在首页中增加链接的时候,必须注意首页指向的网页是被百度所认可的,如果是权威性的页面就更好了。
蜘蛛”陷阱“
蜘蛛抓取页面是基于链接的,如果我们的网站里面存在一些阻止蜘蛛爬行的代码或者是链接中带有过多容易让蜘蛛迷失的参数的时候,蜘蛛无法继续通过链接抓取页面,自然也就无法收录内页。最典型的比如说,flash类型的网站,链接通过js脚本调用的网站,或者是嵌套过多表格的网站。
优化过度
优化过度这点可能很多人会忽略掉,百度对 SEO 的态度虽然说有一定的改变,但是对那些处理过度的,明显表示截取搜索流量的网站进行审核和降权的态度肯定是不会改变的。在上篇网站标题(title)书写方法一文中提到的不要在网站标题中堆砌关键词也是出于同样的考虑。
总结了以上几点,我们应该根据网站分析情况结合log 日志数据,对网站进行相应的处理,相信一段时间之后,就能够解决百度不收录内页这种情况,大量提高网站的收录率。过几天我会把SEO胡思乱想的评测分析和操作结果做一个记录分享出来。
本文由SEO胡思乱想原创 www.seoguess.info 请尊重原创作者的劳动成果 谢谢!