这是一个真实的故事,时间发生在几月前。起因QQ上一位朋友向ranch咨询她的一个网站百度为什么不收录?初步查看了下这个站的一些信息,site和domain没有数据,查看域名的注册时间,一个月之前注册的,谷歌已经收录了90来条数据,打开网站后,是个企业站,建站为了节省时间,一些关键位置部分如底部版权信息等都直接用图片来代替,总体版面文字稀少,alt标签缺失。我继续打开了内页的企业简介页面,和首页相似度达到了80%以上。查看下蜘蛛文件,果然没有。再查看下外部链接,只有几个B2B平台的链接。为了更仔细的分析,ranch向对方请求到网站的蜘蛛排名日志文件,从中确信百度蜘蛛未抓取到网页字节,且在访问robots文件时留下404错误的状态码(表示该文件不存在)。
ranch在看完之后,建议对方对网站做如下修改。
1、增加首页文本的内容,减少与内页面的雷同度。
2、将底部的图片换成文字,添加好网站所在地地址,联系方式,版权信息,备案信息等
3、添加robots.txt文件,同时可制作网站地图,在robots.txt中添加sitemap:网站地图url,方面百度蜘蛛爬行
4、也是最关键的一步。利用论坛签名,软文,留言,老站资源等给网站添加外部链接。如果这些资源都没有,那么只能每天手工向百度提交几次。
大概半个月后,百度终于收录,因为这位朋友没有什么链接资源,只能采用手工向百度提交的方式来使网站收录。这个案例中笔者已经将百度收录的一些常见原因和方法都写进去了。但是解决关于百度收录的所有疑惑,ranch还需要更深入的来分析百度。
虽然搜索引擎的算法是搜索引擎的核心,但多年的SEO实践和众多seoer的努力,我们还是能略微窥测到一些。一个公认的事实是百度对于原创文章判定更加严格,因为其有一套核心的分词系统,更能理解文章的内容(百度的分词以及如何识别文章内容笔者在分析SEO关键词密度应如何分布这篇文章有一定的分析),同时更能理解国人的思维方式,譬如采集站(比较下发布时间就知道是不是采集了)。百度为什么不收录?不外乎三个原因:一是不值得,你的内容我的数据库中有很多了;二是不愿意,收录了可能会给我带来麻烦(敏感信息,违法信息等);三是不能够,你的网站自身原因(程序代码,服务器硬件等)让我想收录也收录不了。
处理了这三点,最终来检验我们是否正确还是看最终是否被收录。多长时间收录是一个正常的时间呢?15天到2个月内ranch都认为这是一个正常的范围。当然如果你有资源且运气不错,1天收录也不觉得奇怪。还是哪句话,做好我们自己网站的内容,如果我们的内容够优质,百度不收录,那是百度自己的损失,ranch认为,做站如做人,当有这份尊严和自信。