在国际化的今天,使用UTF-8编码的网页已经越来越多,可搜索引擎百度为什么还是采用GB2312编码?Google的网页快照几乎没有乱码,百度的就不同了,朋友的QQ站www.qqqmd.com ,上线不到一个星期.GG和百度都收录了,可是我查看下首页的百度快照发现一个问题,百度抓取的首页里面根本一片漆黑,什么东西也没有,但GG显示是一切正常的,开始没什么在意,因为可能是缓存的问题而已,果然不到几天,百度快照也正常了,收录也正常,因为这站的文章几乎都是手工原创的,不少QQ站都来采集里面的内容,所以不到半个月,百度就收录1300页以上的页面了,IP也一直上涨中,但上星期,也就是7K7K小游戏被K的同时,qqqmd也出现了相同的情况,做站那么多年,可以说,qqqmd这站都是以用户为主的,因为我只是帮人建站,并不是管理者,管理者是位很负责任的女生。
在被K的第三天左右,这女生找到我并问我,为什么百度里SITE没了页面了,因为那里建站时,是用了UTF-8编码的网页来调用百度的搜索代码,所以她的站是用百度内置搜索的,从她口中了解到,她的站和7K7K小游戏被K是同一时间的,于是我想,7K7K小游戏会被K也许只有竞价的关系,当然也可能是数据丢失,带着疑问,我总结了一下以下几点:
1 使用utf-8编码的网站影响并不明显,但收录多了总会产生影响,理由是,帮客户建站无数,往往是utf-8编码的网站问题不是一般的多。
2 本身qqqmd是QQ签名类,火星文,繁体字数量多,对数据处理有一定影响。
3 网络故障,比如磁盘阵列架上的某条光纤出问题。再有就是单块硬盘出问题。那么一旦出现故障,存储在这台服务器上或者硬盘上的网站自然也就从搜索引擎的索引中消失了。对于百度这种大型的搜索引擎肯定会有专门的服务器硬件的维护团队。所以如果是单纯的索引问题或者网络问题那么应该不长时间就能恢复。也就是为什么很多朋友的站被K掉没两天又回复了。但如果是硬盘挂掉那这就很惨。现在的硬盘不管是服务器用的SCSI还是个人用的SATA质量似乎都不能和以前相比。加之现在.cn的站点泛滥,造成的负荷是不容忽视的。
4. 自身服务器不稳定。
5 一般好网站,转载的人多,外链数也比较难控制,尤其是新站,所以前期我并无要求她去发外链,她也是正常更新网站而已。
6 至于很多人一直说的什么百度人工干预网站收录什么的,我不赞成这些观点。百度并没有找你收费(那些打电话来找你要钱的也是百度在各个城市的代理公司,除了业务合作外,和百度其实没啥关系),为什么要投入那么多的人力来人工审核你的站点?你当他的员工不要工钱。
现在网络环境下,什么都SEO,什么都恶意优化,但试问,好的网站,会那么难区分吗,希望百度技术上有更好的成长,她的网站每天从google soso上也能来3千IP左右,所以,我只能告诉她失去百度,并不会失去网站本身的价值的,只要你坚持,你的付出总有一天得到所有人的认可的。