今天接到一个旅游网站客户的电话,电话内容大致是这样的“他的网站是2008年5份建设的,期间百度和谷歌的收录一直都不错,可今年3-4月份百度和谷歌的收录一直在减少,到五月的时候直接被百度K了,于是通过网站联系到我。”
在了解大概情况后(2月份网站换过空间),我做对网站做了全面检查,从域名、空间、robots.txt(搜索引擎机器人协议),title、keywords、description、页面布局、关键词密度、标签的应用、内链、锚链、外链、内容,等等应该检查的地方都检查了,除了部分线路文章跟别的网站有相同的情况以外,都没有检查出什么大的问题,我也郁闷了,会是什么原因导致百度K站呢?
不得已只能跟客户要FTP来,插入Google的网站管理员中心的诊断代码来分析网站,放好代码后点击验证,竟然返回了“404页面返回的是200代码”的提示,我晕~原来问题是出在这啊!!这样的错误将意味着什么呢?大家都知道,一个网站是无法避免输错地址、废弃的链接和错误的链接,碰到这样的请况,服务器就会返回404代码给搜索引擎爬虫,404代码是没有找到页面的意思,搜索引擎爬虫得到这个反馈信息就会放弃这个页面的抓取和收录,而200代码则是告诉搜索引擎确认可以收录这个页面的意思。
这样爬虫只要爬到无法访问的链接就会返回200代码让搜索引擎收录同一个404页面,那么爬虫就会认为网站有大量重复内容的页面,复制重复内容的页面是搜索引擎不允许的,轻则降权,重则K站。问题找到了,马上通知客户更正404页面的正确设置。方法:选择IIS里的网站>>属性>>自定义错误>>404>>编辑属性>>消息类型选择文件(一定要选择文件,不然就返回200代码了)>>浏览你的404文件>>确定。
网站优化就是做细节,404就是其中的一个细节。这是容易被忽视的一个问题,至少我就忽视了这个重要的细节,IIS默认的404页面是一个用户体验很差的页面,看到这个默认页99%都会选择关闭,而一个美观友好的404页面说不定就可以帮你挽回一个客户。
这是一个在线查询404页面返回代码是否正常的工具,要输入错误的链接进行测试,比如:www.ynsem.cn/错误链接。