Robots文件是搜索引擎访问网站时第一个要读取的文件,它告诉搜索程序服务器上哪些内容可以抓取,哪些不用抓取。
目前网站的robots文件里面的抓取规则已经日趋完善,比如禁止了网页中图片的抓取,禁止蜘蛛抓取一些会员隐私(个人简历)页面、一些无用页面(之前的推广页面)、样式表文件等,但是仍然有部分页面并不需要蜘蛛程序的抓取,这部分页面只是面向用户的,搜索引擎抓取了并没有什么意义,瓜分了页面的权重。
一、网站的404页面
每个网站都存在一些错误页面,404页面的存在就是为了当用户访问了错误页面的时候能够将用户引导到正确的页面上,防止网站流量的流失。而一个页面较多的网站肯定存在很多的错误页面,这就导致存在很多相似的404页面,例如http://www.daochengrc.com/404.html,http://www.yongjiangrc.com/404.html,
如下图所示:
所以,一旦404页面太多,而还让搜索引擎去收录,就会导致网站把权重分给这些404页面,所以应该屏蔽404页面。
添加规则:Disallow:/404.html
二、网站部分导航页面
网站底部的一些导航页面,如“市场合作”“网站声明”“付费方式”等都是针对客户的页面,几乎没有用户通过搜索引擎上搜索这些页面并到达网站,而且这些导航页面是全站显示的,所有的内容页面都存在,同样的也要分散这些页面的权重。
这部分页面都是位于同一目录/main下,该目录下除保留部分页面需蜘蛛进行抓取外,其他页面可以都禁止,保留页面为:“关于我们”(main/aboutus.asp),友情链接(main/friendlink.asp)。此外“资费标准”“付费方式”页面位于企业会员中心页面,这些页面也没有必要对搜索引擎开放。
添加规则:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
将现有规则中最后一条删除:disallow: /main/refuse*
将新添加的两条“Allow”规则放到disallow命令的前面。
通过一些对搜索引擎抓取意义不大的页面,将首页和一些内容页面的权重更加集中。
版权所有,伍亿人才招聘网http://www.51rc.com,转载请注明出处。