今天回顾检查近期的收录结果,发现搜索引擎还是始终收录3月中发的那篇测试文章,而新的页面,无论原创还是伪原创一概不收录,仔细一检查发现是后台的sitemap插件有设置问题,已经修改好。然后突然发现自己的robots.txt写法似乎存在问题。
User-agent: *
Disallow:Sitemap: http://www.isongxia.com/sitemap.xml.gz
使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,网上此类的学习帖非常之多。@老乐的写法我认为比较不错。
最简单的严格写法
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。
@宋夏的写法
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.isongxia.com/sitemap.xml.gz
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
robots.txt的详细写法之wordpress博客(二):http://www.isongxia.com/robots-txt-2.html
【宋夏的网络推广成长博客】本文地址:http://www.isongxia.com/robots-txt-1.html(转载敬请保留)