书接上文,网站上线的第二天,也就是12月20日下午5点,百度的爬虫就过来了,注意这个时候我没有在互联网上提交任何关于网站的信息。
谷歌的爬虫稍微晚一点,在21日的中午1点钟。
此时我并没有提交任何信息,但他们的爬虫还是来,弄的我措手不及,这个时候我的域名非www的301跳转还没有做,url静态转发也没有做,所以造成了现在百度site的时候会出现不带www的域名,这样的话会分担我主域名的权重。但没有办法。
反思百度和谷歌新站的发现机制,可能有根据备案信息抓取这一条。我的站是在上线前完成备案的,备案提一下,需要当场照相的那几个省份的,就不要备了,太慢了,而且审核很严,我一个朋友北京备案,花了20天+20天又+20天都没备案下来。
还有一个建议就是在网站上线时,要把所有的准备工作做好,比如关键字、url规划。不然可就得不偿失了。
其他的搜索引擎,是在提交网站入口之后2-3天派爬虫过来的,一并发出来纪念一下。
搜狗
搜搜
有道
雅虎
主流的搜索引擎都来过了,咱们的流量80%都来自这些搜索引起,爬虫过来了,就要好好款待。
就百度、谷歌、雅虎的爬虫爬行规律上看。可以确定,有多个分工明确的爬虫,有新站发现爬虫、robots探测爬虫、判断是否需要抓取爬虫、抓取内容爬虫。
对新站收录比较重要的有,robots探测和是否需要抓取爬虫。
对新站权重比较重要的有,判断是否需要抓取和内容抓取爬虫。
比如抓取内容爬虫,是根据上级爬虫分析出的连接进行爬取,一定不要出现类似500的错误,还有一个就是网站访问速度。下图红框里面的数字,单位是微秒。
新站的爬虫访问规律很值得研究,有机会我会在作为一个专题在A5与大家分享。今天就分享到这里,接下来会和大家一起分享新站搜索引擎收录方面的情况,敬请期待。明天就要回家了,真高兴,希望放爆竹的时候可能赶到家!在这再祝福一下所有的站长和A五的工作人员,新年快乐!阖家幸福!
本系列文章由阿土伯爆笑笑话(http://www.artubo.com)站长撰写,首发A5,转载请留链接