网站怎么来吸引抓取
1.主流的搜索引擎是如何发现站点和网页?
搜索引擎都通过蜘蛛程序来搜索网络、收集网页、分配唯一标识、扫描文本并提交给索引程序。在扫描时,蜘蛛程序会吧抓取的网页中指向其他网页的超级链接提取出来,并依次抓取这些被指向的网页。(就像在我的网站http://www.ushangpin.com的友情链接一样,我做过一个实验,在下面添加自定义的一个页面,在下次快照更新的时候就会出现关于我自定义的页面)。
2.搜索引擎怎样发现你的站点?
从主流的搜索引擎总体来说有4种发现新站点的方法。第一就是最常见的将你的网址提交给搜索引擎,第二个是当搜索引擎从其他已索引的站点上发现本站点的链接,从而对其进行抓取。第三个是针对Google的,就是注册Google的站长工具,在确认后提交一份本站点的站点地图。第四就是从一张已经被索引的页面重定向到新页面(如301定向,以后我们会讲到)。新注册的网站最好不要用网址批量提交网站的软件,也不要多次向同一个搜索引擎提交同一个网址,这样会有不良的后果。
3.搜索蜘蛛对你的站点做了什么?
旦蜘蛛访问了你的站点,它会有顺序的抓取每个页面。当它发现了一跳内链就会记录下来,稍后或者在下一个访问时会抓取。最终蜘蛛会抓取整个站点。在以后的步骤里。我会介绍蜘蛛如何根据一个搜索查询来索引页面以供检索,而且我会解释每个被索引的页面是如何排名的。假如一个站点是一棵树,树根就是站点首页,目录就是树枝,页面就是树叶末端的树叶。蜘蛛的抓取就入宫养分的传输一样,从根部开始向上逐渐的到达每个部分,顺序的依据是根据PR值计算得到的重要性。如果这是一颗结构平衡合理的树,那么抓取就能均衡的抓取到他的枝枝叶叶(所以开始的时候说到一个网站模板的合理性,代码的编写都是有助于搜索引擎的收录)。
4.站点地图对收录的作用
站点地图就是一个HTML的页面,他的内容是这个站点上所有页面链接的顺序列表。良好的站点地图可以帮助访问者找到所需,并且使得搜索引擎可以利用站点地图来管理抓取行为。尤其是蜘蛛,可能会在多次访问后索引站点的全部网页,并且过后会经常来检查是否有更新。蜘蛛也会关注站点地图的级别个数(深度),并结合其他因素来判断PR值,即各个页面的权重。
5.站点结构和导航
不管你的新站还是你的老站,你都需要在站点的结构上下足功夫以吸引蜘蛛的抓取,你需要记住,每个页面的URL是蜘蛛在页面上遇到的第一个文本块。
5.1站点目录结构
尽可能的将你的站点深度限制在4个级别
首页-区域页-目录页-内容页
网站要有个运程的站点结构。下面实例的介绍下站点目录结构
优化文件名和扩展名
在网站整体里,每个页面自身的文件名也是优化的一部分,每个网页要尽可能的使用静态的.html的扩展名。