Maoseomao：深入了解搜索引擎原理第一课

Maoseomao 第一堂搜索引擎原理课程，主要介绍搜索引擎爬虫(或者叫机器人，蜘蛛)是如何代替人工收集信息的。

搜索引擎基础

何为搜索引擎?搜索引擎(国外的代表google，国内的代表百度)，利用程序在互联网上抓取网站信息，把抓取回来的信息进行分类整理，供访问搜索引擎的互联网用户搜索和关键词相匹配的信息。

比如：您想买一款手机，您可以直接在搜索引擎中输入关键词(诺基亚)，在0.1秒之内，搜索引擎会返回出售诺基亚的网站列表，这个网站列表是经过搜索引擎严格筛选得出的结果。搜索引擎在给这个关键词(诺基亚)进行网站排名时，会采用自己一套算法，这套算法也是这些搜索引擎公司的绝密文件。

搜索引擎如何抓去信息

搜索引擎初期，由于互联网信息并不是很多，所以许多搜索引擎收录信息完全依靠人力，许多编辑，每天不停的访问互联网的各个网站，把自己认为比较好的网站进行收录。但是随着互联网时代的到来，互联网网站爆炸式增长，人工收录网站信息已经是完全不可能，所以这些搜索引擎就编写了抓去互联网信息的程序，就叫搜索引擎爬虫，机器人，或者蜘蛛。

下面笔者以世界著名的google搜索引擎为例，来说一说爬虫是怎么代替人工收集整理网站信息的(大部分搜索引擎都是按照这种方法来收集信息的)。

更新爬虫

Google搜索引擎可以同时派出N多个爬虫，同时访问互联网，如果发现新的信息就会放到自己所带的数据库中，我们把这种爬虫称之为“更新爬虫”。更新爬虫能够根据互联网上的URL地址，不停的以“光速”爬行，一旦自己所带的数据库装不下更多的信息时，它们会返回谷歌所提供的单独数据库，把自己所带的信息扔在里面，然后又出来接着收集信息。

由于更新爬虫自身所带的仓库容量有限(google更新爬虫应该是100KB容量)，所以许多seo建议在制作网站时，每一个页面控制在100KB以内。如果网页大小超过了100KB，剩余的网页信息，更新爬虫是无法一次性带走的。

对于没有被google主索引收录的页面，由于更新爬虫是和google主索引一起提供搜索结果的，所以您会看见自己的网站信息很快出现在搜索结果中，又很快的消失，直到一段时间后又在google主索引中出现。

对于已经被google主索引收的页面，刷新爬虫取得这个页面的更新后，关于该页面的更新会出现在搜索结果中，但是过几天该页面的更新会退回到没有更新之前，直到深度爬虫进行深度爬行之后，更新的页面就会完全被显示出来。

深度爬虫

深度爬虫的主要任务是访问google主索引中已经存在的网站，进行整体的服务器更新，目前google深度爬虫几乎可以每天更新一次，所以如果不注意观察是根本察觉不到的。但是百度深度爬虫的时间就要长一点，大概是一周进行深度爬行一次，所以许多做百度的seo，都盼望百度深度爬行，因为百度深度爬行，就意味着，自己的上一周的工作将被百度肯定。

今日回顾

更新爬虫每天都在互联网上忙碌，力求收集更多更新的网站信息，在收集信息时，由于更新爬虫自身所带的数据存储量的限制，所以更新爬虫不能完全带走超过自身数据限制的网页内容，这也是许多seo为什么要把网页压缩到最小的原因。

深度爬虫访问搜索引擎主索引之后，就意味着，网站关键词排名的大调整，只有经过深度爬虫更新后的搜索结果才能算是基本稳定的搜索结果。

下期预览

今天我们以google搜索引擎为例，讲解了搜索引擎的2个最主要的爬虫(更新爬虫，深度爬虫)，希望能够帮助到各位新手seo理解搜索引擎收录。下一节我将讲解搜索引擎的工作流程，希望各位能够注意。