| 導購 | 订阅 | 在线投稿
分享
 
 
 

Maoseomao:深入了解搜索引擎原理第一課

來源:互聯網  2011-12-05 10:48:53  評論

Maoseomao 第一堂搜索引擎原理課程,主要介紹搜索引擎爬蟲(或者叫機器人,蜘蛛)是如何代替人工收集信息的。

搜索引擎基礎

何爲搜索引擎?搜索引擎(國外的代表google,國內的代表百度),利用程序在互聯網上抓取網站信息,把抓取回來的信息進行分類整理,供訪問搜索引擎的互聯網用戶搜索和關鍵詞相匹配的信息。

比如:您想買一款手機,您可以直接在搜索引擎中輸入關鍵詞(諾基亞),在0.1秒之內,搜索引擎會返回出售諾基亞的網站列表,這個網站列表是經過搜索引擎嚴格篩選得出的結果。搜索引擎在給這個關鍵詞(諾基亞)進行網站排名時,會采用自己一套算法,這套算法也是這些搜索引擎公司的絕密文件。

搜索引擎如何抓去信息

搜索引擎初期,由于互聯網信息並不是很多,所以許多搜索引擎收錄信息完全依靠人力,許多編輯,每天不停的訪問互聯網的各個網站,把自己認爲比較好的網站進行收錄。但是隨著互聯網時代的到來,互聯網網站爆炸式增長,人工收錄網站信息已經是完全不可能,所以這些搜索引擎就編寫了抓去互聯網信息的程序,就叫搜索引擎爬蟲,機器人,或者蜘蛛。

下面筆者以世界著名的google搜索引擎爲例,來說一說爬蟲是怎麽代替人工收集整理網站信息的(大部分搜索引擎都是按照這種方法來收集信息的)。

更新爬蟲

Google搜索引擎可以同時派出N多個爬蟲,同時訪問互聯網,如果發現新的信息就會放到自己所帶的數據庫中,我們把這種爬蟲稱之爲“更新爬蟲”。更新爬蟲能夠根據互聯網上的URL地址,不停的以“光速”爬行,一旦自己所帶的數據庫裝不下更多的信息時,它們會返回谷歌所提供的單獨數據庫,把自己所帶的信息扔在裏面,然後又出來接著收集信息。

由于更新爬蟲自身所帶的倉庫容量有限(google更新爬蟲應該是100KB容量),所以許多seo建議在制作網站時,每一個頁面控制在100KB以內。如果網頁大小超過了100KB,剩余的網頁信息,更新爬蟲是無法一次性帶走的。

對于沒有被google主索引收錄的頁面,由于更新爬蟲是和google主索引一起提供搜索結果的,所以您會看見自己的網站信息很快出現在搜索結果中,又很快的消失,直到一段時間後又在google主索引中出現。

對于已經被google主索引收的頁面,刷新爬蟲取得這個頁面的更新後,關于該頁面的更新會出現在搜索結果中,但是過幾天該頁面的更新會退回到沒有更新之前,直到深度爬蟲進行深度爬行之後,更新的頁面就會完全被顯示出來。

深度爬蟲

深度爬蟲的主要任務是訪問google主索引中已經存在的網站,進行整體的服務器更新,目前google深度爬蟲幾乎可以每天更新一次,所以如果不注意觀察是根本察覺不到的。但是百度深度爬蟲的時間就要長一點,大概是一周進行深度爬行一次,所以許多做百度的seo,都盼望百度深度爬行,因爲百度深度爬行,就意味著,自己的上一周的工作將被百度肯定。

今日回顧

更新爬蟲每天都在互聯網上忙碌,力求收集更多更新的網站信息,在收集信息時,由于更新爬蟲自身所帶的數據存儲量的限制,所以更新爬蟲不能完全帶走超過自身數據限制的網頁內容,這也是許多seo爲什麽要把網頁壓縮到最小的原因。

深度爬蟲訪問搜索引擎主索引之後,就意味著,網站關鍵詞排名的大調整,只有經過深度爬蟲更新後的搜索結果才能算是基本穩定的搜索結果。

下期預覽

今天我們以google搜索引擎爲例,講解了搜索引擎的2個最主要的爬蟲(更新爬蟲,深度爬蟲),希望能夠幫助到各位新手seo理解搜索引擎收錄。下一節我將講解搜索引擎的工作流程,希望各位能夠注意。

本文由陝西基石廣告有限公司原創 http://www.jishiguanggao.com 版權所有,謝謝合作

  Maoseomao 第一堂搜索引擎原理課程,主要介紹搜索引擎爬蟲(或者叫機器人,蜘蛛)是如何代替人工收集信息的。   搜索引擎基礎   何爲搜索引擎?搜索引擎(國外的代表google,國內的代表百度),利用程序在互聯網上抓取網站信息,把抓取回來的信息進行分類整理,供訪問搜索引擎的互聯網用戶搜索和關鍵詞相匹配的信息。   比如:您想買一款手機,您可以直接在搜索引擎中輸入關鍵詞(諾基亞),在0.1秒之內,搜索引擎會返回出售諾基亞的網站列表,這個網站列表是經過搜索引擎嚴格篩選得出的結果。搜索引擎在給這個關鍵詞(諾基亞)進行網站排名時,會采用自己一套算法,這套算法也是這些搜索引擎公司的絕密文件。   搜索引擎如何抓去信息   搜索引擎初期,由于互聯網信息並不是很多,所以許多搜索引擎收錄信息完全依靠人力,許多編輯,每天不停的訪問互聯網的各個網站,把自己認爲比較好的網站進行收錄。但是隨著互聯網時代的到來,互聯網網站爆炸式增長,人工收錄網站信息已經是完全不可能,所以這些搜索引擎就編寫了抓去互聯網信息的程序,就叫搜索引擎爬蟲,機器人,或者蜘蛛。   下面筆者以世界著名的google搜索引擎爲例,來說一說爬蟲是怎麽代替人工收集整理網站信息的(大部分搜索引擎都是按照這種方法來收集信息的)。   更新爬蟲   Google搜索引擎可以同時派出N多個爬蟲,同時訪問互聯網,如果發現新的信息就會放到自己所帶的數據庫中,我們把這種爬蟲稱之爲“更新爬蟲”。更新爬蟲能夠根據互聯網上的URL地址,不停的以“光速”爬行,一旦自己所帶的數據庫裝不下更多的信息時,它們會返回谷歌所提供的單獨數據庫,把自己所帶的信息扔在裏面,然後又出來接著收集信息。   由于更新爬蟲自身所帶的倉庫容量有限(google更新爬蟲應該是100KB容量),所以許多seo建議在制作網站時,每一個頁面控制在100KB以內。如果網頁大小超過了100KB,剩余的網頁信息,更新爬蟲是無法一次性帶走的。   對于沒有被google主索引收錄的頁面,由于更新爬蟲是和google主索引一起提供搜索結果的,所以您會看見自己的網站信息很快出現在搜索結果中,又很快的消失,直到一段時間後又在google主索引中出現。   對于已經被google主索引收的頁面,刷新爬蟲取得這個頁面的更新後,關于該頁面的更新會出現在搜索結果中,但是過幾天該頁面的更新會退回到沒有更新之前,直到深度爬蟲進行深度爬行之後,更新的頁面就會完全被顯示出來。   深度爬蟲   深度爬蟲的主要任務是訪問google主索引中已經存在的網站,進行整體的服務器更新,目前google深度爬蟲幾乎可以每天更新一次,所以如果不注意觀察是根本察覺不到的。但是百度深度爬蟲的時間就要長一點,大概是一周進行深度爬行一次,所以許多做百度的seo,都盼望百度深度爬行,因爲百度深度爬行,就意味著,自己的上一周的工作將被百度肯定。   今日回顧   更新爬蟲每天都在互聯網上忙碌,力求收集更多更新的網站信息,在收集信息時,由于更新爬蟲自身所帶的數據存儲量的限制,所以更新爬蟲不能完全帶走超過自身數據限制的網頁內容,這也是許多seo爲什麽要把網頁壓縮到最小的原因。   深度爬蟲訪問搜索引擎主索引之後,就意味著,網站關鍵詞排名的大調整,只有經過深度爬蟲更新後的搜索結果才能算是基本穩定的搜索結果。   下期預覽   今天我們以google搜索引擎爲例,講解了搜索引擎的2個最主要的爬蟲(更新爬蟲,深度爬蟲),希望能夠幫助到各位新手seo理解搜索引擎收錄。下一節我將講解搜索引擎的工作流程,希望各位能夠注意。   本文由陝西基石廣告有限公司原創 http://www.jishiguanggao.com 版權所有,謝謝合作
󰈣󰈤
王朝萬家燈火計劃
期待原創作者加盟
 
 
 
>>返回首頁<<
 
 
 
 
 熱帖排行
 
王朝網路微信公眾號
微信掃碼關註本站公眾號 wangchaonetcn
 
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有