| 導購 | 订阅 | 在线投稿
分享
 
 
 

兔子寶貝:揭密百度MP3的搜索原理

來源:互聯網網民  2011-12-05 09:32:28  評論

喜歡音樂的朋友,一定經常使用百度的“MP3搜索”。確實,百度的“MP3搜索”給我們帶來很多的便利。新生力網絡營銷團隊成員之一兔子寶貝,一直在觀察互聯網搜索引摯。同時,今天我又百度了一下“百度MP3搜索原理”,發現有很少朋友觀注這一方面。經過思考、觀察、實踐,今天寫下《兔子寶貝:揭密百度MP3搜索原理》一文,希望和大家交流。合理使用“MP3搜索”,帶來流量是可行的。同時,兔子寶貝提醒的是此篇文章,只代表個人觀點,文明評論,請勿唾罵,抛磚引玉。百度的“MP3搜索”可以實現多種格式的搜索,不僅局限地MP3格式,“百度MP3”只是一種對音樂格式文件搜索的一種代名詞。可以實現搜索MP3 、 MP2 、 MOD 、WAV 、 VOC、 wma 等音頻格式。這些是能夠實現的,經常筆者的實踐過。下面,筆者分析一下,百度是如何實現MP3的搜索的呢?我會以實際的例子舉例說明這一問題。在百度的“MP3搜索”中輸入“朋友”如下圖所示:

兔子寶貝:揭密百度MP3的搜索原理

經過習慣的思維,百度在抓取音樂時,有關鍵詞,經過兔子寶貝的100次反複實驗,在百度搜索時,並未出來這一規律。換句話說,百度的“MP3搜索”結果與網頁附近的詞語(包括名詞、形容詞、動詞等)不存在任何關系。即不存在正向、逆向、統計等匹配情況。據此,如果像正常網頁和圖片一樣的優化方法,在百度MP3中並不好使。兔子寶貝爲了細心,測試了100首音樂,在試聽的時候,並沒有一首與主題不符的音樂。這說明,百度的“MP3搜索”的正確率不說100%,應該正確率非常高,至少兔子寶貝並沒有發現出錯。如果,不是根據網頁內容附近的詞進行識別,那麽,按照常理,就是按照音樂的名字進行識別。比如,你搜索“朋友”,百度就返回以文件名中出現“朋友”二字的音樂文件,如:朋友.mp3,朋友.wma,朋友的心.mp3,朋友的心.wma。越靠近關鍵詞越靠前,權重越高越靠前。但是,這種思維,經常兔子寶貝的多次實驗,得到否定。下面,兔子寶貝以圖爲證。

首先觀察百度MP3搜索的多路資源來路圖:

兔子寶貝:揭密百度MP3的搜索原理

觀察資源來路有四處。觀察文件名並不是以“朋友”爲關鍵詞中心出現文件名。下面再觀察播放音樂時,資源來路圖,再次證明。

播放時,資源視圖:

兔子寶貝:揭密百度MP3的搜索原理

播放時,文件名不是以“朋友”爲關鍵詞中心出現文件名。下面再觀察點擊音樂下載,資源來路圖。

兔子寶貝:揭密百度MP3的搜索原理

觀察,在下載的時候,文件名不是以“朋友”爲關鍵詞中心出現文件名。 這樣一來,更加否認我們剛開始的猜想,以文件名做爲搜索的依據,因爲文件名不是以歌曲名做爲文件名。經過以前多次實踐分析出:百度MP3搜索結果並沒有出錯,准確率很高。不是依靠網頁內容等進搜索。不是依靠文件名進行識別。當然百度這種搜索技術,是機密性的。經過兔子寶貝的思考和從信號處理角度講的話,分析百度的“MP3搜索”是如何操作的。步驟如下:

第一步:人工進行音樂選取。選擇出正確的音樂,做爲原始資料。注意,這是人工處理。這種選取地不一定,不一定在互聯網上選取。

第二步:人工提取到原始的音樂資料進行計算數字化處理,進行數字化,采樣,量化。對音樂信號進行頻譜分析,取樣,量化。做爲百度搜索的最根本的依據。

第三步:百度使用蜘蛛程序,對互聯網上的音樂進行抓取。

第四步:抓取回音樂後,利用程序對音樂進行數字化處理,采樣,量化,包括對頻域和時域名的分析,處理。

第五步:比對。百度利用原始資源去比對取後音樂的信息。兩者信息越近,兩者音樂越靠近,達到一定程序就是相同音樂。

第六步:找到相同音樂,百度很聰明。涉及到版權問題,百度並不保存音樂,只是保存音樂路徑。因此,網友在百度搜索時,就能搜索不同路徑,和用戶相同要求的音樂。

綜上所述,我只是想出了思路。具體怎麽處理,是相當複雜。因此,給做音樂資源網的朋友幾條優化建議。

一、音樂網站要像一般網站一樣優化。因爲用戶搜索音樂,不僅依靠百度的“MP3搜索”。更多的是利用百度的“網頁搜索”。

二、音樂資源不能做假。如果與實際不相符的音樂,百度會自動識別。百度的識別技術很先進。

三、在百度的“MP3搜索”排名是和網站的權重,鏈接速度等有關。

四、合理使用“MP3搜索”帶來流量。

以上就是兔子寶貝對百度“MP3搜索”的想法。以上只代表個人觀點,不做爲任何依據。文明評論,請勿唾罵。新生力網絡營銷團隊成員之一兔子寶貝繼續關注互聯網搜索引擎技術,希望和大家交朋友。

原文地址:http://www.tuzibaobei.net/post/17.html (原創文章,A5首發,歡迎轉載,保留版權!)

 
特别声明:以上内容(如有图片或视频亦包括在内)为网络用户发布,本站仅提供信息存储服务。
 
  喜歡音樂的朋友,一定經常使用百度的“MP3搜索”。確實,百度的“MP3搜索”給我們帶來很多的便利。新生力網絡營銷團隊成員之一兔子寶貝,一直在觀察互聯網搜索引摯。同時,今天我又百度了一下“百度MP3搜索原理”,發現有很少朋友觀注這一方面。經過思考、觀察、實踐,今天寫下《兔子寶貝:揭密百度MP3搜索原理》一文,希望和大家交流。合理使用“MP3搜索”,帶來流量是可行的。同時,兔子寶貝提醒的是此篇文章,只代表個人觀點,文明評論,請勿唾罵,抛磚引玉。百度的“MP3搜索”可以實現多種格式的搜索,不僅局限地MP3格式,“百度MP3”只是一種對音樂格式文件搜索的一種代名詞。可以實現搜索MP3 、 MP2 、 MOD 、WAV 、 VOC、 wma 等音頻格式。這些是能夠實現的,經常筆者的實踐過。下面,筆者分析一下,百度是如何實現MP3的搜索的呢?我會以實際的例子舉例說明這一問題。在百度的“MP3搜索”中輸入“朋友”如下圖所示: [url=/bbs/detail_1016313.html][img]http://image.wangchao.net.cn/bbs/1323048747080.gif[/img][/url]   經過習慣的思維,百度在抓取音樂時,有關鍵詞,經過兔子寶貝的100次反複實驗,在百度搜索時,並未出來這一規律。換句話說,百度的“MP3搜索”結果與網頁附近的詞語(包括名詞、形容詞、動詞等)不存在任何關系。即不存在正向、逆向、統計等匹配情況。據此,如果像正常網頁和圖片一樣的優化方法,在百度MP3中並不好使。兔子寶貝爲了細心,測試了100首音樂,在試聽的時候,並沒有一首與主題不符的音樂。這說明,百度的“MP3搜索”的正確率不說100%,應該正確率非常高,至少兔子寶貝並沒有發現出錯。如果,不是根據網頁內容附近的詞進行識別,那麽,按照常理,就是按照音樂的名字進行識別。比如,你搜索“朋友”,百度就返回以文件名中出現“朋友”二字的音樂文件,如:朋友.mp3,朋友.wma,朋友的心.mp3,朋友的心.wma。越靠近關鍵詞越靠前,權重越高越靠前。但是,這種思維,經常兔子寶貝的多次實驗,得到否定。下面,兔子寶貝以圖爲證。   首先觀察百度MP3搜索的多路資源來路圖: [url=/bbs/detail_1016313.html][img]http://image.wangchao.net.cn/bbs/1323048747541.gif[/img][/url]   觀察資源來路有四處。觀察文件名並不是以“朋友”爲關鍵詞中心出現文件名。下面再觀察播放音樂時,資源來路圖,再次證明。   播放時,資源視圖: [url=/bbs/detail_1016313.html][img]http://image.wangchao.net.cn/bbs/1323048747724.gif[/img][/url]   播放時,文件名不是以“朋友”爲關鍵詞中心出現文件名。下面再觀察點擊音樂下載,資源來路圖。 [url=/bbs/detail_1016313.html][img]http://image.wangchao.net.cn/bbs/1323048747859.gif[/img][/url]   觀察,在下載的時候,文件名不是以“朋友”爲關鍵詞中心出現文件名。 這樣一來,更加否認我們剛開始的猜想,以文件名做爲搜索的依據,因爲文件名不是以歌曲名做爲文件名。經過以前多次實踐分析出:百度MP3搜索結果並沒有出錯,准確率很高。不是依靠網頁內容等進搜索。不是依靠文件名進行識別。當然百度這種搜索技術,是機密性的。經過兔子寶貝的思考和從信號處理角度講的話,分析百度的“MP3搜索”是如何操作的。步驟如下:   第一步:人工進行音樂選取。選擇出正確的音樂,做爲原始資料。注意,這是人工處理。這種選取地不一定,不一定在互聯網上選取。   第二步:人工提取到原始的音樂資料進行計算數字化處理,進行數字化,采樣,量化。對音樂信號進行頻譜分析,取樣,量化。做爲百度搜索的最根本的依據。   第三步:百度使用蜘蛛程序,對互聯網上的音樂進行抓取。   第四步:抓取回音樂後,利用程序對音樂進行數字化處理,采樣,量化,包括對頻域和時域名的分析,處理。   第五步:比對。百度利用原始資源去比對取後音樂的信息。兩者信息越近,兩者音樂越靠近,達到一定程序就是相同音樂。   第六步:找到相同音樂,百度很聰明。涉及到版權問題,百度並不保存音樂,只是保存音樂路徑。因此,網友在百度搜索時,就能搜索不同路徑,和用戶相同要求的音樂。   綜上所述,我只是想出了思路。具體怎麽處理,是相當複雜。因此,給做音樂資源網的朋友幾條優化建議。   一、音樂網站要像一般網站一樣優化。因爲用戶搜索音樂,不僅依靠百度的“MP3搜索”。更多的是利用百度的“網頁搜索”。   二、音樂資源不能做假。如果與實際不相符的音樂,百度會自動識別。百度的識別技術很先進。   三、在百度的“MP3搜索”排名是和網站的權重,鏈接速度等有關。   四、合理使用“MP3搜索”帶來流量。   以上就是兔子寶貝對百度“MP3搜索”的想法。以上只代表個人觀點,不做爲任何依據。文明評論,請勿唾罵。新生力網絡營銷團隊成員之一兔子寶貝繼續關注互聯網搜索引擎技術,希望和大家交朋友。   原文地址:http://www.tuzibaobei.net/post/17.html (原創文章,A5首發,歡迎轉載,保留版權!)
󰈣󰈤
王朝萬家燈火計劃
期待原創作者加盟
 
 
 
>>返回首頁<<
 
 
 
 
 
 熱帖排行
 
 
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有