喜欢音乐的朋友,一定经常使用百度的“MP3搜索”。确实,百度的“MP3搜索”给我们带来很多的便利。新生力网络营销团队成员之一兔子宝贝,一直在观察互联网搜索引挚。同时,今天我又百度了一下“百度MP3搜索原理”,发现有很少朋友观注这一方面。经过思考、观察、实践,今天写下《兔子宝贝:揭密百度MP3搜索原理》一文,希望和大家交流。合理使用“MP3搜索”,带来流量是可行的。同时,兔子宝贝提醒的是此篇文章,只代表个人观点,文明评论,请勿唾骂,抛砖引玉。百度的“MP3搜索”可以实现多种格式的搜索,不仅局限地MP3格式,“百度MP3”只是一种对音乐格式文件搜索的一种代名词。可以实现搜索MP3 、 MP2 、 MOD 、WAV 、 VOC、 wma 等音频格式。这些是能够实现的,经常笔者的实践过。下面,笔者分析一下,百度是如何实现MP3的搜索的呢?我会以实际的例子举例说明这一问题。在百度的“MP3搜索”中输入“朋友”如下图所示:
经过习惯的思维,百度在抓取音乐时,有关键词,经过兔子宝贝的100次反复实验,在百度搜索时,并未出来这一规律。换句话说,百度的“MP3搜索”结果与网页附近的词语(包括名词、形容词、动词等)不存在任何关系。即不存在正向、逆向、统计等匹配情况。据此,如果像正常网页和图片一样的优化方法,在百度MP3中并不好使。兔子宝贝为了细心,测试了100首音乐,在试听的时候,并没有一首与主题不符的音乐。这说明,百度的“MP3搜索”的正确率不说100%,应该正确率非常高,至少兔子宝贝并没有发现出错。如果,不是根据网页内容附近的词进行识别,那么,按照常理,就是按照音乐的名字进行识别。比如,你搜索“朋友”,百度就返回以文件名中出现“朋友”二字的音乐文件,如:朋友.mp3,朋友.wma,朋友的心.mp3,朋友的心.wma。越靠近关键词越靠前,权重越高越靠前。但是,这种思维,经常兔子宝贝的多次实验,得到否定。下面,兔子宝贝以图为证。
首先观察百度MP3搜索的多路资源来路图:
观察资源来路有四处。观察文件名并不是以“朋友”为关键词中心出现文件名。下面再观察播放音乐时,资源来路图,再次证明。
播放时,资源视图:
播放时,文件名不是以“朋友”为关键词中心出现文件名。下面再观察点击音乐下载,资源来路图。
观察,在下载的时候,文件名不是以“朋友”为关键词中心出现文件名。 这样一来,更加否认我们刚开始的猜想,以文件名做为搜索的依据,因为文件名不是以歌曲名做为文件名。经过以前多次实践分析出:百度MP3搜索结果并没有出错,准确率很高。不是依靠网页内容等进搜索。不是依靠文件名进行识别。当然百度这种搜索技术,是机密性的。经过兔子宝贝的思考和从信号处理角度讲的话,分析百度的“MP3搜索”是如何操作的。步骤如下:
第一步:人工进行音乐选取。选择出正确的音乐,做为原始资料。注意,这是人工处理。这种选取地不一定,不一定在互联网上选取。
第二步:人工提取到原始的音乐资料进行计算数字化处理,进行数字化,采样,量化。对音乐信号进行频谱分析,取样,量化。做为百度搜索的最根本的依据。
第三步:百度使用蜘蛛程序,对互联网上的音乐进行抓取。
第四步:抓取回音乐后,利用程序对音乐进行数字化处理,采样,量化,包括对频域和时域名的分析,处理。
第五步:比对。百度利用原始资源去比对取后音乐的信息。两者信息越近,两者音乐越靠近,达到一定程序就是相同音乐。
第六步:找到相同音乐,百度很聪明。涉及到版权问题,百度并不保存音乐,只是保存音乐路径。因此,网友在百度搜索时,就能搜索不同路径,和用户相同要求的音乐。
综上所述,我只是想出了思路。具体怎么处理,是相当复杂。因此,给做音乐资源网的朋友几条优化建议。
一、音乐网站要像一般网站一样优化。因为用户搜索音乐,不仅依靠百度的“MP3搜索”。更多的是利用百度的“网页搜索”。
二、音乐资源不能做假。如果与实际不相符的音乐,百度会自动识别。百度的识别技术很先进。
三、在百度的“MP3搜索”排名是和网站的权重,链接速度等有关。
四、合理使用“MP3搜索”带来流量。
以上就是兔子宝贝对百度“MP3搜索”的想法。以上只代表个人观点,不做为任何依据。文明评论,请勿唾骂。新生力网络营销团队成员之一兔子宝贝继续关注互联网搜索引擎技术,希望和大家交朋友。
原文地址:http://www.tuzibaobei.net/post/17.html (原创文章,A5首发,欢迎转载,保留版权!)