百度作为第一大中文搜索引擎,它的分词技术一直都有很多人在研究,中科院软件所张俊林写的那篇《百度分析算法分析》的文章堪称经典,把它比喻为百度搜索引擎中文分词研究的《圣经》也不为过,每一个SEOer都应该仔细的阅读一下。我今天要说的不是关于百度的问题,而是百度的最大竞争对手——Google(谷歌),在测试Google中文分词算法的时候,发现了一个有趣现象,今天与广大的SEO朋友们分享。
Google分词算法值得我们好好研究一下。郭现保个人认为,Google的搜索结果页(SERP)与搜索关键字的相关性,明显大于百度,这是因为Google把搜索关键字都拆分成最基本的词组和单字后,在根据相关性去匹配数据库的中内容,而且Google拆分后的最基本词组,完全是根据词典里的词组匹配的,也是说它符合国家语言文字工作委员会的规范和标准的,这只限于普通词组(公众人名、著名品牌名)。
实例1:测试Google是否有专业名词库
在Google搜索“搜索引擎关键字”,Google会把这个关键字短语拆分为“搜索—引擎—关键—字”,这是因为“搜索引擎”和“关键字”都是网络专业词组,可能Google没有专业词组库,所以就被拆分成了“搜索—引擎—关键—字”。
实例2:测试Google拆分长关键字
在Google搜索“他舅WAP流量统计分析”,Google把这个关键字短语拆分为“他—舅—wap—流量—统计—分析”六部分,“WAP”是一个英文词组,包括Google和其他搜索引擎一般是不拆分英文词组的(就算它不是英文单词),“流量”、“统计”、“分析”都是符合国家语言规范的标准词组,“他舅”只是中国老百姓一个口头称谓用语,不符合国家语言规范,在词典中根本就查不到这,所以Google就把“他舅”拆分成了两个单字。
实例3:测试品牌名是否被Google收录为词组
在Google搜索“海尔冰箱”、“惠普电脑”、“华为通讯”、“美的电器”,“五粮液酒”,“夏利汽车”、“北京同仁堂”这七个都是著名的品牌,结果是“海尔”、“惠普”、“华为”、“五粮液”、“同仁堂”都是单独的词组,没有被拆分为单字,“夏利”、“美的”这两个品牌却被拆分成了单字。不是所有品牌都能被Google作为一个词组收录进品牌词库,Google有自己的收录标准的。
实例4:测试Google是否会拆分成语
下面我们搜索一下韩乔生的经典名句“迅雷不及掩耳之势”和“山清水秀丽”,结果“迅雷不及掩耳之势”这个短句被拆分成了“迅雷—不及—掩耳盗铃—之—势”,“迅雷”是一个符合汉语言规范的标准词组,不是指下载工具那个“迅雷”,“不及”也是一个词组,“掩耳盗铃”也是符合国家语言规范的成语,“之势”不是标准词组,所以就被拆分为两个单字。“山清水秀丽”被拆分为了“山清水秀—丽”,“山清水秀”是一个成语没有拆分。Google把成语作为几个基本词组,不会进一步拆分。
实例5:测试普通之间是否有权重高低之分
搜索“山河水灾”这个关键字短语,结果Google拆分为“山河”和“水灾”两个词组;然后搜素“山河水灾情”这个关键字短语,结果Google拆分为“山河”、“水”、“灾情”三部分,“水”字没有和“灾”组成词组,反而“灾”和“情”组成了词组,这说“灾情”这个词的权重高于“水灾”的权重。这说明词组之间也是有权重之分的。
根据实例测试推断:Google会把搜索的关键字(短语)拆分为最基本的词组,这些普通词组都是符合汉语言规范的标准词组,不像百度那样收录“人造名词”。Google的词组大致可分为普通名词、地名、人名等几类,关键字(短语)都是从左向右,按权重高低拆分。这些词组权重从低到高依次如下:人名<普通词组<地名<成语<领导人名字。进一步测试品牌名和人名的权重是一样,都是最低的,这只是一个大致顺序,因为同一类词组还会根据日常使用的频率进一步的分级,每一级的分配不同的权重,所以同一类词组之间也有权重高低之分。
根据Google分词原理我们可以看出,Google的搜索结果页相关性要高百度,因为Google使用关键字完全匹配和关键字分词匹配两个条件,去数据库中搜索相关数据。
这只是我一点肤浅的研究,有什么不足之处请高手们多多指点,欢迎来信进行讨论,我的邮箱地址是:chinaxxm@yahoo.cn