我们一直在批评谷歌的中英文翻译服务,有的时候谷歌翻译出来的东东比直接读外语还难懂,不过谷歌翻译质量的进步也是有目共睹的事情。
百度和谷歌竞争,一直强调摆渡更懂中文,这是基于百度算法的分词技术和精确匹配,大家也都以为然。
前天在给学生上课的时候,讲到文章的命名方式,学生说我和李新刚老师(网页教学网站长)讲的有些不一样,于是道网上验证。结果发现原来谷歌更懂拼音,做个试验如下:
搜“wangluoyingxiao”在百度和谷歌上面均能显示“您要找的是不是: 网络营销”
搜“wangluoyingxiaocehua”在百度和谷歌上面均能显示“您要找的是不是: 网络营销策划”
搜“wangluoyingxiaocehuashu”在百度和谷歌上面均能显示“您要找的是不是: 网络营销策划书”
搜“wangluoyingxiaocehuashude”在谷歌上面显示“您要找的是不是: 网络营销策划书的”,百度没有搜索结果。
搜“wangluoyingxiao-cehuashu”在谷歌上面显示“您是不是要找: 网络营销-策划书”,百度上显示“您要找的是不是: 网络营销策划书 ”。
搜“wangluoyingxiao-cehuashude”在谷歌上面显示“您是不是要找: 网络营销-策划书的”,百度没有搜索结果。
至此我们可以说,谷歌比百度更懂拼音!为了继续探寻谷歌对拼音的支持,冯斌打算继续做实验,结果如下:
在搜索栏输入“wangluocehuawangluoyingxiaocehuajiulaiwang-yingwangluowang”(网络策划网络营销策划就来网-赢网络网)是谷歌支持拼音数量——17个汉字的拼音。而且必须在前13个汉字拼音后加“-”,否则是显示不出来的。如果把13个拼音中“xiao”分割为“xi'ao”则是显示错误。
在搜索栏输入“wangluoyingxiaowangluoyingxiaocehuajiulaiwang-yingwangluowang”(网络营销网络营销策划就来网-赢网络网),谷歌没有搜索结果。
在搜索栏输入“wangluoyingxianwangluoyingxiaocehuajiulaiwang-yingwangluowang”(网络营西安网络营销策划就来网-赢网络网)是谷歌支持拼音数量——18个汉字的拼音。
于是我开始怀疑谷歌的拼音支持是和字符数量还是和汉字数量相关呢?如果是支持字符数量就不能随随便改变拼写,比如把最后的“wangluowang”改成“wangwangwang”仍然正常显示。但是如果把“cehua”改成“huihua”就没办法显示了。如果把“jiulai”换成“wangwang”还是可以正常显示的。
既然把“cehua”改成“huihua”不能显示,说明搜索引擎可能是按照字符数量支持搜索结果,但是“jiulai”换成“wangwang”正常显示说明这个结果又不是按照字符支持的。反过来就是说,谷歌是按照汉字数量进行支持的。但是“就来”和“往往”就是两个汉字!那又是怎么回事呢?
于是我做了一个疯狂试验,在谷歌输入“wangluoyingxianwangluoyingxiaocehuawangwangwangwangwangwang-yingwangwangwang”( 网络营西安网络营销策划往往往往往往-因旺旺网)正常显示,输入“wangluocehuawangluoyingxiaocehuawangluocehuawangluoyingxiaocehua”(网络策划网络营销策划网络策划网络营销策划)无法显示。
在百度里面“google-zhongwen”匹配结果正常显示,搜“zhongwen123”也有结果,这说明百度还是支持词组搭配,只不过不能太长,如“zhongwenwang123”就无法显示。
而谷歌可以识别这些,不过谷歌识别时按照人们常用语言去判断词组并加以显示。谷歌拼音识别,是按照规则词组进行的,如果不构成规则词组将无法识别。经本试验,谷歌拼音识别在规则词组拼音状态下可以识别最多24个汉字。