我所希望的工作,基本上就是自然语言处理了。只是这个方向上,我需要学习的还非常的多。目前我在看些专业书籍;但把以前的几个镜头连一连,觉得还是很有意思的。
一,关于分词的一篇短文
我也测试了一下,是以前的一篇文章的首段,很明显的个人风格。如下:
读万卷书,行万里路,便是今生的两个愿望吧。
读书,算是旧习;大学已过多半,一回首,除了师友欢颜,东湖碧波,便是那一册册的书了。可是计算机专业,比不得其他,书也颇是个花费。所以收拾收拾,列个单子,给痴书的伙伴一个参考;然而,我可不是在做广告呀~得说明如下:
海量分词演示的结果如下:
读 万卷 书 , 行 万里 路 , 便是 今生 的 两个 愿望 吧 。
读书 , 算是 旧习 ; 大学 已 过 多半 , 一回 首 , 除了 师友 欢颜 , 东湖 碧波 , 便是 那 一册册 的 书 了 。 可是 计算机 专业 , 比 不得 其他 , 书 也 颇 是 个 花费 。 所以 收拾 收拾 , 列 个 单子 , 给 痴 书 的 伙伴 一个 参考 ; 然而 , 我 可 不 是 在 做 广告 呀 ~ 得 说明 如下 :
大部分还是不错的。但看“一回首”,这是个最关键的,因为“回”处的歧义最大,前后都可为词;此处我的意思当然是“回首”了,可很遗憾。
分词虽是个难点,但我觉得不能分开来看,来强调分词。同一段文章,我用联通国际即时翻译翻译成英文,效果如下:
It is two hopes of this life to read ten thousand books and walk ten thousand li. Study and can be regarded as old to practise; University already too much halves, turn one's head at one, at teachers and friends joyous faces, East lake and bluish waves are books of that volume. But the speciality of the computer, does not win the others than, the book is quite a piece of cost. It tidies up it arranges pieces of list give silly the one of partners of book consult; However, I am not advertising but must prove as follows :
Time:10.428secs
对语义块和句式的判断,还是比较糟糕的;但从turn one's head at one看来,“一回首”还是给断对了:)。如果用同样的服务器把这段英文翻译成汉语,天哪!都不认识了!如下:
二个希望的要读1万本书并且走1万毫克分子的这几次生活的研究并且可能被当作当时老练习; 已经的大学太多两半, 转动一个人头在一,在教师和朋友,充满快乐脸,东部湖和带蓝色波是那卷的书。 但是计算机的专业,与比,书是相当不错的费用比,不要赢得其他。 整理安排的碎片目录给傻书的合伙人中的那个商议; 但是,我不是广告,但是必须证明如下:
这种处理结果,让我觉得这条路还长着呢。大家以为呢?
另外,我是一个大四的学生,来海量科技还有个不请之请。我想深入的学习自然语言处理的知识,公司的前辈们可否给介绍几本书?非常感谢!
二,关于HNC的反面评论
1,我也看过HNC理论的书,不过不太认同“概念符号假设”,实际上我看不出来HNC同乔姆斯基的生成语法学及其弟子们演化出的生成语义学有什么大的区别。指望HNC去解决自然语言理解问题基本上是不太可能的,特别是对东方语言来说。另外一点就是HNC及其所承袭的乔姆斯基系理论,都没有考虑语言习得和语言的演化。从语言变化的角度来看,HNC就站不住,因为不可能用符号智能的方法来解决完美的概念映射的自学习。所以我认为还是基于语料统计的连接主义的方法才能最终解决NLU问题。只可惜现在HMM方法不能很好的表现语言的结构,使语料库方法停止不前。XCOOL评
2, HNC只是一种学说而已,走的是基于规则的NLP老路,而这条路被证明无法处理大规模真实文本。黄先生的特点是不关心国际国内语言处理的主流技术,一心带弟子搞玄妙的东西。由于其理论的缺陷,HNC不可能出现什么可以供demo的东西,即使出了产品或者可供demo的东西,也无法达到较好的性能。 请初学者一定要小心。chris 评
对于评论1,有如下参考意见,是晋耀红先生通过Email与我解答的:
"关于网友的观点,确实是代表了很多人的看法。但HNC和乔姆斯基的生成语法学倒是有本质的不同,后者顾名思义关注的是语言的生成,而前者关注的是语言的理解,理解和生成是自然语言到语言概念空间的映射和反映射的过程,理解的重点是语义关联性(是否能正确理解),生成的重点是语法的规范性(生成的句子是否合乎语法)。"
"关于“语言习得和语言的演化”,则是语言的历时性,是语言学者关心的问题,而我们现在的焦点是让计算机达到一个小学生、中学生的水平,还不敢奢望这个层次。你如果问一个小学生,什么是“语言的演化”,恐怕得不到答案,同样,就计算机目前的水平,也不要要求计算机做到。"
"以上观点,仅供探讨。"
至于评论2,就不谈了。现在对于HNC来讲,还有相当多的理论部分正在开创当中,还没有完成。而相应的产品化工作,也刚开始。理论本身有多大的缺陷,当然还得检验,还得不断完善。我却真心的希望,HNC团队能再接再厉,勇往直前。
三,最后的话
我相信,这项工作虽是万难,但有志之士也是愿意一攀的。
读过黄曾阳先生一首词,觉得很好,就放在最后:
临江仙
胜券在中华
计算语言谁主事?
千年老叟当家。
统计神功众口夸。
廿年热望后,
智者叹无涯。
虽是一层窗户纸,
尽遮真理光霞。
撕开一角激惊讶。
莫听悲观论,
胜券在中华。
其实学术上的问题,技术上的问题,无论大家的意见如何,流派如何,我们可以进行争论,但我真心祝愿,大家都能在自己的岗位上,辛勤劳作。我们就不信,对于自然语言处理,胜券竟不在中华!