分享
 
 
 

关于自然语言处理的几个片段

王朝other·作者佚名  2006-01-08
窄屏简体版  字體: |||超大  

我所希望的工作,基本上就是自然语言处理了。只是这个方向上,我需要学习的还非常的多。目前我在看些专业书籍;但把以前的几个镜头连一连,觉得还是很有意思的。

一,关于分词的一篇短文

我也测试了一下,是以前的一篇文章的首段,很明显的个人风格。如下:

读万卷书,行万里路,便是今生的两个愿望吧。

读书,算是旧习;大学已过多半,一回首,除了师友欢颜,东湖碧波,便是那一册册的书了。可是计算机专业,比不得其他,书也颇是个花费。所以收拾收拾,列个单子,给痴书的伙伴一个参考;然而,我可不是在做广告呀~得说明如下:

海量分词演示的结果如下:

读 万卷 书 , 行 万里 路 , 便是 今生 的 两个 愿望 吧 。

读书 , 算是 旧习 ; 大学 已 过 多半 , 一回 首 , 除了 师友 欢颜 , 东湖 碧波 , 便是 那 一册册 的 书 了 。 可是 计算机 专业 , 比 不得 其他 , 书 也 颇 是 个 花费 。 所以 收拾 收拾 , 列 个 单子 , 给 痴 书 的 伙伴 一个 参考 ; 然而 , 我 可 不 是 在 做 广告 呀 ~ 得 说明 如下 :

大部分还是不错的。但看“一回首”,这是个最关键的,因为“回”处的歧义最大,前后都可为词;此处我的意思当然是“回首”了,可很遗憾。

分词虽是个难点,但我觉得不能分开来看,来强调分词。同一段文章,我用联通国际即时翻译翻译成英文,效果如下:

It is two hopes of this life to read ten thousand books and walk ten thousand li. Study and can be regarded as old to practise; University already too much halves, turn one's head at one, at teachers and friends joyous faces, East lake and bluish waves are books of that volume. But the speciality of the computer, does not win the others than, the book is quite a piece of cost. It tidies up it arranges pieces of list give silly the one of partners of book consult; However, I am not advertising but must prove as follows :

Time:10.428secs

对语义块和句式的判断,还是比较糟糕的;但从turn one's head at one看来,“一回首”还是给断对了:)。如果用同样的服务器把这段英文翻译成汉语,天哪!都不认识了!如下:

二个希望的要读1万本书并且走1万毫克分子的这几次生活的研究并且可能被当作当时老练习; 已经的大学太多两半, 转动一个人头在一,在教师和朋友,充满快乐脸,东部湖和带蓝色波是那卷的书。 但是计算机的专业,与比,书是相当不错的费用比,不要赢得其他。 整理安排的碎片目录给傻书的合伙人中的那个商议; 但是,我不是广告,但是必须证明如下:

这种处理结果,让我觉得这条路还长着呢。大家以为呢?

另外,我是一个大四的学生,来海量科技还有个不请之请。我想深入的学习自然语言处理的知识,公司的前辈们可否给介绍几本书?非常感谢!

二,关于HNC的反面评论

1,我也看过HNC理论的书,不过不太认同“概念符号假设”,实际上我看不出来HNC同乔姆斯基的生成语法学及其弟子们演化出的生成语义学有什么大的区别。指望HNC去解决自然语言理解问题基本上是不太可能的,特别是对东方语言来说。另外一点就是HNC及其所承袭的乔姆斯基系理论,都没有考虑语言习得和语言的演化。从语言变化的角度来看,HNC就站不住,因为不可能用符号智能的方法来解决完美的概念映射的自学习。所以我认为还是基于语料统计的连接主义的方法才能最终解决NLU问题。只可惜现在HMM方法不能很好的表现语言的结构,使语料库方法停止不前。XCOOL评

2, HNC只是一种学说而已,走的是基于规则的NLP老路,而这条路被证明无法处理大规模真实文本。黄先生的特点是不关心国际国内语言处理的主流技术,一心带弟子搞玄妙的东西。由于其理论的缺陷,HNC不可能出现什么可以供demo的东西,即使出了产品或者可供demo的东西,也无法达到较好的性能。 请初学者一定要小心。chris 评

对于评论1,有如下参考意见,是晋耀红先生通过Email与我解答的:

"关于网友的观点,确实是代表了很多人的看法。但HNC和乔姆斯基的生成语法学倒是有本质的不同,后者顾名思义关注的是语言的生成,而前者关注的是语言的理解,理解和生成是自然语言到语言概念空间的映射和反映射的过程,理解的重点是语义关联性(是否能正确理解),生成的重点是语法的规范性(生成的句子是否合乎语法)。"

"关于“语言习得和语言的演化”,则是语言的历时性,是语言学者关心的问题,而我们现在的焦点是让计算机达到一个小学生、中学生的水平,还不敢奢望这个层次。你如果问一个小学生,什么是“语言的演化”,恐怕得不到答案,同样,就计算机目前的水平,也不要要求计算机做到。"

"以上观点,仅供探讨。"

至于评论2,就不谈了。现在对于HNC来讲,还有相当多的理论部分正在开创当中,还没有完成。而相应的产品化工作,也刚开始。理论本身有多大的缺陷,当然还得检验,还得不断完善。我却真心的希望,HNC团队能再接再厉,勇往直前。

三,最后的话

我相信,这项工作虽是万难,但有志之士也是愿意一攀的。

读过黄曾阳先生一首词,觉得很好,就放在最后:

临江仙

胜券在中华

计算语言谁主事?

千年老叟当家。

统计神功众口夸。

廿年热望后,

智者叹无涯。

虽是一层窗户纸,

尽遮真理光霞。

撕开一角激惊讶。

莫听悲观论,

胜券在中华。

其实学术上的问题,技术上的问题,无论大家的意见如何,流派如何,我们可以进行争论,但我真心祝愿,大家都能在自己的岗位上,辛勤劳作。我们就不信,对于自然语言处理,胜券竟不在中华!

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有