分享
 
 
 

大学书信选2(关于自然语言处理)

王朝other·作者佚名  2006-01-08
窄屏简体版  字體: |||超大  

简序:

大学的快乐,有很大一部分来自自由思索的快乐,来自向专家学习、来自交流的快乐。

比如,我最喜欢罗素的观点,他成了我人生的坐标,所以一直以来我也愈加的喜欢数学与科学,关注民生与自由,我相信对于我的青年时期,这将是永可怀念的!

还有很多的老师,往往是一次课,让我永远的记住了他们。大一时期的张晓庭先生,精彩的统计课程讲座与人生观点,大三时期的赵致琢先生,对于计算机科学理论的阐述,还有康立山老师的智能计算课程,我们学校的蔡老师、薛老师、姚老师的鼓励,我都永远的记在心中。

暑假期间,就开始了另一次愉快的经历。我认识了做自然语言处理的晋耀红先生,并开始接触HNC理论。这个理论非常有意思,它打破了我原来基于数学结构的思维形式,HNC理论的创始人黄曾阳先生对于汉语言的处理思路,可以给人丰富的启示。

下面这封email,就是和晋耀红先生(我一直称他为晋老师)的一次交流。当然,信中的观点或许有许多错误,可是,在这样的学习中,也只能用“快乐”两个字来形容了。

祝愿所有的大学生朋友,在你们的大学生活中,能尽情陶醉于思索与交流的快乐中!

percylee

2003-10-15 于武汉

--------------------------------------------------------------------------------------

晋老师:

您好!来信收到,十分感谢您的鼓励!当然,作为一个本科生,客观的讲,我的欠缺还是很多的,可是我也很高兴的发现,我越来越喜欢这个领域,所谓竟找到一生欲成就的梦想,欢乐也是难以表达的。

我很愿意到贵研究院去工作;并愿意全力争取面试乃至成为一员的机会!说起来原因也很简单,首先,HNC理论很有魅力,这是一项有意义的事业;其次,我相信相应的软件开发团体也一定是生机勃勃,当是很好的成长之所;最后,从我个人出发,虽然我较多的精力用在学习软件开发上,但对于基础理论与数学的热爱,使我更愿意选择一个具有研究性气氛的工作场所,咱们的研究院当然是我首选的(我目前还不想读研究生,从小学到大学一直呆在学校中,我想痛快的工作几年!)。

当然,我对工作中的难度是有所预感的。由于前一段时间一直忙于《SAT问题研究》的结题(我的一个校级项目)和演化证明思路的整理,没有能够继续HNC理论的学习,可是潜意识里仍时时记得她。那日里在图书摊点上浏览,遇到一本哲学书籍《人论》,它所讨论的人是建立在符号系统上的。原则上我更喜欢罗素的观点:),可是翻阅它我一下子想到了HNC理论的哲学假设,从一个已存在的概念模型出发,来构造复杂的系统讨论对于自然语言的理解和处理。所以我就买了这本书,虽然我不太同意它的看法,可却认为HNC理论的假设是合理的,我想看看翻阅它是否能给我一些启示。

系统的接触人工智能,是在学校的课程中,后来就是两个方向,一是读张景中先生的《数理逻辑与机器证明》,对机器证明产生兴趣,一是去听我们康老师的课(他为研究生和青年教师开的课),演化计算与并行计算,两个学期后,喜欢上了智能计算。但上个学期,偶然的机会,我接触了自然语言理解与处理,从天津海量科技里了解了他们的分词技术,并在他们的网站上看了他们的在线分词效果。听他们说分词是自然语言理解与处理的瓶颈,从此我也开始想这个问题,的确非常难,因为从思路来讲,我是黄先生批评的数学家(逻辑、统计派)那一类:),用之于自然语言的理解和处理,总感觉十分的不“自然”了。后来就是暑假里认识了您,并开始了解HNC理论。

现在想来,首先是这个哲学假设,即语音或文字表达的内容在大脑中并不是以自然符号系统的形式存在,而是以概念符号系统的形式存在。这个概念符号系统假设,当是理论的基石。事实上,自然语言,应该是人类描述信息(物质的和意识的)的一个完备集合。而要用计算机理解和处理它,则是要创建一个符号系统,可以与自然语言做很好的映射,这不仅包括元素的映射,更重要的是其与自然语言的相互作用和所含信息量,也能得到很好的映射,这样才方便进行双向处理。而传统的技术,如语法分析,可以认为是处理自然符号系统,这个系统对元素的映射还是可以的,但它处理自身与“自然语言的相互作用与所含信息量”的映射相当蹩脚,诸如“主谓宾”之类是语言的习惯意义上的一般约束,可以作为初步的语言结构合法性判断,但了解自然语言的含义,我觉得人类从来不会自觉的运用它!同样的,基于统计也是如此。

那么,人类是如何处理自然语言的呢?比如下面的一句话:

在广阔的空间里,她自由自在的飞翔……

就谈这个“空间”,我看到这个词,没有分析它的语法位置,更不会检索它的概率意义,事实上我的大脑中也没有这样的储备。如果是中学时代,我的反映肯定是朴素的三维空间,我太熟悉这个了,我一下子想到长、宽、高,想到运动;而现在,在物理意义上的空间概念上,我还能在第一时间里反映出我最喜欢的代数中的空间概念,我想到一个广阔意义上的空间概念。然后我才放到句子中,这才是我的理解过程!这说明,事实上,做一个更为基本的假设是可行的,即HNC理论的概念符号系统假设。

这个假设,使得我们创建完善的概念符号系统成为方向。我能隐约感觉到,这个系统应该是可以很好的完成其与“自然语言的相互作用与所含信息量”的映射。只要层次得当,变化规则保留得当,我对“空间”的理解过程,应该可以在这个系统中得到很好的反映。如果两个结构看作宽泛的代数结构的话,我们则希望这个映射是类同态,类满同态,甚至是类同构,这样它既适应于计算机处理,又最大的保留了自然语言的内容。

但自然语言本身是复杂的,这个概念符号系统,如后面所见到的,也是复杂的。否则这个映射也就成了浮光掠影式的,反映不了自然语言本质的东西,就无法去做“理解”的工作了。

晋老师,我现在理解HNC理论,都是从这个角度出发的,也许有不少的偏差,我会在后续的学习过程继续调整。如上面所述,我对困难有充分的准备,呵呵,我感到兴奋与快乐,一做从来没有做过的事,我就如此。即使不能去咱们研究院工作,我也会一直关心这个理论。它的成长给了我很好的启示,而我的终极希望,就是计算机可以和人类做朋友:),可以相互理解的那种。

当然,从工作的角度讲,我学习理论,更多的是要考虑现有理论的软件化。做理论创新,我还没有基础。做软件,相信在大家的帮助下,我能慢慢的胜任我的工作。我期待着融入这个团体!

只是,下月如果两个队都获主办方批准的话,我们就要去中山大学去比赛了(ACM)。很想去公司参观学习,或可安排面试等,但不知什么时间好。

听您的建议。

祝工作顺利!健康快乐!

连华

于武汉

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有