语义及概念体系在NLP中的作用*
黄曾阳
中科院声学所HNC语言知识处理实验室 100080
摘 要 本文首先对语义及概念体系研究的基本历史状况作简单回顾,随后介绍HNC的语义及概念体系,最后给出一个句类分析的示例。
1. 引言
围绕着项目专家组为这次研讨会所确定的论题之一“语义及概念体系在NLP的作用”, 下面分3节进行论述。第一节回顾一下语义和概念体系在上个世纪90年代以前的基本状况;第二节介绍HNC对语义和概念体系问题的基本看法和取得的基本结果;第三节对HNC的句类分析技术作一个“管窥一豹”式的考察。
2. 关于语义及概念体系研究的历史状况
下面引用四段代表性的论述,这些论述对语义及概念体系研究在上个世纪90年代前的历史状况论述给出了比较准确的概括。
论述1:
假定语言L的全部表达式组成集合W={E1,E2,…En…},
怎样确定各个Ei的所指U={M1,M2, …Mn…}?
怎样确定各Ei和各Mi之间的关系,
亦即怎样确定映射法则(E)R(M),
使W映入U和使U映入W?
……
然而W的成员的所指却更为缥渺多变,甚至无迹可求。
因为我们不知道U中有哪些基本单位,
也不知道有哪些复合单位,
所以,我们不知道U是不是可列集,
甚至也不知道怎样列举U的各个成员
以及U的成员应该用何种方式去表示。
论述1里的“假定语言的全部表达式组成集合W”显然是论述者心目中的语言空间,而“各个Ei的所指U”是论述者心目中的语义空间。这两个空间存在映射关系,这一观点论述者是非常明确的。但是 论述者认为 这个W空间(语言空间)缥缈多变,而那个U空间(语义空间)更为缥缈多变。为什么?因为存在着一系列的“不知道”:一个不知道(注:指引文里的第一个“不知道”语句,下同),两个不知道,三个不知道,四个不知道,这里还有一个隐含的不知道,总共是五个不知道。可以看出 这位论述者对语言空间W和语义空间U的研究前景都持悲观态度,更不用说两空间的相互映射了。
论述2:
语义场分析和义素分析提出了一些而不是全部语义分析维,
只能用于有限的语义空间,
用于全部词语还远远不能胜任。
论述2不象论述1那样高屋建瓴,但比较中肯,可以说反映了语义学界的一种共识。
论述3:
现代语法研究都遵循着从言语求取语言法则的研究途径
言语 => 言语(传统语文学)
言语 => 语言符号系统(结构主义语言学)
言语 => 语言能力(转换生成语法学)
论述3对20世纪语言学研究主流的概括比较准确,现代语法研究确实都遵循着从言语求取语言法则的研究途径,这是语言学界的一个基本共识。但这里应该补充一点,那就是论述3中关于“传统语文学”的论点并不公正,特别是对中国的训诂学,看来论者对中国传统语言学的了解很少。这个问题虽然与本论题有密切联系,但该论点的历史背景十分复杂,这里就不作进一步讨论了。
从论述3可以清楚看到 20世纪语言学研究的主流是不涉及语义和概念体系的。在90年代我国语言学界感受到了这一不足,多位学者提出了语法、语义、语用三平面说,还有学者提出了语表、语里、语值小三角说。三平面说和小三角说都是对摩里斯的语言三维度说的回归,是语言研究目标的重大转向与进步。但这一转向在我国还基本处于方法论的探索期,语法、语义和语用三维度的实际研究并没有冲出原来的“自成独立王国”状态。
论述4:
1. 语言规则描述的是规范的语言现象,
而实际的语言材料不都是合乎规范的。
2. 语言规则实际只是在统计意义上是成立的。
几乎所有语言规则都不能百分之百适用于一切语言事实。
3. 语言规则往往只能描写语言现象的主要方面,
而细微的语言现象往往覆盖不了。
论述4的3项论点在语言学界和计算语言学界都享有极大程度的共识。论述4看起来几乎是无懈可击,与论述1有异曲同工之妙。
基于上面的4项论述,本论题可以说是处在前景相当暗淡的状态。论述1等于说:语义及其概念体系基本处于缥缈状态,而且也很难改变这个状态。论述2通过语义研究的一个侧面申述了对论述1的支持态度。论述3干脆把语言学的研究目标定位在语言的形式结构,对语义采取明智的回避策略,或作为句法分析的补充。论述4的统计转向主张十分明确,对语法学研究表面上采取了彬彬有理的态度,但“规则必有例外,实用价值有限”的中心论点是坦率的,这等于说作为语言学一部分的所谓“语义及其概念体系”不可能有什么大的作为。
这就是本论题在上世纪末面临的状况,前景似乎不容乐观。
规则之路确实很困难,但是科学探索总是在知难而进。实际上 几十年来 人们不断从五个方面来努力改变上面所说的困境。一是语言学研究向上述三平面的扩展,特别是语用学转向。第二是语料库语言学的兴起,第三是内涵逻辑语义学的进展,第四是词语网络研究的发展,最后是HNC的探索,它是对中国训诂学和以Schank先生为代表的先行探索的继承和发展。
3. HNC的语义及概念体系概说
HNC的语义及概念体系基于以下三点假设:
第一 语言的本质或语言的本体是什么?这个问题很大,并没有现成答案。HNC是这样假设的,语言的本体是人类大脑里存在一个语言概念空间,这个空间的基本构成是概念联想脉络,这个联想脉络的形成是人类百万年进化的结果。这实际上是乔姆斯基先生的著名论点,不过他用的名称是普适语法UG。人类目前还存在大约6千种语言空间,但人类具有一个共同的语言概念空间,这是一个假设,但是必须做这样的假设,否则就会滑入论述1所说的飘渺之途。黑格尔先生说过,“哲学的开端就是一个假设”,HNC接受这一思路。
第二 对语言概念空间的描述研究,第一个目标就是要找出这个空间的描述基元。如果这个目标达不到,则语言概念空间的研究就仍然难以摆脱上列论述1所指出的飘渺困境。
第三 这个描述基元的构造必须采用计算机容易操作的符号体系,这个符号体系必须用关联性原则彻底替换自然语言符号体系的任意性原则。自然语言最大的弱点就是把本来互相关联的概念用不相关的语音和语形符号予以描述。语言概念空间的描述符号体系必须从根本上消除这一弱点。
HNC基于这么三点 着手考虑语言概念空间描述符号体系的构造。 这一描述显然要区分三个层面,第一是概念基元层面,它对应着自然语言的词语,其基本的特征是“7-2-1”;第二是句类基元层面,对应着自然语言的语句,其基本特征是“57-3192”;第三是语境基元层面,对应着自然语言的句群、段落及篇章,其基本特征是“7-57-7”。下面就来对描述语言概念空间三层面基本特征的这组数字的含义进行解释。
“7-2-1”,表示概念基元的基本类型。“7”表示7类抽象概念,“2”表示两类具体概念,“1”表示兼有抽象与具体双重特性的两可概念。具体概念直接对应着实实在在的东西,而抽象概念不能跟实实在在的东西直接对应。但并不是任何概念都具有要么抽象、要么具体的特征,有些概念具有抽象与具体的双重特性,例如任何描述物理属性的概念就是这样。
“7-2-1”既表示对概念基元基本类型的三分,又表达了每一基本类型的横向结构。这就是说 抽象概念具有7种横向结构,具体概念具有两种横向结构,而两可概念则只有一种。
7类抽象概念的第一类命名为主体基元概念,具有6个根节点,分别命名为作用、过程、转移、效应、关系和状态,故简称作用效应链。作用效应链是语言概念空间整体结构的核心,它不仅是概念基元层面的核心,也是句类基元层面的核心。这个问题下面还会谈到。
7类抽象概念里的第二和第三类是专门用于描述人类活动的概念基元,人类活动毕竟是语言描述的主体。为什么要分出两个基本类型呢?因为人类活动的时代特征(语言学叫历时性)具有明显的差异,有些活动自古有之,且具有万古不易的特性,尽管其形式和内容会有很大变化。另一些活动则不具有这一特性,有些只存在于古代,后来完全消失了,有些活动则产生于工业时代或后工业时代到来之后。万古不易的人类活动被命名为第一类扩展基元概念,具有5个根节点,包括第一类精神生活和第二类劳动。前者包括心理活动、思维活动和理念性行为,后者包括赋予特定意义的专业活动(如政治、经济、文化活动等)和追求活动(如改革与继承、竞争与协同)。非万古不易的人类活动被命名为第二类扩展基元概念,具有3个根节点。第一个根节点命名为第一类劳动,大体对应着所谓体力劳动;第二个根节点命名为第二类精神生活,大体对应着所谓休闲活动;第三个根节点命名为第三类精神生活,大体对应着所谓信仰活动。当然 第一类扩展基元概念里也存在时代生灭的个性特征,同样第二类扩展基元概念里也存在万古不易的个性特征。这些个性特征不难结合具体词语予以标示,而两者的上述总体性时代特征则是一项最基本、最重要的世界知识,是语境生成的基础。
7类抽象概念里的第四类命名为基本概念,具有9个根节点,分别命名为序与广义空间、时间、空间、数、量与范围、质与类、度、属性之属性的判断性描述和评价性描述。基本概念可以认为是一切概念的基础,是概念运作的基本平台,因而也是哲学的永恒课题,特别是其中的最后一项。
7类抽象概念的第五类命名为语言逻辑概念和基本逻辑概念。语言逻辑概念对应着语言学里的所谓虚词,虚词是概念表达的必备工具。概念表达在语言学里叫语言交际,交际包括语言生成过程,因而需要虚词这个工具,但思考并不需要。语言逻辑概念具有12个根节点,这里就不来细说。基本逻辑概念对应着“比较”和“是否有无”这两项基本判断概念,它们分别对应着两个根节点。这两项基本判断是动物(包括人)赖以生存的基本主观条件,而“是否有无”又是哲学的基本课题,“基本逻辑”的命名即来于这一思考。
7类抽象概念的第六类命名为综合概念,具有4个根节点,分别代表认识与谋略、方式方法、条件和广义工具。这里的综合就是指上列6类抽象概念的综合,或者更准确地说 这些概念不能简单地纳入某一类,它们是是各类概念之间相互交织的表现,综合概念的设置是对这一交织性的体现。
7类抽象概念的最后一类命名为语习类概念,具有11个根节点。这里的“语习”就是语言习惯的简称。语习具有明显的语种、时代和地域个性特征,这3项因素也可简称社会个性。这就是说 语习类概念强依赖于社会个性,而前述6类抽象概念则是自然界和社会最大共性的反映。有些与社会个性无关,如主体基元概念、基本概念、基本逻辑概念,有些弱依赖于社会个性,如第一类扩展基元概念、语言逻辑概念和综合概念,与社会个性有密切联系的只是第二类扩展基元概念。
上列52个根节点就是7类抽象概念的全部描述基元,每一个根节点都具有纵横两个方向的延伸结构,每一级延伸都代表一个确定的概念。每一个根节点用一个字母(代表概念类型,但主体基元概念和第一、第二类扩展基元概念不带类型符号)和一个数字(代表根节点的定义)表示,每一级延伸仅用一位数字表示,纵横两个方向的延伸相互交错。但是 从根节点开始的延伸一定是先横后纵,连续延伸代表纵横交错,这时的数字串叫做概念的高层表示,其延伸范围是封闭的,总延伸级数对不同类型的抽象概念有不同的约定。高层表示的后续延伸 纵向叫概念的中层表示,横向叫底层表示,连续的底层延伸代表纵横表示,延伸范围是开放的。中层和底层分别采用不同的数字符号,中层延伸描述概念的局部联想脉络。所谓局部联想脉络就是指概念的对偶性、对比性和包含性,对偶性大体与所谓反义词对应,对比性大体与所谓近义词对应,包含性与与整体-局部-个体相对应。对偶性概念具有十分丰富的内涵和内部结构,不是反义词或黑格尔氏的对立统一法则所能完全概括的。底层延伸描述概念的网络性,实质上是对抽象的再抽象,每一个数字都代表着一组概念之间的复杂关联性。这种纵横表示方案就是上述概念表示关联性原则的具体体现,其数字化表示方式使概念关联性计算呈现出极为简明的特性。例如 “节日”这个概念的HNC符号是j1099,符号里的j10表示“基本概念时间的基本特性”,字母符号j代表基本概念,j1代表时间,j10代表时间基本特性,j109进入底层延伸,代表特定时间点,节日是特定时间点j109的进一步延伸j1099。这个符号实际上是底层符号定义式
j1099::=(l91/wj10-00+(672;6804)+{a00e2139}+(103a8,l14,wj10-)
的简化,这就是再抽象的具体表现。右式由4项构成,第一项表示特定的一天,第二项表示娱乐或纪念,第三项表示可能放假,第四项表示一年一度。这种符号化方式既能体现节日这个概念本身联想脉络的基本内容,又便于体现与其他相关概念(如假期、节气等)的联系。
拙著《概念层次网络(HNC)理论》只给出了7类抽象概念52个根节点的高层表示,中层和底层表示仅给出了一些示例,甚至是示例的简化方案。HNC概念基元符号体系的完整表示将以《手册》的形式与读者见面。
下面简单说明一下HNC定义的两类具体概念。第一类叫做基本物,第二类叫做挂靠型具体概念。基本物用于宇宙和自然界的描述,类型符号为jw,设置了7个根节点,分别代表热、光、声、电磁、微观基本物、宏观基本物和生命体。第二类具体概念有两个基本类型符号p和w,p代表人,w代表物,pw代表人造物等。它没有自己独立设置的数字延伸符号,也就是说它不设置自身的根节点,而依附于抽象概念。其类型符号后面的数字符号直接取自抽象概念,挂靠这个名称即来于此。例如符号a149表示使节活动,pa149就表示外交人员;1098a9表示流动,w1098a9就表示各种“流”,如w1098a99代表气流,w1098aa代表水流,w1098a9b代表泥石流。第二类具体概念的这种表示方式显然有利于概念联想的激活或语义关联性的计算。
“流动”这个概念是根节点“过程”(属于主体基元概念,以数字符号1表示,不带类型符号)的5级延伸,一级延伸10表示过程的基本特性与类型,按约定 主体基元概念的高层仅一级延伸,1y=1-4分别表示过程的其他特性。数字109已进入“过程”的底层延伸,表示运动过程,三级延伸1098表示物体或物质的运动过程,四级延伸1098a表示物质运动过程,五级延伸1098a9表示流动。顺便说一下 与“流动”相对应的“波动”的符号是1098aa,它是“波动”这个词语的义项之一。“使节活动”这个概念是根节点专业活动(属于第二类劳动,也不带类型符号,直接以数字符号a表示)的3级延伸,一级延伸a1表示政治活动,二级延伸a13表示外交活动。按约定 第二类劳动的高层为二级延伸,符号a139已进入底层,表示外交活动之一的使节活动。
底层表示符号有3种基本类型,分别叫做t延伸、i延伸和 \k延伸,t延伸的数字定义域为9-b或8-b,i延伸的数字定义域为3或7,\k延伸的数字定义域为\1-\b。这3种底层延伸代表3种不同类型的延伸结构,t延伸和\k延伸都是群体延伸,前者是小群体,后者是大群体。i延伸则是单体延伸。上面的两个例子都属于t延伸,t延伸还包括αβγ三种子类型,这就不来细说。
中层对偶性的表示符号为m,n,ekm,ekn。前两者表示具有对立统一特征的双重对偶性概念,简称黑氏对偶。后两者表示非黑氏对偶,这种对偶概念要么不具有对立统一特征,要么不只是双重对立,简称非黑氏对偶。例如“过程”的“开始、结束、持续与过渡”就是一个三重对偶性概念,“开始”与“结束”对立,其间必有“持续”,而“持续”并不是“开始”与“结束”的对立统一,两者的对立统一表现是“过渡”,“过渡”才表示一个旧过程结束和一个新过程开始的对立统一存在。
黑氏对偶表示符号m和n的数字定义区域分别为0-2和4-6,1与2、5与6对立(反义),0或4表示相应的对立统一体。
非黑氏对偶用3位数字表示,第一位数字e(14)是非黑氏对偶的标记,第二位数字k表示表示非黑氏对偶的具体类型,其数字定义域为0-b,第三位数字m和n的取值范围依赖于k,并约定m的数字定义域为0-3,n为4-7。“开始、结束、持续、过渡”这一组非黑氏对偶概念的符号表示为11ebm,其中11eb1表示“开始”,11eb2表示表示“结束”,11eb3表示“持续”,11eb0表示“过渡”,四者构成一个局部联想脉络。在语言空间或语言概念空间里 非黑氏对偶概念多于黑氏对偶。
关于“7-2-1”就说到这里,其全貌可参看文献[1]里的总表。这里需要补充的一点是:“7-2-1”的出现是对前面论述1和论述2的否定,两项论述的立足点已经完全改变了,论述1所指出的5个“不知道”已经全部知道了。
现在来介绍“57-3192”,57是基本句类的总数,3192是混合句类的总数。句类是语句的语义-语用类型表示式。这里存在三个根本问题,一是根据什么原则来划分语句的语义类型呢?二是如何构成句类表示式以便于计算机的操作呢?三是如何体现语句的语用特性?
句类的语义类型实质上就是某些抽象概念的概念类型。上述7类抽象中显然并不是每一类都具备决定句类语义类型的资格。语言逻辑概念和语习类完全不具备这一资格,因为它只是语言表达的工具。基本概念和综合概念也不具备,因为两者都是概念运作的基本条件,而非概念运作本身。这样 具备决定句类语义类型资格的抽象概念就只剩下主体基元概念、两类扩展基元概念和基本逻辑概念了,这也是抽象概念总体描述框架设计的初衷。这4类抽象概念总共有6+5+3+2=16个根节点,这16个根节点的高层概念又区分两种基本类型,一种构成基本句类,一种构成混合句类。前者包括主体基元概念的6个根节点、第一类扩展基元概念里的心理和思维活动这两个根节点和基本逻辑概念的两个根节点,其他都构成混合句类。至于底层概念,绝大多数构成混合句类。
思维活动和基本逻辑概念都属于判断。因此基本句类也有7大类之说,7大类就是“作用效应链+判断”,也称广义作用效应链。基本句类是对广义作用效应链一个环节的描述,混合句类是对广义作用效应链两个环节的描述。
作用效应链高层概念节点的设置或设计首先是依据该根节点概念联想脉络的基干通路,同时也考虑到语句语义类型表现的差异。例如 根节点“作用”概念联想脉络的基干通路是“作用—作用的承受—生命体对作用的反应”,同时还应该考虑两种特殊类型的作用,一个叫“免除”,一个叫“约束”,免除是使另外一个作用失去作用的作用,约束是使对象“不做什么或不发生某种变化”的作用,这与一般作用是使对象“做什么或发生某种变化”正好相反。于是“作用—承受—反应—免除—约束”就构成了作用这个根点的5个高层概念,每一个高层概念对应着一个基本句类。分别叫做基本作用句、承受句、反应句、免除句和约束句。这5个作用高层概念的符号依次是00、01、02、03和04,其句类表示式依次是:
XJ=A+X+B
X10J=X1B+X10+XBC
X20J=X2B+X20+XBC
X31J=X3A+X31+XABC
X4J=A+X4+X4B
这5个表示式是57组基本句类中属于作用句的5种。这里需要着重指出两点:一是句类表示式是相关概念节点联想脉络的体现,二是每一句类具有自身的特定知识,叫句类知识。
句类表示式(也叫句类代码)由若干个单元组成,单元之间用“+”号连接,每一个单元叫语义块。语义块是句类的函数,这就是说 各语义块的语义角色决定于句类,也就是决定于孕育该句类的概念及其联想脉络。例如反应句X20J就具有下述联想脉络:反应必然来于某种刺激,而刺激必然包含刺激者及其表现,因此 反应句的准确描述是:反应者X2B对刺激者(反应引发者)及其表现XBC作出某种反应X20。这里反应者用语义块符号X2B描述,反应者作出的反应用语义块符号X20描述,反应引发者及其表现用语义块符号XBC描述。上面5个句类表示式的第二个语义块叫特征语义块EK,其它叫广义对象语义块JK。语句格式是指JK和EK的排序,上面的排序叫基本格式。对于必须具有EK的句类(在57组基本句类中有5组无EK句类)HNC按照SVO语言的约定,将EK排列在语句基本格式的第二位,而JK排序则决定于该句类的描述主体(主语),主语的编号为JK1,排在EK前面,随后的JK依次编号为JK2、JK3等,排在EK后面。调整基本格式的主块顺序(JKm编号不变)并在JKm之间加上边界标记(这些标记属于语言逻辑概念)的语句叫规范格式。汉语的规范格式特别发达,是汉语理解处理的一项特别财富。
反应句的句类表示式X20J描述了“反应02”这一概念的上述联想脉络特征。捆绑于这一句类的基本句类知识要点是:反应者X2B必然对应着有生命的具体概念,反应引发者及其表现XBC必然对应着具体概念XBCB(反应引发者)和抽象概念XBCC(引发者的表现)。实际的反应句可能省略XBCB或XBCC,在话语里甚至可能完全省略XBC,但从句类知识的预期可知 它们必然存在,依据这一知识可以跟踪语句中出现的部分省略或完全省略。
57组基本句类表示式总共有200种左右的语义块,3192组混合句类总共有上万种语义块,但语义块基元一共只有10个。描述广义作用效应链的有7个基元—作用X、过程P、转移T、效应Y、关系R、状态S和判断D,统称特征基元E,描述广义对象的有3个基元—作用者A、对象B和内容C,统称广义对象基元。特征语义块EK表示式仅由E基元构成,广义对象语义块JK表示式由E基元和广义对象基元联合构成。上面XJ和X4J句类表示式中出现了由单一广义对象基元表示的语义块,是57组基本句类表示式中仅有的简化表示。
EK和JK称为语句的主块,实际的语句除了主块之外 还有辅块fK,它不进入句类表示式,但进入句类知识。句类表示式按主块数量来划分 有两块句、3块句和4块句的区别;按其语句格式是否具有规范格式来划分 有广义作用句和广义效应句的区别;按其概念联想脉络特征来划分,有带EK语句和无EK语句的区别,有块扩语句与常规语句的区别,有JK是否具有先验句蜕特性的区别。这些都属于基本句类知识,对于语句的理解处理具有极为重要的指导意义。例如 上列句类表示式中的XBC和XABC就都具有先验句蜕特性。
所谓句蜕是指该JK表达的内容实际上相当于或包含一个(甚至多个)语句,句蜕也有自己的句类,其句类表示式以ElJ 表示,以区别于语句的全局性句类表示式EgJ,这里的下标符号g和l是英语globle和local的意思。ElJ也有自己的JK和ElK(如果该ElJ存在EK的话)。形态发达语言(例如英语)通常(通常而已,并未完全规范)对ElK采用非限定形态动词,对EgK则采用限定形态动词,因而EgJ和ElJ比较容易辨认。形态不发达语言(例如汉语)的EgK与ElK没有形态区别,EgJ与ElJ的辨认要相对困难一些。汉语理解处理的根本困难之一就是Eg与El的辨认。但是 只要我们深入发掘句类知识,对词语给出更准确的语义描述,这一困难是完全可以克服的,事实上HNC句类分析技术对此已经形成了一整套行之有效的处理策略[2]。
Eg与El的辨认固然是自然语言理解处理的重大难点,但句类E J本身的辨认往往也是一个重大难点。由于自然语言词语语义的不确定性,一个动词常常对应着多个句类,多句类判定与Eg//El辨认属于同一性质的难题。例如汉语的“打破”就对应着8个义项和7种句类[3],这一7选1的判定绝非易事。但是 英语词语的不确定性更为严重一些,汉语非单字动词的多句类模糊比英语小,所以也应该看到汉语的优势。
动词的多句类模糊已经不是纯粹语义特性的表现,也是语用特性的表现。语用与语境密切相关。语用与语境的研究是20世纪下半叶语言哲学研究的主流,取得了巨大成果,被誉为语用学转向[5]。但是 这些研究是围绕着句法-语义-语用的相互关系、语境的定义及其运用等而展开的。论述的基础是语境已存在于交际者的大脑之中。但是 这一存在性对于计算机是不存在的,皮之不存,毛将焉附!因此自然语言理解处理面临着语境生成的迫切需求。
所以 HNC句类分析技术配置了语境生成模块。“7-57-7”就是对语境生成的描述。这3个数字分别代表语境三要素—领域DOM、情景SIT和事件背景BACT(作者背景BACA另说)的基元数量。第一个“7”代表领域的7项基元,“57”代表情景的57项基元,第二个“7”代表事件背景BACT7项基元。7项领域基元就是前述HNC所定义的两类劳动和三类精神生活再加上生命体的本能活动和自然现象,两类劳动和三类精神生活的高层概念就是各领域的子类划分。57项情景基元就是57组基本句类,它们与3192组混合句类一起共同形成情景动态复合构成的基础。7项事件背景BACT就是HNC所定义的7种辅块类型—方式Ms、工具In、途径Wy、条件Cn、参照Re、起因Pr和目的Rt,这些辅块的子类又是事件背景动态复合构成的基础。这样 HNC的句类分析过程同时也是一个语境生成过程,即语境三要素具体信息的获取过程。这些信息直接符号化在词语的HNC映射符号里和语句的句类表示式里,并蕴涵在相应的句类知识里,获取过程并不复杂。当然 语境生成的技术实现还需要解决两个关键问题:一是领域句类的确定,二是情景信息的组装,这里就不来作具体讨论了。
本节就讲这些,最后需要对上面引用的论述4说几句话,那里的规则是指语言空间的描述规则,语言空间固有的不确定性必然带来这些规则的不确定性。但语言概念空间的情况则发生了根本变化,概念联想脉络是确定的,句类知识是确定的,在上面的相应论述里 我们多次使用“必然”这个词语。这就是说 从语言概念空间俯瞰语言空间,规则并不都是统计意义下的最大似然,而主要是康德先生所提倡的理性法官。我们深信理性法官将对NLP中20项难点的消解产生日益显著的作用。
4. 一项“管窥一豹”式的考察
这里通过一个例句的考察 来具体说明句类分析过程对句类知识的运用。句类知识是世界知识的精华,世界知识无垠,但句类知识有限。要让计算机把握世界知识 最有效的方式是从句类知识起步。
例句的原型是:
能够熟练操作计算机的孩子在学习方面不一定优秀。
句类分析结果如下:
<能够熟练地操作|计算机|的孩子>||~在学习方面||不一定优秀。(例句1)
这是57组基本句类之一的简明状态句S04J,其句类表示式为
S04J=SB+SC
是汉语常用的无EK句类之一。简明状态句的基本句类知识有两个要点。(1)状态对象SB隐含的表现(内容C)既可以放在JK1=SB里,也可以放在JK2=SC里。前一种放置时SB=SBB+SBC,SBB代表状态描述对象,SBC代表该对象的表现;后一种放置时SC=SCC+SCu,SCC代表状态对象的表现,SCu代表该表现的属性或属性的值。(2)SC的描述中心只能是u类概念短语(u是HNC五元组的属性符号,“很好”和“好得很”就是u类概念短语)或数量短语(这时 SCu取属性值,而前面的情况取属性本身)。
例句1的表达比较特殊,它把状态描述对象“孩子”的表现“学习”变换成参照辅块Re——在学习方面。所以例句1有3个语义块,两主一辅。如果变换回来,就变成下面的两个句子:
<能够熟练地操作|计算机|的孩子>||学习不一定优秀。(例句2)
\<能够熟练地操作|计算机|的孩子>的学习成绩/||不一定优秀。(例句3)
例句2把“学习”纳入SCC,例句3把“学习”纳入SBC。
三个例句都是简明状态句,但三者的语义块构成有很大差异。HNC语料标注方式对这些差异信息都给出了明确地标示。例句里的符号 “||” 和 “|” 分别代表EgJ和ElJ的语义块边界,符号“~”是辅块标记,对称符号{…}、 <…> 和 \…/ 分别代表原型句蜕、要素句蜕和包装句蜕。
例句有两个动词 “操作”和“学习”。但两者都不构成Eg,前者充当El,其ElJ的原型语句是“孩子|能够熟练地操作|计算机”。后者则依次充当fK、SB和SC的基元C。
HNC句类分析技术能够应对例句里动词的这种语用性模糊么?例句1和3并不困难,“的”字和“在…方面”提供了必要信息。例句2稍微困难一些,智能性较低的程序肯定要先对“学习”作出Eg假设,但随后的EK-JK2检验将否定这一假设。从而回到对整个语串作S04J假设,并依据上述简明状态句的句类知识要点而顺利通过检验。但智能性较高的程序可以不走这一弯路,因为 位于句尾的“不一定优秀”这一u类概念短语已经提供了S04J句类足够的信息,再运用SC的语义块构成知识(即上述S04J句类知识的要点1),问题已经迎刃而解了。这里还应该说明 上述弯路能够达到彼岸么? 这涉及“学习”混合句类T19Ya0*21J句类知识的运用,“优秀”作为该句类JK2的要素 不符合EK与JK2概念关联性的预期要求。这并不是“学习”这个词语的个性知识,传统的句法知识和HNC的JK构成知识都能给出这一预期。因此 弯路也能到达彼岸,但效率要低一个层次。
例句分析更重要的问题是要确定例句1的参照辅块Re乃由状态描述对象SB的表现SBC变换而来,这属于“20项难点”里的主辅变换问题。不作这一变换处理可能导致事件背景BACT的误断。作出这一主辅变换的依据就是上述简明状态句基本句类知识的要点1,是否善于运用句类知识是衡量NLP理解处理程序智能性的主要标准之一。
不言而喻 针对57组基本句类和3192组混合句类的句类知识描述是概念知识库建设的纲领[4],这是一项不寻常的理论及工程建设。但是 要让理性或规则之路在NLP中发挥更大作用,使NLP摆脱在“雪线”边缘艰难跋涉的困境,这一建设是亟待加强的关键性基础研究。
5. 结束语
语义及其符号体系在NLP中的作用曾出现比较悲观的基调,第一节引用的四项论述是这一基调的典型代表。但HNC对语言概念空间三层面概念基元符号体系的成功构造表明,实际情况并不是那么悲观,这里的关键思路是要从语言空间提升到语言概念空间来俯瞰语言现象。本文论述涉及到一系列HNC的基本概念和专用术语,不可能一一进行说明,请读者见谅。文中提到的自然语言理解处理20项难点、关于语境的“7-57-7”论述来自作者1999和2001年所写的专著和论文,但未公开发表。有兴趣的读者可以通过网址http://www.hncnlp.com/查阅有关资料。
参 考 文 献
1 黄曾阳. HNC的发展和未来.汉语学报,2001,上卷(第3期):46-64
2 晋耀红 汉语理解处理中多动词难点的研究与实现[中科院声学所博士学位论文].中科院声学所,
2003
3 李颖.从‘打破’一词看HNC的知识表示.见:张全 萧国政主编,《HNC与语言学研究》.
武汉理工大学出版社,2001.p187-190
4 苗传江. HNC句类知识研究 [中科院声学所博士学位论文].中科院声学所,2001
5 盛晓明.《话语规则与知识基础》.学林出版社.2000
6 许嘉璐. 现状与设想—试论中文信息处理与现代汉语研究.中国语文,2000,6期
7 邢福义.从基本流向纵观现代汉语语法研究四十年.中国语文,1992,6期
8 杨成凯.句法、语义、语用三平面说的方法论分析.语文研究,1993,1期
*本文得到973项目“G1998030506”的支持