HNC理论的语言学基础
(关于自然语言语句理解的两个假设)
黄曾阳
中科院声学研究所 100080
Email: huangzengyang@sina.com
如果以一个当前直接的东西作为开端,就是提出一个假定,或者毋宁说,哲学的开端就是一个假定。
黑格尔
理性必须一手拿着原则,拿着那些唯一能使符合一致的现象成为法则的原则,另一手拿着自己按照那些设计的实验,走向自然,去向自然请教,但不是以小学生的身份,老师爱讲什么就听什么,而是以法官的身份,强迫证人回答他所提出的问题。
自然的最高立法必须是在我们心中,我们必须不是通过经验,在自然里去寻求自然的普遍法则,而是反过来,根据自然的普遍的合法则性,在存在于我们的感性或知性里面的经验可能性条件中去寻求自然。
康德
1 引言
林杏光先生告诉我 他已经在贵院举办的应用语言学系列讲座里介绍过HNC理论。所以在这个讲堂上 HNC并不是一个生疏的名字,我可以直接进入今天的话题,那就是HNC的语言学基础,副标题是关于自然语言语句理解的两个假设。
把HNC的语言学基础同自然语言语句理解的两个假设联系起来体现了HNC研究的基本定位,那就是自然语言语句的理解。这里的理解不是指人际交流过程的理解,而是指如何让计算机理解自然语言的语句。下文对前者简称交际理解,后者简称交互理解。这两种理解具有共性,但也必然具有差异。交互理解是信息时代出现的一项重大科学课题,服务于两项基本市场目标:一是因特网世界里海量自然语言信息的抽取,如检索、分类、摘要等,二是机器翻译,让网络用户可以浏览网络上流行而浏览者不能阅读的自然语言(如联合国常用的8种语言)文本。交互理解一旦实现,就可以形成巨大的语言知识处理产业,其市场前景不可限量。所谓信息时代还刚刚开始,目前还处在初级阶段,向高级阶段发展的关键技术之一是交互理解的突破,甚至可以毫不夸张地说这一突破是关键的关键。汉语对某些才子有所谓“一目十行,过目不忘”的美誉,计算机一旦能理解自然语言,它就不难做到“一目千行、万行,又过目不忘”,那就是一位超级才子了。现在还没有描写这种超级才子的科幻作品,西方的兴趣目前聚焦在太空人之类的怪物身上。HNC希望中国有人率先写出自然语言超人的作品,这位语言超人很有可能诞生于中国和汉语。座中才俊应该积极投身到催产这一诞生的探索中来,因为这是应用语言学在信息时代必须面对的重大挑战之一。
理解的起点是语句理解,向下是短语和词的理解,向上是段落直至篇章的理解。这个说法表面上似乎顺理成章,几乎无懈可击。而交互理解的症结恰好出在这一“顺理”中的“无理”上,下面的讨论实质上是对这一“无理”的反思。
HNC的语言学基础主要是两个方面,一是语言符号系统说,二是主谓宾说。20世纪的所有语言学理论包括计算语言学理论的发展都是以这两说为基础的,HNC也不例外。但是 HNC对这两说的反思可能更多一些,在某种意义上 HNC是向训诂学的回归。
下面分两节展开讨论,第二节立足于语言符号系统说,着重阐释语言符号系统的本质或本体是概念联想脉络,而自然语言符号系统的任意性原则模糊了概念联想的本来面目,因此需要对自然语言符号系统进行彻底改造,用关联性原则替换任意性原则以恢复概念的联想特征。这样才有希望突破交互理解的症结。第三节立足于主谓宾说,着重阐释三者的本质或本体是最小全局联想脉络(HNC叫句类)的体现,句类的构成单元是语义块,是句类的函数,都具有自身的内部结构。
2 HNC语言学基础之一:语言符号系统说
语言是一个符号系统,这是被誉为现代语言学鼻祖的索绪尔先生的著名论断。语言符号系统的基本特征是索绪尔先生反复强调的任意性原则。正是这一任意性原则造成了自然语言现象的诸多不确定性,计算语言学叫歧义,HNC叫模糊。在交际理解过程中 人类能对这些不确定性应付裕如,但在交互理解过程中 交互者之一的计算机则招架不住。例如 汉语交互理解过程中存在着20项难点,分词歧义只是其中之一,在全部难点分布中只占千分之三。10多年来中文信息处理学界把这个难点提高到“瓶颈”地位组织攻关,但并没有取得实质性进展,这并不奇怪。因为 20项难点是相互制约的,不可能孤军深入去攻克某一个难点。交互理解的严峻态势由此可见一斑。计算机还是一个畸形发展的怪物,是数字和数据处理的巨人,然而仍然是交互理解处理的侏儒甚至是白痴。
词典和注释是交际理解的重要工具,对古语交际和外语交际尤为重要。这两种工具都是用交际者可理解的语言去解释交际者不理解的语言。计算机可理解的语言是数字符号,还有计算机科学为它专门设计的程序语言,总之计算机也已有自己的语言。编撰一套用现有计算机语言解释自然语言的词典似乎是让计算机理解自然语言的捷径,早期热心计算机处理语言(例如机器翻译)的人们就是这么想的。这个想法有其合理的内核,不能因为它在机器翻译研究中的失败名声而轻易否定。
自然语言和计算机语言这两种语言之间确实存在着一道巨大的鸿沟,鸿沟的根源在于两种语言符号系统都存在自身的根本弱点,自然语言符号系统的根本弱点在于它的任意性原则,已如上述,计算机语言符号系统倒是不存在这一弱点,但其视野太窄,只看到计算机的硬件和软件世界,对自然和社会世界茫然不知,这是计算机语言的根本弱点。人工智能科学曾为克服计算机语言的这一根本弱点作出过巨大努力,也取得了一些重要成果。但它把自然和社会世界都纳入逻辑世界的范畴,而这两个世界是不能等同起来的,前者远比后者丰富多彩,这就是说逻辑世界的视野仍然太窄。计算机科学为跨越这道鸿沟已经奋斗了半个世纪,语言学的介入稍微晚一点,内涵逻辑学的介入更晚一点,但也分别有40年和30年之久。三者的结合产生了计算语言学这一交叉学科。近十几年来 计算语言学三大“股东”的“股权”出现了微妙变化,语言学和的内涵逻辑学的“股权”在不断减少,计算机学的“股权”在迅猛扩大。这就是所谓语料库语言学的兴起。当前这一浪潮方兴未艾,HNC可以说是逆这一新潮而动。拙著《HNC(概念层次网络)理论》(以下将简称拙著)开宗明义第一篇就指出“语料库语言学的兴起使人们对统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义”。HNC是对“菲-山挑战”的继承与发展。
所谓“菲-山挑战”是指Fillmores先生的格语法理论和Schank先生的和概念依存理论,格语法理论虽然比较粗略,但终究有力推进了语义角色的研究;概念依存理论虽然志大才疏,但终究局部揭示了概念联想脉络(作者并未使用这一术语,而是使用概念基元primitives这个术语)的深刻思路。两位先生的共同弱点是对语言符号系统说的总体特性缺乏深入思考。
语言符号系统说的“符号”和“系统”两词具有深刻的含义,符号意味着抽象,尤其意味着对抽象的再抽象,通过抽象与再抽象形成概念与范畴,所谓语言符号就是概念的符号化;系统意味着完备性和开放性,完备与开放相辅相成,就能满足社会发展的动态描述需求。语言符号系统是社会和自然的符号投射,是大脑百万年进化的产物,这是乔姆斯基先生的著名论断。HNC完全支持乔先生的这一论断,但不同意乔先生对这一进化产物的命名。乔先生把它叫做普适语法UG,这个名称模糊或掩盖了大脑百万年进化产物的本质。孔子曰“名不正,则言不顺”,下面将要论述的正名不是一个简单的名称问题,而是关系到对语言本质或本体这一根本问题的认识。
西方文化里有两个根深蒂固的观念,那就是语法和逻辑。似乎语法是语言的当然本体,逻辑是思维的当然本体。语法和逻辑的概念在语言学和哲学里的地位在西方世界就如同社会生活里的上帝,两者在相应学科领域的实际作用确实如同一位上帝。
HNC理论本质上是对西方语言上帝和思维上帝观念的反思,这一反思的起点就是普适语法UG的命名。HNC认为人类大脑百万年进化的产物不是普适语法UG,而是概念联想脉络,它才是自然语言的本体,这是HNC的两项基本假设的第一项。
第一项假设的详细陈述如下:人类社会目前还存在大约6千种自然语言,也就是存在6千种语言符号系统。自然语言符号系统拥有各自的词语和语法,不同语言符号系统的词语不同,语法也不可能完全对应。但是所有的语言符号系统都必然对应着同一个概念符号系统,这是翻译赖以进行的先决条件。自然语言符号系统是自然与社会现象的符号投射,交际过程体现为语音或文字。但语音或文字表达的内容在大脑中并不是以自然符号系统的形式存在,而是以概念符号系统的形式存在(当然也包括自然语言符号系统的转换形式)。自然语言符号系统是外在的,概念符号系统是内在的。交际过程实质上是概念符号系统与自然符号符号系统的相互转换过程。听或看的过程将外在的语言符号转换成内在的概念符号,说或写的过程将内在的概念符号转换成外在的语言符号。
外在的语言符号系统可叫做自然语言空间,内在的概念符号系统可叫做语言概念空间,语言概念空间只是人类概念空间的一部分。大脑百万年进化的产物是包括语言概念空间在内的整个概念空间。这个概念空间的物理实体对应着大脑神经网络的主体,是由千亿神经元联结起来的复杂系统。这个主体神经元系统必须在幼儿时期通过语音的刺激才能正常发育,逐步形成概念空间及其语言概念子空间。这一点得到印度狼孩真实故事和先天聋哑人智力缺陷的有力证实。
以上所述主要是学习前人有关论述的体会,但这些论述并没有得到普遍认同,故作为假设提出。作出这一假设的目的在于突出自然语言系统的内在特征,并强调语言系统的内在特征是概念联想脉络,不是语法,语法只是语言符号系统的外在特征。
人类概念空间在不断发展。工业时代以来,概念空间大大加快了发展步伐。人类概念空间不能只看作是客观事物的反映或投射,其基本特征是它的创造性。实际上正是由于人类概念空间创造性潜能在欧洲这一得天独厚地域的空前发扬,才引发了工业时代的诞生。但是 作为人类概念空间子空间之一的语言概念空间并没有出现类似的巨大变化。这是一项重要的启示,表明语言概念空间(不是语言系统本身)具有其相对稳定性。汉语符号系统的稳定性更有不同寻常的表现,自秦王朝统一汉字的两千多年来,常用汉字巨减而微增,文言文经历了至少30个世纪而基本保持不变,现代汉语实质上并没有改变汉字系统(虽然曾经出现过废除汉字的主张,但那显然是文化幼稚病的表现,并可能掺杂着某些外国势力分裂中国的图谋)的基本特性,这是世界文化史上一项独一无二的奇迹,为汉语文化的积累与继承创造了一个全球无与伦比的独特环境。面对着“菲-山挑战”的后继无力,汉字的光辉历史触发了HNC的一个思路,那就是语言概念空间本体的全面描述也许可以从汉语的“字义基元化、词义组合化”(参看拙著p25-26)的独特语言现象中找到出路。
提出语言概念空间的本体是概念联想脉络这一基本假设的目的在于跨越自然语言与计算机语言之间的鸿沟,主要为交互理解服务,而不是为交际理解服务。为达到这一目标 就必须具体构造出描述语言概念空间的符号系统,否则就会滑向单纯狐狸式研究的畅想之路。
这样 HNC的探索之路就从构造语言概念空间的描述符号体系入手,并制定了以下4项基本原则:第一要区分抽象概念与具体概念,这是对《尔雅》这一巨著基本思路的继承与发展;第二 要使词语、语句、语境三层面的符号表示相互依托,而不能相互割裂,这是对摩里斯语言符号系统三层面(句法、语义、语用)说的继承与发展;第三要彻底抛弃自然语言符号体系的任意性原则,代之以关联性原则,这是对汉语偏旁和印欧语系词根的词语构造方式的继承与发展;第四 要通过符号的高层、中层和底层表示方式具体表现概念的关联性,高层表现概念基元的纵横结构,即概念全局联想脉络的基本类型,中层表现概念局部联想脉络的基本类型,底层表现概念的网络特征。这4项符号构成原则形成对大脑神经元系统基本功能的模拟。第一项原则将简称“尔雅”原则,第二项原则将简称语境原则,第三项原则将简称关联原则,第四项原则将简称延伸原则。延伸原则是HNC理论的灵魂,是本节论述的重点。
全面描述语言概念空间并体现上述4项原则的符号系统将简称概念基元符号体系,对它的构造当然不是一件轻松的探索。HNC幸运的是它拥有一项独一无二的条件,那就是被命名为‘汉字精粹’的汉字符号集,这个符号集总共只有1200多个汉字,却可以全面描述抽象概念。其中每个汉字都充当一个概念的核心,由此核心可以衍生出一系列双字词和多字词,这些词语的集合是概念联想脉络的生动素材。例如“战”字的居前双字词有51个,居后双字词有60个,常用三、四字词(不计胆战心惊、战战兢兢之类)有10个以上。这些衍生词语对“战争”这一概念之联想脉络的描述相当完备,应该说这是一个无与伦比的语言现象,是汉语特有的巨大优势。HNC探索的第一步就是充分利用汉语的这一特殊优势,运用归纳与演绎相结合的方法,历时4年构造出概念基元符号体系的高层结构,其间构造过程与检验过程交叉进行,两者所花费的时间大体相当。正是基于对汉语这一特殊优势的感激之情拙著p26写道:如果菲尔墨和山克两位先生粗通汉语,概念层次网络理论也许在20年前就出现了。
拙著曾把概念基元符号体系简称为三大超级语义网络,这是一种突出重点的近似概括方式。比较准确的概括是7类抽象概念、两类具体概念、一类兼有抽象具体特性的两可概念,可简称“7-2-1”特性。
7类抽象概念的具体划分是:主体基元概念、第一类扩展基元概念、第二类扩展基元概念(拙著称复合基元概念,扩展是后来对复合的正名。扩展是对概念复合表达的简化转换,即对复合概念作再抽象处理。但复合这个术语仍然保留,因为并非所有的复合概念都需要作简化转换)、基本概念j、语言逻辑概念l和基本逻辑概念jl、综合概念s和语习概念f。
两类具体概念是基本具体概念jw和挂靠具体概念p、w、pw、gw、rw等。
两可概念是描述物理属性的概念x。
上面的小写英语字母代表概念类型。要说明的是前三类抽象概念都不带概念类型符号,拙著曾建议采用符号φ,但实际上不用。描述这些概念的第一位数字就标示了它们的类型。所谓三大超级语义网络就是指基元概念、基本概念和语言逻辑概念。
主体基元概念具有6个根节点,分别定义为作用0、过程1、转移2、效应3、关系4、状态5。为什么把这些概念叫做根节点?,因为它们象树木的根一样,可以生长出概念之树,将在下面说明的概念延伸结构就是概念之树的具体描述。这6个根概念简称作用效应链,是语言概念空间的描述核心,其高层表达形成概念全局联想脉络的基元或主体。拙著p29写道:
这6个节点是自然语言对万事万物进行总体表述的6个基本角度,也是一切事物发生、发展和消亡的6个基本环节。作用效应链反映一切事物的最大共性,作用存在于一切事物内部和相互之间,作用必然产生某种效应。在达到最终效应之前必然伴随着某种过程或转移,在达到最终效应之后 必然出现新的关系和状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会诱发新的作用,如此循环往复以至无穷,这就是宇宙和社会(注:社会二字是本文加上的)一切事物存在和发展的基本法则。
这6个环节的源头是作用,结果是效应。自然语言的主要内容就是对这6个环节进行局部和总体的具体表述。
作用效应链没有任何神秘,是对前述汉字精粹进行归纳与演绎并举的再抽象处理而自然形成的浓缩结果。但作出上述论断则经历了一段长时间的思考。在这一思考过程中得到《老子》一段论述的有力启示。
《老子》第二十五章说:有物混成,先天地生。寂兮寥兮,独立而不改,周行而不殆,可以为天地母。吾不知其名,强字之曰“道”,强为之名曰“大”,大曰逝,逝曰远,远曰反。
“道”是老聃哲学的本体,《老子》第一章就开宗明义指出“道可道,非常道;名可名,非常名。无名天地之始,有名万物之母”。第二十五章的论述是对第一章纲领性论述的进一步阐释。这一阐释里跟随在四个“曰”字后面的“大、逝、远、反”比较难以理解,历来的众多注释都显得未得要领。如果从作用效应链的视角来考察,可以给出下面的对应关系:
道 作用效应链
大 作用与效应
逝 过程与转移
远 关系与状态
反 新的效应又会诱发新的作用
这里不来说明这一对应关系的训诂过程,但应该指出思考的要点:上面对作用效应链6个环节的论述包含着三侧面的划分,即作用效应本身、效应完成之前伴随的过程与转移、效应完成之后出现的关系与状态,这三侧面与“大、逝、远”不谋而合。作用与效应描述“道”的两极,即“道”的根本,“大”字比较传神;过程与转移描述“道”的动态侧面,“逝”字比较传神;关系与状态描述“道”的静态侧面,是“道”一轮运作的最终结果,与初始状况相比较,“远”字比较传神。《老子》的这段论述与古希腊哲学家赫拉克利特的名言“我们跨进、又没有跨进同一河流;我们存在,又不存在”有异曲同工之妙,但更为精密。这一论述读之在先,但当时似懂非懂,从汉字精粹归纳演绎出作用效应链以后,才有豁然开朗之感,这种感觉本身就是一种启示。
两类扩展基元概念都专门用于描述人类活动或社会现象,人类活动毕竟是自然语言描述的主体。人类的绝大多数活动涉及作用效应链的一轮甚至多轮运作,都表现出“大、逝、远、反”的系列特性。如果直接采用作用效应链各根节点的概念之树去表达人类活动,那将是一个十分复杂的组合符号表示式。例如“战争”这一人类活动,它直接涉及从作用到关系的5个环节,间接涉及状态。因此 对人类活动的描述需要又一次抽象,即对已有抽象的再抽象。这一再抽象过程要充分体现上述语境原则。这就是说 对人类活动的描述需要自己的根节点,而这些根节点的概念之树将直接给出语境信息。
基于上述思考,人类活动根节点的设计将以两类劳动和三类精神生活为基础。
两类劳动指基本劳动和赋予特定意义的专业性劳动,三类精神生活指心理与理念活动、休闲活动、信仰活动。两类劳动与三类精神生活都具有时代特征,语言学叫历时性。但历时性又有形式与本质的根本差异。HNC把历时性不具有本质差异的人类活动命名为第一类扩展基元概念,把具有本质差异的人类活动命名为第二类扩展基元概念。前者包括赋予特定意义的专业性活动、心理与理念活动,后者包括基本劳动、休闲活动和信仰活动,并直接构成第二类扩展基元概念的3个根节点。
第一类扩展基元概念的根节点设置以心理活动为首,以理念活动殿后,中间设置思维活动、赋予特定意义的专业活动、人类的追求活动,共5个根节点。这种安排以及两类扩展基元概念数字表示的特殊设置都是为了语境生成的便利,这就不来细说。
7类抽象概念的第四类叫基本概念,具有9个根节点,依次代表序与广义空间、时间、空间、数、量与范围、质与类、度、两类属性之属性。这些概念是上述基元概念运作的平台,也是哲学研究的永恒课题。任何一个基元概念和具体概念都具有相应的属性概念,属性是抽象概念五元组的元素之一(参看拙著p20-22),但这些附属于各基元概念和具体概念的属性也有共性,故以属性之属性名之。它又具有两种基本类型,分别命名为属性之属性的判断性描述和评价性描述,前者如正反、对称、主次、新旧、本质与表象、相对与绝对、简单与复杂等,后者如善恶、是非、美丑、积极与消极等。属性之属性的评价性描述属于伦理学,而伦理学与论述者的立场密切相关,因此它不仅是哲学的永恒课题,也是社会学永无休止的重大争论之一。序是宇宙和社会赖以存在的基础,没有序就意味着混沌状态。而序本身又意味着一个空间的存在,这个空间有别于人类习以为常的实际三维空间,然而具有实际空间的一切特性,故以广义空间名之(社会就是一个典型的广义空间),并将序与广义空间定义为基本概念之首,其HNC映射符号是j0,随后7个根节点的符号依次是j1-j7。
7类抽象概念的第五类起了两个名字,一个叫语言逻辑概念,另一个叫基本逻辑概念。语言逻辑概念代表语言交际过程必不可少的逻辑工具,大体对应着传统语言学的虚词,包括介词、连词和代词,也包括语言学界有争议的部分副词。但HNC对这些词类按照语义块(见第三节)标记的需要重新加以分类,共设置12个根节点,符号是l0-lb。基本逻辑概念代表生命体赖以生存的两项基本判断:比较判断和“是否有无”判断,对应着两个根节点,符号是jl0和jl1。是否判断即真伪判断,有无判断即存在性判断,两者都是哲学和逻辑学的基本课题,基本逻辑的命名即来于此。
7类抽象概念的第六类对应着哲学方法论所关注的概念,具有4个根节点,相应的符号是s1-s4,依次代表认识与谋略、方式方法、条件和广义工具。这些概念具有上述基元概念、基本概念和逻辑概念的交织性,故以综合名之。
7类抽象概念的最后一项叫语习概念,语习就是语言习惯的简称。具有11个根节点,相应的符号是f1-fb,依次代表插入语、独立语、命名与称呼、表达方式、语气、非当代语、口语及方言、搭配、简化及省略、替换、修辞。这11个根节点(清单)是对语言形式有关现象(科学问题)的概括。其中的节点“表达方式”指语言学4种基本句型的前3种:陈述、疑问与祈使,感叹句则纳入语气节点。
众所周知 语言具有鲜明的语种、时代、地域个性,或简称社会特征。但从上面7类抽象语言概念的阐释可以看到,语言概念空间呈现出另外一番景象。主体基元概念(即作用效应链)、伦理之外的基本概念、基本逻辑概念与社会特征无关,第一类扩展基元概念、综合概念和语言逻辑概念弱依赖于社会特征,第二类扩展基元概念和伦理概念才呈现出较强的依赖性,惟有语习概念与社会特征密切相关。
两类具体概念实质上是对具体概念的两种描述方式,一是直接描述方式,与抽象概念一样设置根节点;二是间接描述方式,不设置根节点,只给出类型字母符号,其内涵的数字描述直接挂靠抽象概念里的基元概念、基本概念和综合概念。前者叫基本物,后者叫挂靠概念。
基本物设置了7个根节点,符号是jw0-jw6,依次代表热、光、声、电磁、微观基本物、宏观基本物、生命体。
挂靠概念设置了两个基本类型符号p和w,分别代表人和物。例如pa149代表外交人员,w1098a9代表各种“流”。前者数字符号a149的意义是:第一位数字a=10是根节点标记,代表第一类扩展基元概念的专业活动,一级延伸数字a1表示政治活动,二级延伸数字a13表示外交活动,三级延伸数字a149表示使节活动。后者数字符号1098a9的意义是:第一位数字1是根节点标记,代表作用效应链的过程,一级延伸数字10表示过程的基本特性与类型,二级延伸数字109表示运动过程,三级延伸数字1098表示物体或物质的运动过程,四级延伸数字1098a表示物质运动过程,五级延伸数字1098a9表示各种流动现象。其后续纵向延伸的挂靠概念w1098a99、w1098a9a3和w1098a9b分别表示气流、水流(注:水流多了一位数字3,去掉它表示液流)和泥石流。而物质运动过程1098a的横向延伸概念1098aa则表示物质运动的波动现象(词语“波动”的义项之一),w1098aa就表示各种物质波。
一些特定的挂靠概念也可以按根节点对待,如国家pj2、城市pwj2等。这时在这些符号后面加星号标记*,星号后面就是该特殊根节点的延伸符号了。
上面说到 每一个根节点都可以生成一棵概念之树。从“流”和外交使节人员的说明我们已窥见了过程概念树和人类专业活动概念树的一根枝条。概念树的全貌用概念延伸结构表示式来描述,下面给出一个全貌描述的简明示例。
作用效应链根节点之一关系的数字标记符是4,其一级延伸数字符号40表示关系的基本特性、构成与类型,40的一级延伸结构表示式如下
40:(-00,e2m,eam,α=b,3,7,\k=6)
这个表示式表明高层概念40具有7项一级延伸(对根节点4而言 是二级延伸),前3项代表关系的第一类基本特性,第四项40α=b代表关系的第二类基本特性,第五项403代表关系的第三类基本特性,第六项407代表关系的基本构成,第七项代表40\k代表社会关系的基本类型。
这个表示式里出现了一系列HNC特殊约定的符号,这些符号涉及概念树的所谓中层和底层表示。概念树是自上而下生长的,最上方是高层,随后是纵横交错的中层和底层。高层代表根节点的主体,即概念全局联想脉络的基本类型,相当于树干。不同类型概念的高层结构(层级数)有不同约定,作用效应链、基本概念、两类逻辑概念、语习概念、基本物的高层结构统一约定为两级,两类劳动、三类精神生活和综合概念统一约定为3级。考虑到第一类精神生活里的心理活动和精神状态密切相关,将两者合并成一个根节点,以71表示心理活动,以72表示精神状态,这样该根节点的高层概念形式上具有4级延伸,实质上仍是3级。拙著主要给出了语言概念符号体系的高层表示,在第二部分论文1的结束语(p43)里特别呼吁 “底层设计仍在探索之中,… 底层设计是一个复杂的系统工程,我们寄希望于与语言学家及同行们的合作”。到今天,又过去了8年,由于作者忙于HNC的各种应用项目,这个具有基本理论意义的系统工程仍然仅完成了不到一半,所以上面的呼吁依然有效。
HNC概念符号体系的中层表示用于概念局部联想脉络的揭示,底层表示用于不同概念之间关联性(即概念的网络性)的揭示。
概念局部联想脉络具有三种基本类型:对比性、对偶性和包含性,对比性概念对应语言学的近义词,对偶性概念对应反义词,包含性概念对应上下位词。拙著里论文1的1.2节对这三类概念有基本论述,这里需要补充的是关于对偶性概念的进一步阐释。对偶性概念的基本特性不是黑格尔氏的对立统一及转化观念所能完全概括的,许多对立概念不存在对立统一体或转化,许多对偶不是双重对偶而是三重对偶。因此 HNC建议使用黑氏对偶和非黑氏对偶的术语加以区别,黑氏对偶专用于描述双重对立且存在对立统一体的对偶概念,此外都纳入非黑氏对偶。后者具有12种类型,用3位数字符号ekm//ekn表示,e=14,k=(0-b),m=(0-3),n=(4-7)。变量k决定非黑氏对偶的类型,m和n的具体取值范围取决于k。黑氏对偶用1位数字符号m//n表示,m一定取数值0-2,n一定取数值4-6,其中1与2、5与6对立,而数字0//4则表示相应的对立统一体。语言概念的非黑氏对偶多于黑氏对偶。
描述概念网络性的底层符号有3种基本类型,分别叫做t延伸、\k延伸和i延伸。前两者是群体(存在横向结构)延伸,后者是单体(不存在横向结构)延伸。t延伸的数字范围为(9-b)//(8-b),\k延伸的数字范围为(1-b),i延伸的数字为3//7。
关系高层概念40的第一项延伸是包含性概念,表示关系的整体、局部和成员,对应符号是40-、40-0和40-00。第二项延伸40e2m是非黑氏对偶概念,表示关系的集合与单元。第三项延伸40eam也是非黑氏对偶,表示关系的等级性:上级、下级和平级,eam存在(但非必然存在)对立统一体ea0(即上下级的对立统一,既是上级的下级,又是下级的上级),但e2m不存在对立统一体e20。
40的前三项延伸构成关系的第一类基本特性。第四项延伸40α=b属于t延伸的αβγ三种特殊类型(这三种特殊类型的含义读者可置之不理)的α延伸,表示关系的第二类基本特性:对应性408、指向性409(双向与单向)、主从性40a和互动性40b(如主动与被动、同步与异步)。第五项延伸403属于i表示,具有延伸结构403t=b,表示关系的紧密性4039(如亲疏)、传递性403a(如遗传)和消长性403b(如相生与相克、同化与交融)。第六项延伸407也属于i表示,具有复杂的延伸结构,表示关系的基本构成:如彼此、异同、我你他、自身与其他等。第七项延伸40\k=1-6属于\k延伸,表示社会关系的基本类型,依次为社会分工关系、朝野关系、国际关系、民族关系、阶级关系和内外关系。
前面阐释的“流动”与“使节”都属于t延伸结构衍生的概念。
关于语言概念空间符号体系的论述已超过了预定字数,目的是希望向读者清晰传达一个基本信息,那就是体现前述4项构造原则的数字式符号体系是可以实现的,HNC已经迈出了坚实的一步。“尔雅”原则十分简明,关联原则比较明朗,延伸原则则十分烦琐,只能向读者描述基本思路,由于许多符号细节没有交代,很可能文字冗长而辞不达意并事与愿违。语境原则只得略而不述。
HNC概念基元符号体系的主要目的虽然是面向交互理解,但由于它直接触及语言的本体,着眼于语言概念空间的总体性描述,其研究结果必然有益于语言现象和语言法则的考察。这个问题在文献[4][6]里都有所阐述。
3 HNC语言学基础之二:主谓宾说
主语、谓语、宾语的概念是句法学的基础,在语言学中的核心地位已持续了2千多年之久。20世纪基于主谓宾说而发展起来的各种语法理论达数十种之多,一些著名的理论在计算语言学中得到直接或间接应用,成为句法分析技术的理论依托[1]。这些理论的共性是谓语中心假设,由谓语决定主语和宾语的语义角色。
从语句的形式结构来看 最简单的语句是‘主语+谓语’,常见形式是‘主语+谓语+宾语’,但有些语句显然有两个宾语,于是有直接宾语与间接宾语的双宾语说,这时的语句形式是‘主语+谓语+间接宾语+直接宾语’。附属于主语和宾语的有定语或定语从句,附属于谓语的有补语或补语从句,附属于谓语或语句整体的有状语或状语从句。对语句结构的这一描述方式确实呈现出形式的完美性。再配合谓语中心论的语义角色描述,就形成了所谓句法-语义分析的必由之路。这一必由之路符合“由表及里、由浅入深”的认识论法则。
但是 由表及里、由浅入深的认识法则不一定适合于计算机这一交互对象理解处理的运作过程。对计算机来说 感性认识比理性认识更困难,由表及里的方式反而难度更大,为什么不考虑直接及里、由里察表的反向思考方式?这正是HNC理论反思主谓宾说的起点。
上一节我们质疑了普适语法(UG)理论,提出了语言符号系统的本体不是UG、而是语言概念空间之概念联想脉络的假设,描述了语言概念空间的全部概念基元,并强调指出作用效应链是语言概念空间的核心。这一假设里隐含的第二个假设是:语句是语言概念空间最小全局联想脉络向语言空间的投射。
上节已经多次提到:作用效应链的高层表达就是概念全局联想脉络的主体或基元,这里对此作进一步阐释,并从与老聃之“道”或基督之“上帝“对应的概念“作用”入手。
作用的基本联想脉络是“作用-效应”,作用必然产生某种效应,效应必然来于某种作用,这是天字第一号概念联想脉络。这一联想脉络构成作用效应链——语言概念空间的核心。在HNC概念基元的数字符号体系里作用以不带类型字母的数字0表示,而效应以数字3表示,为什么?因为效应的实现必然需要一个过程,而过程有其时间与空间两个基本侧面,时间过程简称过程,空间过程简称转移,两者分别以数字1和2表示,这样效应只能编号为3了。效应实现以后形成的关系与状态就顺理成章地编号为4与5。
作用必然有某种对象来承受,无承受的作用是不可思议的,或者说是语言概念空间不予考虑的。这样就出现了作用的第一号全局联想脉络,那就是作用与承受,承受以数字符号01表示。如果作用由生命体来承受,则生命体必然对作用作出某种反应,生命体对作用不作出反应也是不可思议的,于是就出现作用的第二号全局联想脉络,那就是作用与生命体的反应,这一反应以数字符号02表示。作用-承受-反应似乎已经构成了作用联想脉络的完整描述,其实没有,我们还应该直接考察一下作用本身的基本特征:有两类特殊的作用应该予以特殊描述,一是被命名为免除的作用,二是被命名为约束的作用,两者的数字符号分别是03和04。免除是使某种作用消亡或暂时失去作用的一种特殊作用,约束是使作用对象不做什么或不发生某种变化的另一种特殊作用。这两种特殊类型之外的所有作用命名为基本作用,并以符号00表示,基本作用一定是使作用对象做什么或发生某种变化。这样就可以构成作用这一概念全局联想脉络的完整描述——基本作用、承受、反应、免除和约束。五者构成作用这一根节点的高层概念,即作用概念之树的主干,也叫作用的5种全局联想脉络,以区别于前述对偶性概念所描述的局部性联想脉络。
每一种全局联想脉络对应着语句的一种语义类型,简称句类。每一个句类就有它的语句表示式,叫句类表示式。这个句类表示式由若干项相加而成,这些项总称语义块,是主语、谓语、宾语的统称,但赋予了新的含义,它直接表示语义角色。这样就不只是由主语和宾语来充当语义角色,谓语本身也充当语义角色;不是主语和宾语的语义角色由谓语来决定,而是三者的语义角色都由句类来决定。
语言概念空间概念之树的主干是确定和有限的,已如上一节所述。由此导出的自然结论是:全局概念联想脉络的基本类型是确定和有限的,因而句类也是确定和有限的。这就是从语言概念空间俯瞰语言空间所看到的基本景象。上面我们具体分析了作用这一概念之树的主干:基本作用、承受、反应、免除和约束,五者的对应句类表示式分别是:
XJ=X0A+X0+X0B
X10J=X1B+X10+XBC
X20J=X2B+X20+XBC
X31J=X3A+X31+XABC
X4J=X4A+X4+X4B
这五个句类表示式代表作用句的5种基本类型,也简称句类代码,分别命名为基本作用句、承受句、反应句、免除句和约束句。
表示式中的符号J表示句子,取自汉语拼音“句子”的第一个声母符号j,X代表作用,后面的附属数字1、2、3、4对应着作用高层概念的第二位数字,与句类名称对应。基本作用句的第一语义块叫作用者(符号X0A),相当于传统语义学的施事,第二个语义块叫基本作用(符号X0),第三个语义块叫基本作用的对象(符号X0B),相当于传统语义学的受事,但HNC赋予X0B具有下列构成表示式:X0B=XB+YB+YC,这一表示式的详细说明见拙著p128和p338。承受句的第一个语义块叫承受者(符号X1B),第二个语义块叫一般承受(符号X10),以区别于主动承受(符号X11)和被动承受(符号X12),第三个语义块叫作用者及其表现(符号XBC)。反应句的第一个语义块叫反应者(符号X2B),第二语义块叫一般反应(符号X20),以区别于其他类型的反应(说明从略,下同),第三个语义块叫反应引发者及其表现(符号XBC)。免除句的第一个语义块叫免除发动者(符号X3A),第二个语义块叫主动免除(符号X31),以区别于其他类型的免除,第三个语义块叫原作用者施加于其对象的作用(符号XABC)。约束句的第一个语义块叫约束施加者(符号X4A),第二个语义块叫约束(符号X4),第三个语义块叫被约束对象(符号X4B)。
这些表示式右式具有如下的形式特征,一是第二个语义块只有符号X,而其他语义块都是X与A//B//C的组合(注:基本作用句实际简写成XJ=A+X+B,约束句实际简写成X4J=A+X4+X4B)。只带符号X的语义块叫特征语义块EK,其他叫广义对象语义块JK。特征语义块EK有7种基元符号X、P、T、Y、R、S、D,前六者代表作用效应链的6个环节,D代表判断,判断对应着思维活动和基本逻辑概念,这七者也简称广义作用效应链。广义对象语义块JK有3种基元A、B、C,分别代表作用者、对象和内容,详细论述见拙著里的论文2(p44~54)。这些语义块的排列顺序叫语句格式,上面5个句类表示式的语义块排列顺序叫基本格式,其特征语义块EK都排列在第二位,排在EK前面的第一个广义对象语义块的形式符号为JK1,排在EK后面的广义对象语义块的形式符号依次为JK2、JK3、JK4等。语句基本格式的这种语义块排序方式参照了所谓SVO语言的语言习惯。改变语义块基本格式的排列顺序并在JKm(JKm编号不变)之间加上边界标记符号的叫规范格式,标记符号不全的叫违例格式。汉语语句的规范格式特别发达,著名的“把”字句是典型规范格式之一。
关于句类表示式与主谓宾说的关系 应从继承和发展两方面加以说明。继承方面主要是:(1)特征语义块EK与述语概念对应,(2)广义对象语义块JK1与主语对应。发展方面主要是:(1)将主语和宾语的概念深化为作用者A、对象B和内容C三种JK基元,其中内容基元C的引入是深化的关键,(2)将述语的概念深化为7种基元,其中作用效应链的发现是深化的关键。
这两项发展实践了上述“直接及里、由里察表”的新思路,揭开了从语言概念空间俯瞰语句现象的新视野。在这一新思路的引导下,语句的无限性里呈现出句类的有限性;在这一新视野里,世界知识的无垠也转换成句类知识的有限。下面就来对这两点作简要说明。
上面给出了作用这一根节点的高层概念表示,它们一一对应着作用全局联想脉络的基本类型。作用效应链每一环节的每一个高层概念都对应着一个基本句类,或者说这就是当年进行作用效应链高层概念节点设计的初衷。这样设计的结果就得到了语言概念空间的全部高层概念节点表[7],其数量当然是有限的。这一高层概念节点表按其与句类的关系可以分为3大类型,第一类直接决定语句的语义类型(即句类),第二类间接决定句类,第三类与句类无关。第一类包括3类基元概念和基本逻辑概念,第二类包括基本概念、综合概念和物性概念,第三类包括语言逻辑概念、语习概念和具体概念。第一类概念里又要区分两种类型:决定基本句类的高层概念和决定混合句类的高层概念,基本句类是描述广义作用效应链一个环节的语句,混合句类是描述广义作用效应链两个或多个环节的语句。形成基本句类的就是直接描述广义作用链的全部高层概念,包括主体基元概念、基本逻辑概念、第一类扩展基元概念里的心理活动和思维活动,其他都形成混合句类(但个别概念可简化成基本句类)。至于底层概念绝大多数形成混合句类。
依据直接描述广义作用效应链的高层概念的数量 HNC理论得出了存在57组基本句类的著名结论,按基本句类两相混合的原则,理论上就可以导出混合句类为57*(56)=3192组的结论。对广义作用效应链多个环节的描述可简化成仅取头尾两环节的描述,这样句类的整体描述就呈现出“57+3192”的景象。下面对57组基本句类的基本特征作五点分析。
(1)57组基本句类按其句类表示式的语义块数量来划分 有两主块句、三主块句和四主块句的区别(注:句类表示式里的语义块也叫主语义块,简称主块,与主块对应的还有辅块,辅块不进入句类表示式,有7种基本类型:方式、工具、途径、参照与立场、条件、起因与动机、结果与目的,每一基本类型又分为若干子类。辅块由综合概念、基本概念和语言逻辑概念描述。在传统语言学里辅块一定是状语,但状语不一定是辅块)。每个语义块就是一种语义角色,基本句类大约有200种左右语义角色,混合句类大约有一万种语义角色。然而重要的不是语义角色的总数量,而是在确定了语义块是句类的函数这一重要结论之后,不仅语义角色的完备性研究可以划上句号(参看拙著的论题7和论题13),更重要的是可以把世界知识的精华纳入到句类知识的框架里去描述,于是世界知识的无垠就转换成句类知识的有限,尽管这一“有限”是一项极为庞大的系统工程。关于句类知识的系统论述请参看苗传江的博士论文,要点可参看文献[4]。
(2)基本句类按其是否可能采用规范格式来划分 有广义作用句和广义效应句的区别,广义作用句可以采用规范格式,广义效应句不能采用规范格式,只能采用基本格式或违例格式。广义作用句一定由作用、转移、关系、思维概念构成,广义效应句一定由过程、效应、状态、基本逻辑概念构成。汉语的规范格式十分发达,而英语主要采用基本格式。在57组基本句类中编号为1-31的31组对应着广义作用句,编号为37-57的21组对应着广义效应句,编号为32-36的5组属于所谓两可句类。
(3)基本句类按其是否具有特征语义块EK来划分 有无EK(不是省略EK)句类和带EK句类的区别,57组基本句类中有5组无EK句类,另外某些组中还有个别的无EK句类表示式。汉语著名的主谓谓语句就是无EK句类之一,属于57组基本句类的最后一类,叫简明状态句,其句类表示式为S04J=SB+SC。文献[4]对简明状态句的句类知识作了比较透彻的描述,建议读者参阅。英语书面语在一级表达形式上不存在无EK句类,但二级表达形式里仍然存在(语句表达形式级别的概念见下文)。
(4)基本句类按其最后一个JK是否具有先验块扩特性来划分 有块扩语句与常规语句的区别,块扩语句实质上是一种特殊形式的复句,其前后两小句的句类形式符号依次是EpJ和ErJ,按传统语言学“成活”的说法,ErJ可独立成活,而EpJ一定不能独立成活。如果ErJ不是无EK句类,则该块扩语句就是双谓语句,而块扩句类之一的扩展主从关系句一定是双主语句。这样语句的双宾语、双主语和双谓语现象就呈现出一个全面的景象,而且这一景象的所以然也一清二楚。
(5)基本句类中一些特定句类的特定JK具有先验句蜕特征,所谓句蜕是指JK或fK(或两者一部分)的表达内容实质上涵盖一个语句。看下面的句群:
今天||~,我们||在这里||~隆重集会, Cn+Y9S*10J
同全国各族人民一道||~庆祝||{中国共产党|成立|八十周年}, Ms+X20J
[也]同\世界上一切<爱好|和平+和追求|进步|的人们>/一道||~ Ms
瞻望||\{中国和世界|发展}的光明前景/。 D01X20*21J
这里给出了HNC的语料标注符号,每一语段的右方还给出了句类代码标记和辅块类型标记。符号“||”和“||~”分别是一级语句的主块和辅块后标记,符号“|” 和“|~” 分别是二级语句(即句蜕语句)的相应标记,对称符号{…}、<…>和\…/表示3种基本类型的句蜕:原型句蜕、要素句蜕和包装句蜕。二级语句的句类代码略而未标,其他标记则略而不说。这里要强调两点:第一 “庆祝”语句和“瞻望”语句对应句类表示式的语义块XBC(参看第三节给出的反应句句类表示式)具有句蜕先验性,前者的原型句蜕“中国共产党成立八十周年”和后者的包装原型句蜕“中国和世界发展的光明前景”都是句类知识预料之中的语言现象。第二 “爱好和平和追求进步的人们”这一短语也是一种句蜕现象,是语句“人们爱好和平和追求进步”的句蜕形式表达,这种句蜕现象极为普遍,而且最常见的形式是将某一语义块作为短语描述的中心,其他语义块充当该中心的修饰成分。这一常见形式又有两种基本类型,分别以JK和EK为描述中心。这两种常见要素句蜕分别叫JK句蜕和EK句蜕。这里的例子属于JK句蜕中的JK1句蜕。汉语“的”字的基本句法功能之一是充当要素句蜕的标记,那就是把描述中心搬移到“的”字后面,原句的其他成分都搬移到“的”字前面,这使得汉语的要素句蜕表达远比英语简明而规范,大大弥补了汉语形态不发达的弱点。句蜕现象是所谓复杂语句的基本根源,HNC因此特别引入了句蜕这个术语和相应的EgJ和ElJ概念。EgJ叫全局语句,ElJ叫句蜕语句。这里的下标符号g和l取自英语global和local的第一个字母,意思是全局和局部。句蜕语句中可以再次出现句蜕,因而理论上可以有一级、二级、三级直至n级小句的说法,但实际语句中的二级小句已比较少见,三级小句更是极为罕见的小概率事件了。
以上五点是从语言概念空间俯瞰语言现象的基本景观。这些景观是否对应用语言学有所裨益 我们很愿意与在座的同行们一起研究。
在句类知识以及句蜕、块扩、EK复合构成(后两者本文未及讨论)等概念的引导下,汉语语句的多动词现象和汉语词语的词性活用现象的处理并不象人们原来想象的那么困难,说汉语的句法分析难于英语是分析方法和工具落后造成的一种现象,是袭用西语思维方式考察汉语现象的局限性表现,是由于未能从语言概念空间俯瞰语言现象的结果。汉语和英语的分析处理各有自己的优势和弱势,从理解处理的角度来看,其总体难度大体相当。
当然 汉语EgJ与ElJ的辨认毕竟是一个巨大难题。这一难点的解决要同EpJ与ErJ以及复句EmJ(m=1,2…)的辨认统一进行。语句分析还有诸多其他难点。拙著的论题部分主要是为解决这些难题而写的,后来还为此写了“自然语言理解处理的20项难点及其对策”的专文。上述结论不只是理论研究的预期,已经得到HNC句类分析技术的证实[5]。
4 结束语
HNC是一个描述语言概念空间的符号理论体系,这个符号体系分3部分:一是概念基元符号体系,对应语言系统的词语;二是句类基元符号体系,对应语言系统的语句;三是语境基元符号体系,对应语言系统的句群直至篇章。本文仅介绍了前两个符号体系的概貌。这3个符号体系的完整描述将以《手册》的形式与读者见面,名称分别是《HNC概念基元符号体系手册》、《句类知识手册》和《HNC语境框架知识手册》。3部《手册》的编撰至少需要10年时间。HNC既是一项理论工程,又是一项技术工程,3部《手册》是理论工程的主体,网络世界海量自然语言信息的抽取和网上主要自然语言文本的机器翻译是技术工程的主体,其最终成果是投放市场的相应产品。两项技术工程里当然还存在大量的自身理论课题。工程的特点是“土建”工作量远大于设计工作量,理论和技术工程都是这样。自然语言处理工程“土建”工作的关键部分都不是大规模真实语料库的统计可以替代的,主要还得依靠研究者“一叶知秋”的敏锐观察力和判断力。对此必须有一个清醒的认识。
HNC幸运的是:最近6年 在许嘉璐教授的亲自指导和推动下 HNC技术工程取得了巨大进展。这一进展必将吸引更多的优秀人才投身到HNC事业。
参考文献
[1]冯志伟 1995 自然语言机器翻译新论 语文出版社
[2]黄曾阳 1998 HNC(概念层次网络)理论 清华大学出版社
[3]黄曾阳 2001 HNC的发展和未来 汉语学报 第3期
[4]黄曾阳 2003 语义及概念体系在NLP中的作用
见《汉语自然语言处理若干重要问题研讨》(即将出版)
[5]晋耀红 2003 汉语理解处理中多动词难点的研究与实现
中科院声学所博士学位论文
[6]林杏光 1997 正确引导汉语理解与汉语研究——事关人工智能研究的一个重要前提
科技导报,4
[7]苗传江 2001 HNC句类知识研究 中科院声学所博士学位论文
[8]许嘉璐 2000 现状与设想—试论中文信息处理与现代汉语研究 中国语文 6期
[9]邢福义 1992 从基本流向纵观现代汉语语法研究四十年 中国语文 6期
[10]张 全 萧国政(主编) 2001
HNC与语言学研究 武汉理工大学出版社