自然语言处理新天地（之三[1]）

HNC的发展和未来

黄曾阳

（中国科学院声学研究所 100080）

1引言：提倡学术碰撞──并在语言学研究中探索

超数学、超逻辑的超碰撞模式

学术交流的根本意义在于引发学术碰撞，学术碰撞是科学进步的根本动力。没有碰撞的学术必然衰落，碰撞活跃的学术必然兴旺，这是东西方科学技术发展形成巨大反差的根本原因。500年前，西方世界就开始重视培育有利于学术碰撞的社会环境，而东方世界到今天还对此重视不够。能否扭转这种状况，是东方能否在新世纪与西方并驾齐驱的第一要素，其它都不是第一位的。

相互碰撞的前提是相互了解。就HNC来说，与兄弟学科双向碰撞的条件亟待改善，因为拙著《HNC理论》十分难懂。当然，拙著的难懂不等于HNC理论的难懂，但两者之间终究存在着一定关联性。准确的说法也许是“HNC理论并不难懂，但《HNC理论》那本书确实难懂”。书难懂，已是事实和历史，可以暂时不去管它。理论难懂，则需要尽快采取补救措施，否则，这次研讨会就难以完全达到预期的交流目的。所以，我的报告题目虽然采用组织委员会指定的名称“HNC理论的发展与未来”，但重点是力求对HNC理论作一个易懂的阐释。这是一件很费力的事，深感心有余而力不足，效果也许适得其反。但作为始作俑者，不能不做一点弥补过失的事。

这次研讨会的名称是“HNC与语言学研究学术研讨会”。所以，不能把这次研讨会仅看作是许嘉璐先生最近提出的中文信息处理学界第一流派和第二流派之间的首次学术交流，因为第一流派不等于第二和第三流派之外的语言学，第一流派只是语言学中关注语言信息处理的分支。这个分支领域在中国还不够强大，这次研讨会希望促进它更加强大起来，希望原来不关心或不太关心语言信息处理的语言学家今后能给予更多的关注。当然，这个希望是不应该由我来表达的，请原谅我这种越俎代庖的失礼。实际上，我想说的是下面两点：第一，HNC也许能够为语言现象的考察和阐释提供一些新的视野和方法。第二，语言学界各领域对HNC的参预意味着不同流派的学术碰撞，将对ＨＮＣ的发展提供新的动力，我们对此寄以厚望。

学术碰撞并不是什么高深莫测的东西，从下面的实例就能清楚地看到这种碰撞现象。大家熟悉的下面两个语串—“热爱人民的周总理”“他在树上摘花”，第一和第二流派所采取的分析方式有很大的差异。

第一流派会这样提出问题：

热爱人民的周总理=热爱（人民的周总理）？

=（热爱人民）的周总理？

他在树上摘花=他在树上+他摘花？

=花在树上+他摘花？

HNC则以另一种方式提出问题：

热爱人民的周总理=>热爱||人民的周总理

<热爱||人民||的周总理>

“热爱”是全局特征语义块Eg？

还是局部特征语义块El？（“热爱”是龙头老大么？）

２号难点（Eg／El 辨认难点）

他在树上摘花=>他||在树上||摘||花

“摘”是摘植物花果、摘附属物、摘牌子、摘右派帽子

中的哪一个“摘”？

1号难点（多句类代码难点）

“在树上”=条件辅语义块Cn2

显然，两流派对第一语串的关注焦点相同，但阐释方式有很大差异；对第二语串则连关注焦点本身就完全不同。关注焦点的差异来于两者的“立场”不同，第一流派站在“以人为本”的立场，而HNC站在“以计算机为本”的立场。阐释方式的差异来于两者的“观点、方法”不同，第一流派以“主谓宾定状补”为基本分析工具，把句法树的生成作为语句分析的基本目标；而HNC则以语义块和句类表示式为基本分析工具，把句类的认定和语义块构成分析作为语句理解的基本目标。

站在“以人为本”的立场，“以语词解释语词”的传统释义方式是天经地义的，没有改变之必要；站在“以计算机为本”的立场，则传统释义方式被认为是不可取的，至少是有严重缺陷的，必须加以改变。按照句法树的观点，树的构成即代表对语句的一种理解；按照HNC的观点，语义块之间概念联想脉络的形成才代表对语句的基本理解。无庸讳言，两流派的分歧是巨大的。但是，也应该看到，两者在立场和观点上的不同，并不是你死我活的“阶级斗争”，而是可以互相取长补短的学术碰撞。因为，“以人为本”与“以计算机为本”并非水火不相容，两者都需要运用“以已知阐释未知”的根本原则。句法树和句类表示式也不是水火不相容，两者实际上都在对一个语串按照各自的标准进行组装，虽然组装的总体方式差异甚大，但某些局部组装的“工艺”和“技巧”并非不可以互相借鉴，这方面的潜力究竟有多大，不经过相互碰撞是难以作出准确判断的。

上述碰撞仅仅是语言学内部两个流派之间的碰撞，与语言学研究所需要的全面碰撞相比，只是一个小小的局部碰撞。也许可以说，在所有的学术领域中，当代语言学研究可碰撞的学术范围之广和碰撞火化的奇特是独一无二的，是当之无愧的学术碰撞之王，其具体表现就是标题所概括的三“超”。

超数学的“超”有两层意思，一是指语言现象的表述要尽量纳入数学的确定性模式，但不可能全部纳入，二是指所谓“数学确定性丧失”的危机也许可以从语言不确定性的探索中得到启发甚至找到出路。因此，语言学与当前数学的结合要寻求某种“超然”的方式。

超逻辑的“超”与超数学的“超”类似，一是指语句陈述要尽量纳入逻辑命题的范畴，但不可能全部纳入。二是指语言描述的因果关系不能都转化为逻辑演绎。因此，语言与现代数理逻辑的结合也要寻求某种“超然”的方式。

超碰撞的“超”也有两层意思，一是指碰撞的类型不是通常意义下的人文科学与自然科学的简单碰撞（如经济学的运用数学方法，历史学的运用天文学知识等），而是可以在基本概念和基本方法上迸发出思想火化的超级碰撞。二是指碰撞的范围不是与自然科学的个别领域，而是涉及文理工的众多基本领域。

两“超然”方式，在下面还会谈到。至于三“超”之说，实际上是对西方一派学者意见的归纳，这样的意见在国内不大容易听到，因为有人过于喜爱跟随国际主流，视主流之外为“异端邪说”。但是，主流之外不等于异端邪说，压制是错误的。由于本届研讨会的组织者提倡学术碰撞，所以我有勇气说了上面的话，并把它作为引言的标题。

2、HNC只研究自然语言的理解过程

HNC理论是一个关于语言概念空间的理论，但它只研究这个空间的部分特性，即与自然语言的理解过程有关的特性，这是HNC对自身研究范围的基本定位。

语言概念空间是人类概念空间的一个子空间，与自然语言空间相对应。

语言概念空间具有第一位的同一性（共性）和第二位的差异性（个性），可以假定人类具有共同的语言概念空间。另一方面，人类拥有众多的自然语言空间。但多种多样的语言空间是同一语言概念空间的外在表现形式，自然语言空间与语言概念空间存在相互映射或相互转换的关系。如果我们把从自然语言空间到语言概念空间的转换叫做映射，把语言概念空间到自然语言空间的转换叫做逆映射，那么显然，映射是自然语言的理解过程，而逆映射是自然语言的生成过程。对语言现象的研究是否应该区分这两个不同的过程呢？HNC认为，这一区分不仅是必要的，甚至是关键性的。任何一种现象或过程，当存在正反两方面的对偶特征时，如数学中的变换与反变换，物理学中的裂变与聚变，通讯中的编码与译码，都要对正反两方面分别加以研究，这是科学研究的基本法则之一，对语言现象的研究当然也应该遵循这一原则。

HNC理论只研究语言理解过程，有意避开语言生成过程。为什么？语言太复杂了，不可能“毕其功于一役”。乔姆斯基先生的初期转换生成语法理论，有人认为它脱离语义是一个疏忽或缺陷，其实这正是乔先生的高明之处。该理论的本意就是只管语言生成过程，避开语言理解过程。当然，这两个过程不可能截然分开，两过程的研究也必然具有互补性，因为两者由同一个“顶头上司”思维过程统管着。但这两个过程终究具有本质差异，如果不加区分，反而会对自然语言研究的整体思路和策略产生不利影响。特别是“以计算机为本”的计算语言学似乎更应该重视这一区分，并从这一角度对自己的研究历史进程进行必要的反思。

语言概念空间的存在性是一个非常复杂的问题，涉及大脑或思维的根本奥秘。但必须假定语言概念空间的存在，否则语言理解过程的研究将陷入无源之水的困境。所以，HNC理论以这一存在性为其基本假定。黑格尔先生曾经说过，“哲学的开端就是一个假定”，HNC理论认为，对语言本质的研究，必须以上述存在性假定为开端。

人类的概念空间在不断发展，语言概念空间也在不断发展。但是，在笛卡尔和牛顿之前的漫长历史时期，这两者的发展都是非常缓慢的。是在这两位历史巨人的推动下，人类概念空间才获得了迅猛的发展，但语言概念这个子空间的发展步调依然。

如果把概念空间看作是人类理性认识的“加工厂”，那么，这个“加工厂”的概念“加工”能力，现代与古代有天壤之别，原因何在？但语言概念空间的“加工”能力并没有什么变化，原因又何在？

第一个问题可以说是笛卡尔、牛顿之后哲学探索的主题，从而促成了哲学研究本身从本体论向认识论的历史性转变，并取得了辉煌战果。第二个问题应该说在19-20世纪之交也引起了哲学家的广泛注意和思考，并促成了语言哲学的诞生，但遗憾的是成效不大。

第一项探索的重要成果之一是符号学的诞生，被誉为现代语言学之父的索绪尔先生也是符号学的奠基人之一。自然科学的巨人们创立了一系列前所未有的符号体系，通过这些符号体系，人们对客观事物的规律性，甚至对人类抽象思考的产物本身，能给出科学的表述。这就是符号学形成的背景。符号学的精髓也许可以概括成这样一句话，那就是：科学设计的符号就是科学的生命细胞。

20世纪西方有所建树的哲学家几乎每一位都从符号学的观点考察过自然语言现象，可惜他们的考察仅局限于自然语言符号体系本身的一般特征，未能上升到“将符号再符号化”的高度。而自然科学家的理论探索应该说一般都是处于这一高度的。

将自然语言符号体系再符号化有两方面的含义，一是对语言抽象（语言本身是对现实空间的抽象）进行再抽象，应该说这是语言概念空间研究中最为重要的基础性研究。二是将自然语言符号体系形式化，要抛弃自然语言符号体系的任意性原则（这是索绪尔先生十分强调的基本语言原则之一），而代之以关联性原则。站在“以计算机为本”的立场，这两项研究对语言理解过程显得尤为关键。但面对语言的无限性，语言学界感到困惑，有关的论述很多，这里引用一段比较有代表性的论述。

假定语言L的全部表达式组成集合W={E1,E2,…,En,…}，

怎样确定各个Ei的所指U={M1,M2,…,Mn,…}？

怎样确定各Ei和各Mi之间的关系，亦即怎样确定映射法则（E）R（M），

使W映入U和使U映入W？

……

然而W的成员的所指却更为缥渺多变，甚至无迹可求。因为我们不

知道U中有哪些基本单位，也不知道有哪些复合单位，所以，我们

不知道U是不是可列集，甚至也不知道怎样列举U的各个成员以及

U的成员应该用何种方式去表示。

在国内的理论语言学论文中，像这样经过深沉思考的论述应该说还是比较难得的。但是，作者在语言“缥渺多变”的前提下，一连讲了4个（实际上有5个）“不知道”，接着既没有回顾许多先行者为了变“不知道”为“知道”而进行的探索，也没有进一步论证为什么就“不能知道”，作为20世纪90年代的论文，不能不说是有点落后于时代了。

引文的W和U就是本文所说的自然语言空间和语言概念空间，“使W映入U”就是本文所说的“将自然语言符号体系再符号化”。值得注意的是引文中的“L的全部表达式”和“各个Ei的所指”这两个提法。就提法本身来说，完全符合语言哲学的标准，然而却是导致悲观主义的祸根。第一个提法不利于“映射法则（E）R（M）”的建立，因为在建立这些法则时必须采取各个击破的策略，不能把“全部”一刀切。第二个提法不利于双向思维，为什么仅考虑“所指”，而不考虑“反所指”？“使U映入W”不就是“反所指”么！实际上对“所指”的研究主要是一个归纳过程，而对“反所指”的研究主要是一个演绎过程，而解决作者所说的5个“不知道”，是需要将归纳与演绎、分析与综合的方法紧密结合起来的。

关于语言理解过程研究的方法论说明，本来可以到此为止，但美国著名心理学家黎黑先生关于“狐狸”与“刺猬”的一段话，我觉得值得在这里介绍一下，因为它对于语言学的碰撞式研究能提供一些有益的启示。黎黑先生的原文如下：

古希腊诗人阿奇洛丘斯说过：“狐狸知晓许多事物，而刺猬只懂一件重要的事”。杰出的思想史家贝林爵士用这句寓意深远的话表达了他对作家和思想家存有这一天壤之别的看法。一般说来，人们之间也可能存有这一深刻的差异。两者之间截然有别，一方面“刺猬”爱把一切与一种单一的中心观念相联系，根据这种单一的普遍的组织原则，他们的存在以及他们所说的一切便有了意义；另一方面，“狐狸”却追求多种目标，这些目标通常或毫无联系或相互矛盾，即使有联系，也仅仅是事件方面的关连。

Rorty先生在《Philosophy and the Mirror of Nature》一书中区分了“大P”和“小P”哲学。“大P”哲学家是哲学界的“刺猬”，他们雄心勃勃地想使哲学成为其他一切学科的首要原则和基本原则，为科学家和人文主义者提供建构理论的主要原理。相反，“小P”哲学家是哲学界的“狐狸”，他们批判地检验自己那个时代的思想，提出他们所希望的富于启发性和指导性的述评，但不提供他们自己的观点，因为他们认为本来就不存在什么基本观点。因此，构思出理想国的柏拉图是一只理性主义的“刺猬”，是一个“大P”哲学家；而他的老师苏格拉底，那只叮在国家臀部上的牛虻则如一只“狐狸”，是一个“小P”哲学家。

黎黑《心理学史》第二版序言

引这段话的目的是想说明，语言学界同样存在“大L”语言学家和“小L”语言学家。目前的情况是“小L”语言学家似乎太多了一点，更重要的是，我们需要“大L”与“小L”相结合的语言学家。通过引言中所说的“超”碰撞，这样的语言学家会逐步成长起来的，而这次研讨会将起到“催生”的作用。

（未完）