跨语言检索 - 王朝网络宽屏版

跨语言检索定义跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息，也就是一种跨越语言界限进行检索的问题。

跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识，是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术，如文字切分技术、词汇翻译、词频技术、索引技术等。

跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。当时的研究主要针对国际联机检索进行的，由于检索系统不普及，因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点，是在Internet迅猛发展的90年代后期，在很大程度上，Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题，并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表，一些实验性跨语言信息检索技术相继问世。

国内对于跨语言信息检索的研究很少，所查找到的一些资料基本都在2001年以后。国际上，从跨语言信息检索研究领域定期召开的一些会议，也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。

其中TREC是由美国国家技术标准局组织召开的国际会议，其旨在促进大规模文本检索领域的研究，加速研究成果向商业应用的转化，促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6，7，8，9，10五次会议对于跨语言信息检索问题给予了极大的关注，每次的侧重点不同。TREC-6，7，8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究；在TREC-9会议上，对中英文的跨语言检索问题进行了研究；在TREC-10会议上，对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。

跨语言信息检索需要解决如下几个主要的问题：

(1)提问与文献分属不同语言。这是跨语言信息检索的最主要特征，由于提问与文献分属不同的语言，因此在两者之间需要通过词典等方式建立匹配的对应关系。

(2)词的歧义和多义性。由于原始提问中有些词义的不确定性，系统中需要借助歧义性、多义性分析机制，将原始提问排歧后转换成最终提问。

(3)提问中词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号，因此词的切分问题成为此类语言的跨语言检索研究要点之一。

(4)文献的多语言性。在跨语言检索系统中，由于原始文献是用不同的语言书写的，因此语种识别是检索的基本工作，此类情况常出现在自动标引的系统中。

(5)输出结果的排序方式。检索结果中，不同语种的文献如何排序，如何对不同语种的文献进行相关度的计算，也是跨语言资讯检索系统必须研究的问题。

跨语言检索原理1跨语言检索的相关技术跨语言信息检索是指用户以一种语言提问，检出另一种语言或多种语言描述的相关信息。例如，输入中文检索式，跨语言检索系统会返回英文、日文等语言描述的信息。这里的信息可以是文本信息也可以是其他形式的信息，目前研究最多的是跨语言文本信息检索和跨语言语音信息检索。在跨语言检索中，提问式所使用的语言通常称为源语言，源语言一般是用户的母语；被检索文档所使用的语言称为目标语言，目标语言可以是用户不熟悉甚至完全陌生的语言。与跨语言检索相对应，提问式语言和文档语言相同的检索称为单语言检索(monolingual retrieval)。

网上信息跨语言检索的过程是:网络蜘蛛(Web spider)搜索网络信息，在统计方法、自动标引技术的支持下编制以语言为基础的索引，服务器接受以一种语言描述的提问式，并返回跨语言检索的结果，这一结果是由不同语言描述的信息集合构成的。在跨语言检索中主要涉及的技术有计算机信息检索技术和机器翻译技术:计算机信息检索技术完成提问式与文档之间的匹配，机器翻译技术完成不同语言之间的语义对等。

1.1计算机信息检索技术

计算机信息检索技术目前已趋于成熟。在单语言检索中，计算机检索技术主要是自动搜索技术、自动标引技术和自动匹配技术。检索系统利用网络蜘蛛进行网络信息的收集，然后利用自动标引技术对搜集的信息进行标引形成索引数据库。用户输入检索式后，计算机把检索式与数据库中索引项进行匹配，按检索式与标引项相关性大小降序输出检索结果。跨语言检索中实现信息检索的原理和方法与单语言检索是相同的，只是在检索的过程中加入语言处理技术，使一种语言能够与其它语言对应。

1.2机器翻译技术

机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一语言文本的计算机程序。机器翻译技术的核心是保持两种文本(源语言文本和目标语言文本)的语义对等，由于在翻译过程中，源语言文本中的词往往对应目标语言描述的几个词，所以要选择最合适的词或其他的处理以达到含义的一致。由于这涉及到复杂的计算机语义分析技术，因此机器翻译的效果还远未达到人们所期望的水平。在跨语言检索中，需要利用自然语言处理与机器翻译相结合的技术提高翻译的准确性，因为在跨语言检索中，翻译的准确性直接决定了检索的准确性。

计算机信息检索技术和机器翻译技术是跨语言检索中所利用的主要技术，由于计算机检索技术已比较成熟，而机器翻译技术的实用性还有待发展和完善，因此跨语言检索所要解决的问题实际上是一个语言处理问题。跨语言检索不同于单语言信息检索和机器翻译，也不是两种技术的简单叠加，它是一种有机的融合，有着自身的特点和专门的研究内容。2跨语言检索的实现方法目前跨语言检索的主要实现方法有:提问式翻译、文献翻译、提问式—文献翻译、中间翻译和非翻译。

2.1提问式翻译方法(query translation)

提问式翻译的过程是把源语言的提问式利用机器翻译技术翻译成目标语言提问式，再进行单语言检索。利用提问式翻译的方法进行跨语言检索的实质是把源语言提问式做了适当转换，其基本的过程和技术还是单语言检索，而且检索返回的结果是用目标语言描述的，这增加了用户利用信息的难度。当一个源语言提问词有多个目标语言词与其应时，通常选择第一种或全部的释义作为提问式的译法。选择第一种译法自然存在一定的不合理性，选择全部的译法又大大降低了检索的查准率。针对这一问题，Pirkola等人提出了提问式构造法(query structuring)[4]，认为主要有三种构造提问式的方法:基于同源词的构造法(syn-based structuring)、基于复合词的构造法(compound-based)、n元匹配法(n-Gram matching)。提问式构造方法的实质是利用同源词、复合词或n元匹配分析提问式中各个词的权重:只有一种或两种释义的词的权重最高，而有多种解释的词用同源词符、复合词符或n元匹配符连接以降低其权重。Pirkola等人通过对三种方法实验，验证了使用提问式构造法会提高跨语言检索的检索性能。

2.2文献翻译方法(document translation)

文献翻译方法不对提问式进行翻译，而是把数据库中用目标语言描述的文献翻译成与提问描述相一致的源语言形式，再通过提问式与信息库的匹配，完成检索过程。运用文献翻译方法进行跨语言检索，返回给用户的结果是用源语言描述的，用户能够方便地选择利用。文献层次的翻译相比于提问层次的翻译，其语境更加宽泛，进行歧义性分析所能利用的线索比较多。但是这种方法所使用的文本自动翻译技术的正确率目前还难以达到实用水平，而且将数据库中全部文献从目标语言翻译到源语言的工作量也是巨大的。文献翻译方法只有在翻译内容有限的情况下才有意义，如对已确定要浏览的某个网页进行翻译。目前采用这种方法的实验系统尚未见报道。

2.3提问式-文献翻译方法(query-document translation)

在这一方法中，源语言提问式翻译成目标语言提问式，与目标语言描述的信息库进行匹配，检出相关信息，然后再把检索结果的全部或部分翻译成源语言描述的信息。检索结果的翻译一般选择部分翻译，因为跟全部翻译相比，部分翻译的工作量较少，容易提高翻译的效率和质量。部分翻译一般是对结果文本的前两行、文摘、或文本中重要的词进行翻译。在重要词的翻译中，如何找出确定重要词是决定这种方法效果的关键。目前的研究主要是根据词频并结合禁用词表和功能词表来决定词的重要性。利用提问式-文献翻译方法进行检索，返回给用户的结果是用用户所熟悉的源语言描述的，用户能够容易地选择利用检索出的信息，减少了用户的翻译成本，提高了检索服务的质量。

2.4中间翻译方法(triangulated translation)

在跨语言检索中，解决语言障碍的基本方法是两种语言之间的翻译，然而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。但是，在跨语言检索中可能会碰到这样的情形:两种语言直接翻译的语言资源不存在，例如在TREC中很难找到德语和意大利语之间直接对等的语言资源。为此研究人员提出了一种利用中间语言或中枢语言进行翻译的方法:将源语言翻译成中间语言(可以是一种或多种)，然后再将中间语言翻译成目标语言(利用多种中间语言时需要合并)。假定在德语和英语之间不存在直接的翻译，而是通过西班牙语和荷兰语两种语言作为中间语言进行翻译。如果被翻译的源语是德语单词“fisch”，翻译成西班牙语为“pez，pescado”，翻译成荷兰语为“vis”；西班牙语“pez，pescado”翻译成英语为“pitch fish，far，food fish”，荷兰语“vis”翻译成英语为“pisces the fishs，pisces，fish”，比较合并这两种翻译结果便可选择“fish”’作为德语单词“fisch”的英语译文。

2.5非翻译方法(no translation)

Deerwester等人1990年在单语言检索研究中提出了潜在语义标引法(Latent Semantic Indexing-KSI)[5]，Dumais等人进一步把这种方法引入到跨语言检索中[6]，他们将英语词汇、法语词汇、英法双语文件映射到一个向量空间中，尽管这些术语是不同语言描述的，但是可进行语义上的比较匹配，而无需翻译转换。Berry等人在希腊文一英文[7]、Oard在西班牙文一英文等不同语言配对上进行了实验[8]，验证了这种方法具有一定的有效性。3跨语言检索的研究重点跨语言检索技术的研究最早可追溯到1973年G.Salton《Experiments in multi-lingual information retrieval》一文的发表，但当时的研究主要是针对国际联机检索进行的，人们对网络信息的需求并不强烈，跨语言检索研究真正活跃并取得成果是Internet飞速发展的20世纪90年代后期，国际上先后有许多研究论文发表，一些实验性跨语言检索技术和系统相继问世。当前跨语言检索的研究重点主要集中在语言资源、翻译歧义性消解等几个方面。

3.1翻译所需语言资源的研究

在跨语言检索中，主要解决的问题是语言障碍，因此，两种或多种语言之间的翻译对于跨语言检索的性能有着重要的影响。而翻译必须以一定的语言资源作为基础，在跨语言检索中，常用的语言资源有手工编制双语词典(manually generated bilingual dictionary)、机器可读词典(machine-readable dictionary)、机器翻译(machine translation)、语料库(corpus)等。

手工词典是翻译人员进行翻译必备的工具，具有准确、全面的优点，但在跨语言检索中难以实现计算机的自动识别处理。

机读词典是把手工词典以机器可读的编码形式进行组织，便于实现两种语言在词汇层次上的对译，但没有人工参与的机读词典对翻译的歧义性问题难以解决。

机器翻译能够在语句层次实现两种语言的翻译，但目前这种技术还不成熟，基本停留在语言表层的句法层次(syntactic)，其语义翻译(semantic)水平还远未达到实用的程度。

语料库是将同一信息或同一主题的信息用两种或多种语言进行描述，并由人工或机器建立不同语言间的联系，在跨语言检索的翻译中可以参考这些联系信息进行提问或文档的翻译。语料库根据不同语言间对应层次的不同，可分为词汇联结(word alignment)、句子联结(sentence alignment)、文献联结(document alignment)和非联结(no alignment)几种。语料库中联结的准确性对翻译的质量至关重要，因此词汇联结是最实用有效的语料库。语料库可以分为平行语料库(parallel corpus)和比较语料库(comparable corpus):平行语料库是指同一信息用不同的语言进行描述，比较语料库是指同一主题的信息用不同的语言进行描述。后者的定义较前者宽松，因此理论上较容易取得大量的文件。基于语料库的跨语言检索是近些年研究的热点。

语料库，尤其是平行语料库的应用，不仅改善了词翻译的不确定性，而且对于专有名词的翻译有着重要的意义，因为在平行语料库中，词与词(包括词与短语和短语与词)之间的对应是唯一的，很多在手工词典和机读词典中不能获取的词都可以在平行语料库中得到。

各种语言资源在跨语言检索中的使用不是孤立的，同时使用两种或多种语言资源会达到更好的效果。

3.2翻译歧义性(translation ambigous)的研究

在跨语言检索的翻译中最难解决的问题是翻译的歧义性，也就是说，对于一个单词，其译文可能有两种甚至是多种，出现二义性或多义性。因而，翻译歧义性问题成为跨语言检索研究的关键问题。

解决语言歧义性的自动处理方法分为两大类。一类是在一定程度上模仿人类解决歧义性的方法，在处理过程中结合人工构造的语法学、词法学、句法学、语义学等方面的知识，力求给出文本非歧义的解析表达。但是机器要在这种全文本层次上实现正确有效的分析是相当困难的，其性能水平无法与高昂的语言分析成本相对应，因此，这类方法大都局限在语言的特定子集或较小的论域中。有鉴于此，许多研究者更关注较实用的方法，力图以较低的成本达到较合理的性能水平。这类方法的重点主要放在词汇和短语等较低语言层次的歧义消解上，所依赖的工具主要是一些机读化的语言资源，如词典、主题词表、语料库等，而词典和语料库是目前消歧方法中应用较多的两种。

3.2.1词典方法

这种方法分析语言中的词汇信息及其结构，以识别确定各个单词间细致的关系。

Lesk利用词交迭(overlap)方法推测单词在给定语境中正确的含义以实现词汇消歧[9]。该方法将歧义词的每个含义同与其共现(co-occurrence)词的定义进行比较，与共现词定义有最大交迭的那个含义选为歧义词的正确含义。

Krovetz试图间接地通过词根还原技术(Stemming)解决歧义性问题[10]。词根还原是一种融合(汇聚、)相同概念词的技术，Krovetz的词法还原器Stemer根据词义对词进行汇聚，被汇聚的词不一定具有相同的词根。这种还原器充分利用了各种词法信息:不规则词法可用来识别词义，如antennae是与昆虫相联系的antenna(触须)的复数，而不是与电子设备相关的天线(其复数为antennas)；后缀只附着于特定词类的词根上，因此这类信息能用于区分同形异义词。试验表明，这种词根还原器能够显著改进消歧的效果，尤其是对于文本较短的情况。

3.2.2语料库方法

Brown等人利用平行语料库在法译英翻译中进行单词的消歧[11]。为消除法语单词f在英语释义中的歧义性，一个与f相联的英语单词集合Ef被分隔成两部分，被称为f信息提供者(informant)的共现词集合If也进行类似的分隔。算法对Ef和If分别进行划分以使英语和法语划分之间的交互信息最大。英语划分结果定义了f两个划分的翻译等价物，每个法语划分映射到两个英语划分之一上，而该英语划分中的成员则作为信息提供者来识别f的释义。

Smadja等人开发了Champollion系统[12]，应用语料库消除固定搭配短语的歧义性。在翻译中固定搭配短语不能逐字翻译，Champollion将短语视为一个相邻单词或含有任意数量单词的序列，以建立在句子层次上的平行语料库为基础进行短语的翻译。对于一给定源语言短语，Champollion使用Dice系数识别与其高度相关的目标语言词汇，这些词汇再通过系统化的叠代方法处理而生成源语言短语的译文。在这种叠代方法中，首先处理目标语言词汇的每个词对，选出与源语言短语高度相关的词对进入下一个步骤；通过向这些词对加入相关的单词生成高度相关的三元词组并进入下一个步骤；这种处理反复执行直到不再发现高度相关的词组合。最终目标短语的词序参照语料库中的例子确定。

跨语言检索作用CLIR是这样一类技术，它允许用户以他们熟悉的语言构造检索提问式，然后使用该提问式检索以系统支持的任一种语言写成的文献。它可用于回溯检索、定题服务系统以及自适应过滤系统中。跨语言检索对于能够阅读多种语言的用户，特别是不能有效地用非母语表达其信息需求的用户，具有十分重要的价值。对于只能阅读一种语言的用户，CLIR系统也可能很有用。有的CLIR系统能够对检索出的文献进行翻译。虽然系统显示给用户的结果可能只是一种粗略的翻译，但也足以向用户提供文章的要点以及帮助用户作出相关性判断。此外，即使CLIR系统不对文献进行翻译，用户也可能通过使用该系统找到若干篇参考文献中包含了以该用户的母语写成的文章的论文，这无疑会为该用户提供很有价值的线索。总之，最重要的是CLIR系统能够检索出多种语言的相关文献资源，以及能够指导用户作出收集与否的判断。

但是，基于受控词表的CLIR系统存在以下缺陷：(1)必须使用受控词标引文献，通常由人工完成，成本很高，从而限制了系统的规模；(2)受控词表更新速度较慢，往往不能及时反映新出现的主题和术语；(3)非专家用户往往不熟悉多语种叙词表的用法（此缺陷部分是由早期的用户界面友好性差造成的。解决的办法之一是将叙词表导航功能嵌入检索引擎中，MIT的Richard Marcus对这种方法进行了研究）。这些问题激励着有关研究人员研究开发其它的CLIR方法。

跨语言检索用例CLIR研究始于使用受控词表的试验，发展到今天，面向自由文本的方法成为主流技术。自由文本方法按照使用的翻译资源可分为：基于机读词典、机器翻译系统、本体或者基于语料库的方法。任何方法所采用的跨语言匹配策略都离不开以下四种：同源匹配、提问式翻译、文献翻译或者将提问式和文献都翻译为同一种独立于语言的表示的语间转换技术。

值得一提的是，为了改进CLIR方法和系统，近年来举行了多次有关CLIR的评价会议，其中较大型的两个会议是TREC（文本检索会议）和CLEF（跨语言评价论坛）。TREC中CLIR任务的主要目标是：(1)为测试跨语言检索技术创建基础结构，通过创建一个大规模的多语种测试集以及一个通用的评价体系；(2)调查某个多语种语境中的有效的评价程序；(3)提供一个交流研究观点的论坛。CLEF始于2000年，它将重点放在了欧洲语言的CLIR上，而TREC更为偏重亚洲语言的跨语言检索问题。此外，还有十多次关于跨语言检索专题的评价会议或研讨会，Oard对它们做了较为全面的罗列。有关的评价结果和会议论文都可以从这些会议的网站上获得。