为了便于阐述,以下我们简称“搜索引擎”为“SE”。
SE是如何面对上网者的查询?
查询方式指的是SE允许上网者提交查询的形式。考虑到各种上网者的不同背景和不同的信息需求,不可能有一种普适的方式。一般认为,对于普通上网者来说,最自然的方式就是“要什么就输入什么”。但这是一种相当模糊的说法。例如上网者输入“中铁快运”,可能是他想了解中铁快运公司的联系方式,也可能是想看看这方面的报道,也可能是他想了解外界目前对中铁快运有些什么评价(或是希望看到的是其他权威网站上关于中铁的消息)。这是两种相当不同的需求。
在其他一些情况下,上网者可能关心的是间接信息,例如“喜马拉雅山的高度”,8848米应该是他需要的,但不可能包含在这短语中。而上网者输入“窗前明月光”则很可能是想知道该词的作者是谁,或者希望能提醒前面几句是什么。尽管如此,用一个词或者短语来直接表达信息需求,希望网页中含有该词或者该短语中的词,依然是主流的SE查询模式。这不仅是因为它的确代表了大多数的情况,还因为它比较容易实现。这样,一般来讲,系统面对的是查询短语。
就英文来说,它是一个词的序列;就中文来说,它是包含若干个词的一段文字。一般地,我们用q0表示上网者提交的原始查询,例如,q0 =“网络与分布式系统实验室”。它首先需要被“切词”或称“划词”,即把它分成一个词的序列。如上例,则为“网络 与 分布式 系统 实验室”(注意,不同的划词软件可能得出不同的结果)。然后需要删除那些没有查询意义或者几乎在每篇网页中都会出现的词(例如“的”),在本例中即为“与”。最后形成一个用于参加匹配的查询词表,q = {t1, t2, …, tm},在本例中就是q = {网络,分布式,系统,实验室}。
网页摘要是怎么形成的?
SE给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。其中的摘要需要从网页正文中生成。一般来讲,从一篇文字中生成一个恰当的摘要是自然语言理解领域的一个重要课题,人们已经做了多年的工作并取得了一些成果。但相关的技术用到网络SE来有两个基本困难。
一是网页的写作通常不规范,文字比较随意,因此从语言理解的角度难以做。复杂的语言理解算法耗时太多,不适应SE要高效处理海量网页信息的需求。有人做过统计,即使是划词这一项工作(文本理解的基础),在高档微机上每秒钟也只能完成20篇左右网页的处理。因此SE在生成摘要时要简便许多,基本上可以归纳为两种方式,一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在查询子系统中,一旦相关网页被选中与查询项匹配,就读出返回给上网者。
显然,这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。一篇网页有可能是多个不同查询的结果,当上网者输入某个查询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此有了“动态摘要”方式,即在响应查询的时候,根据查询词在网页中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数SE采用的方式。为了保证查询的效率,需要在预处理阶段划词的时候记住每个关键词在网页中出现的位置。
如何鉴别一个网页是否重要?
Web上的信息具有异质性和动态性,由于受时间和存储空间的限制,即使是最大的SE也不可能将全球所有的网页全部搜找过来,一个好的搜找策略是优先搜找重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来协同工作,一方面要优先搜找重要的网页。对于网页重要程度的评定,要依据搜找信息所针对的不同应用而定。从而信息的搜找可以采用不同的策略。对于信息量相对较小的应用,如为发现专业信息而设计的主题Web信息搜找系统,可以依据定制的关键词,优先搜找网页中包含或部分包含这些关键词的网页,通过提高该网页URL及包含的URL的权值来达到目的。对于为处理海量数据而设计的可扩展Web信息搜找系统,如何评定一个网页的“重要度”,目前还是一个值得研究探讨的问题。
根据搜找经验,体现网页重要度的特征有:
1) 网页的入度大,表明被其他网页引用的次数多;
2) 某网页的父网页入度大;
3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;
4) 网页的目录深度小,易于上网者浏览到。
这里定义“URL目录深度”为:网页URL中除去域名部分的目录层次,这样的特征并非臆断,而是从长期从事SE工作中得来的,从SE多年的工作及上网者行为日志中,可以反映出这种一般性规律,这样的例子如:重要的学术论文网页,因为经常被引用,就表现为入度大;如果被重要的网页引用或多次被其他站点镜像,也可被认为有价值、重要,如网页URL目录深度浅,说明位于网站“浅层”,通常是被编辑网页的人认为重要而放在易于访问到的地方,网站的主页或各板块的首页一般被经常浏览而显得重要。