分享
 
 
 

SE处理查询、建立摘要及判断重要性

王朝网站推广·作者佚名  2011-12-06
窄屏简体版  字體: |||超大  

为了便于阐述,以下我们简称“搜索引擎”为“SE”。

SE是如何面对上网者的查询?

查询方式指的是SE允许上网者提交查询的形式。考虑到各种上网者的不同背景和不同的信息需求,不可能有一种普适的方式。一般认为,对于普通上网者来说,最自然的方式就是“要什么就输入什么”。但这是一种相当模糊的说法。例如上网者输入“中铁快运”,可能是他想了解中铁快运公司的联系方式,也可能是想看看这方面的报道,也可能是他想了解外界目前对中铁快运有些什么评价(或是希望看到的是其他权威网站上关于中铁的消息)。这是两种相当不同的需求。

在其他一些情况下,上网者可能关心的是间接信息,例如“喜马拉雅山的高度”,8848米应该是他需要的,但不可能包含在这短语中。而上网者输入“窗前明月光”则很可能是想知道该词的作者是谁,或者希望能提醒前面几句是什么。尽管如此,用一个词或者短语来直接表达信息需求,希望网页中含有该词或者该短语中的词,依然是主流的SE查询模式。这不仅是因为它的确代表了大多数的情况,还因为它比较容易实现。这样,一般来讲,系统面对的是查询短语。

就英文来说,它是一个词的序列;就中文来说,它是包含若干个词的一段文字。一般地,我们用q0表示上网者提交的原始查询,例如,q0 =“网络与分布式系统实验室”。它首先需要被“切词”或称“划词”,即把它分成一个词的序列。如上例,则为“网络 与 分布式 系统 实验室”(注意,不同的划词软件可能得出不同的结果)。然后需要删除那些没有查询意义或者几乎在每篇网页中都会出现的词(例如“的”),在本例中即为“与”。最后形成一个用于参加匹配的查询词表,q = {t1, t2, …, tm},在本例中就是q = {网络,分布式,系统,实验室}。

网页摘要是怎么形成的?

SE给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。其中的摘要需要从网页正文中生成。一般来讲,从一篇文字中生成一个恰当的摘要是自然语言理解领域的一个重要课题,人们已经做了多年的工作并取得了一些成果。但相关的技术用到网络SE来有两个基本困难。

一是网页的写作通常不规范,文字比较随意,因此从语言理解的角度难以做。复杂的语言理解算法耗时太多,不适应SE要高效处理海量网页信息的需求。有人做过统计,即使是划词这一项工作(文本理解的基础),在高档微机上每秒钟也只能完成20篇左右网页的处理。因此SE在生成摘要时要简便许多,基本上可以归纳为两种方式,一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在查询子系统中,一旦相关网页被选中与查询项匹配,就读出返回给上网者。

显然,这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。一篇网页有可能是多个不同查询的结果,当上网者输入某个查询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此有了“动态摘要”方式,即在响应查询的时候,根据查询词在网页中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数SE采用的方式。为了保证查询的效率,需要在预处理阶段划词的时候记住每个关键词在网页中出现的位置。

如何鉴别一个网页是否重要?

Web上的信息具有异质性和动态性,由于受时间和存储空间的限制,即使是最大的SE也不可能将全球所有的网页全部搜找过来,一个好的搜找策略是优先搜找重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来协同工作,一方面要优先搜找重要的网页。对于网页重要程度的评定,要依据搜找信息所针对的不同应用而定。从而信息的搜找可以采用不同的策略。对于信息量相对较小的应用,如为发现专业信息而设计的主题Web信息搜找系统,可以依据定制的关键词,优先搜找网页中包含或部分包含这些关键词的网页,通过提高该网页URL及包含的URL的权值来达到目的。对于为处理海量数据而设计的可扩展Web信息搜找系统,如何评定一个网页的“重要度”,目前还是一个值得研究探讨的问题。

根据搜找经验,体现网页重要度的特征有:

1) 网页的入度大,表明被其他网页引用的次数多;

2) 某网页的父网页入度大;

3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;

4) 网页的目录深度小,易于上网者浏览到。

这里定义“URL目录深度”为:网页URL中除去域名部分的目录层次,这样的特征并非臆断,而是从长期从事SE工作中得来的,从SE多年的工作及上网者行为日志中,可以反映出这种一般性规律,这样的例子如:重要的学术论文网页,因为经常被引用,就表现为入度大;如果被重要的网页引用或多次被其他站点镜像,也可被认为有价值、重要,如网页URL目录深度浅,说明位于网站“浅层”,通常是被编辑网页的人认为重要而放在易于访问到的地方,网站的主页或各板块的首页一般被经常浏览而显得重要。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有