■ 四、性能评价
作为主题指南类搜索引擎的典范,Yahoo具有以下优点:
1.主题目录与检索软件的完美结合
采用分面分析的方法,由信息管理专家编制主题目录,反映了人们在选择和组织信息时的知识和智慧,提高了目录编制的质量。同时,按照主题目录以人工为主对提交的网页进行筛选、归类和组织,也能不断克服单纯由搜索软件自动完成分类的缺陷,增强分类的条理性。嵌入相应的检索软件或工具,并与之相集成,提供高质、高效的检索服务,从而加快了系统的反映速度,提高了检索的准确性,使得检索结果更接近用户的信息需求。
2.信息检索难度的降低
Yahoo的数据库按照14个大类(各大类下又包含数量不等的小类)组织,其分类体系非常详尽,因此是进行宽泛主题检索的良好起点,特别是对于那些新用户和模糊需求的用户而言,选择浏览可逐级展开的主题索引比构造检索式要自然得多。并且,在用户所在的类目下,显示了该级别的类目包含的条目数,如果用户认为数量过多,还可在此范围内使用关键词检索。Yahoo的目录特征和利用上下文的服务使得能够实现快速和容易的检索,从而在一定程度上降低了互联网信息检索的难度,提高了系统的用户友好性。
3.检索结果的分类选择
Yahoo由分类路径入手,最终将检索结构分成类目输出,从而将极大地推动信息的选择。它还对结果列表中的相应内容进行必要加工,加上一些描述的词组或句子,方便用户浏览并选择:如:〔*〕或〔cool〕标记表明该结果项在内容和版面设计都优于其他项;〔new〕表明是最近3日内收录的最新内容;以及上述提及过的以“@”表示相关参照,以括号里的数字表示收录的文件数量等等。另外,Yahoo增加了结果显示的类型,可以以相关网站、相关网页、新闻等形式输出相应的检索结果。总而言之,为了更好地实现为用户服务的目的,Yahoo正不断开发新的途径和方法用以改善信息检索服务。
在总结Yahoo所具有的优势的同时,也应注意它的缺陷,这些缺陷往往也正是主题指南类搜索引擎的共同弊病所在:
1、由于互联网信息的迅猛增长,使得采集信息的速度远远比不上网络资源的增长速度,更勿论编制主题目录的速度了。这就造成了所建立的数据库规模较小,且在某些类目下收集的文件数量有限等缺点,使得用户经常“乘兴而来,败兴而归”,满足不了相应的信息需求。
2、简单检索表中检索词之间缺省设置为“.or.”,且内含的自动截词功能,使得在检索中往往会出现许多不相关的文件,导致查准率降低。
3、为了适应不同用户的查询或检索需求,Yahoo对相同的信息内容往往能提供不同的路径入口,并以符号“@”建立相应的参照。这一方面加大了分类工作的难度,另一方面也使得其分类的一致性难以得到确切保障,所以,经常出现从某一路径入手,却无法查到Yahoo中所包含的信息内容的现象。
4、待收录的网页或其它信息内容的复杂度的增加也在无形之中加大了确切分类的难度,如与ActiveX技术相关的文献就很难在Yahoo中确切归类。
5、为了编制高质量的主题目录并跟上网络资源发展的速度,必须投入相当大的人力、物力和财力,且对从事该项工作的人员的素质要求也日渐提高。否则,将无法很好地保证其主题目录的质量,也就从根本上无法提供优质的服务。
■ 五、启示和建议
Yahoo最关键也是最成功之处就在于它为搜索引擎,尤其是主题指南类的搜索引擎的设计和开发树立了“摸板”。借鉴Yahoo先进的搜索引擎经验,进一步完善网络信息资源尤其是中文信息资源的组织和管理,是历史赋予我们的责任。现就建立网上中文信息资源的高质、高效的“导航器”,提出以下几点建议:
1、Yahoo在数字化信息的组织中成功地应用分面分析的思想,建立起了一套完整、全面、等级层次鲜明的主题目录体系以提高信息组织的质量,这一点值得我们借鉴与学习。
目前,国内的许多中文引擎或者因没有分类路径入口,而不能跟上未来形势的发展;或者因目录体系缺乏必要的分类主题理论基础,而给信息的确切归类和准确检索带来了一系列的困难。我们并不一定要照搬Yahoo的分类模式。在具体的编制过程中,应从中国人的思维习惯、检索习惯出发,结合国内已有的主题分类的理论体系(如:《中图法》等),建立所需的分类框架。
2、应逐步增大数据库的规模,从而奠定成功的信息检索的物质基础。建议可以通过两种方式补充数据库的内容:一是鼓励用户将自己网页的地址(URL)通过联机表格递交,二是由自身的巡视软件不断去发现网上新出现的文件,将之归入数据库,在补充的过程中,也应注意数据库内容的定期更新。关于这一点,现在的一些中文搜索引擎做得还很不够,往往只知盲目地填充信息,却缺乏对库内容应有的维护工作,导致数据库庞大臃肿,检索效率低,信息内容陈旧,查准率差。
3、鉴于单纯依赖手工进行信息归类效率低的缺陷,应在这方面加强研究,考虑是否可将目前在文本环境中已经实现并在进一步完善的自动分类、自动标引和自动文摘等处理信息内容的手段用到网络信息资源的组织上来。手工和机器辅助的结合,定能提高工作效率,改善信息组织、管理的质量。
另外,应继续加强检索软件的研制和开发工作。WWW网页内容多由图像、动画、声音、视频等多媒体信息构成。应积极探索这一类信息的检索途径,而不仅限于关键词检索方式。目前,对多媒体信息的存储,标引和检索正日益引起计算机和信息管理领域人士的注意。应密切跟踪这方面技术的发展,并将其切实应用到中文引擎的检索软件的编制上来。
4、参与信息采集、筛选和组织工作的人员素质的高低将直接或间接影响到编制的主题分类体系的质量。因此,各个从事网络信息服务业的部门或企业,尤其是开发中文搜索引擎的部门或企业,应切实加强人员的培训,特别是加强他们在信息分类组织、计算机检索等方面的能力。网络信息资源的组织和开发是一项艰难而又富有前途的工作,广大的图书情报界人士、信息管理和计算机领域的专家应尽快转变观念,加入到开发的行列中来,从而不断提高队伍的素质。■
上一页 [1] [2]