国内目前关于元搜索的东西这两年谈得比较少,最近是因为一些原因有关注到国内的搜索引擎,不经意又翻到关于元搜索的资料,索性就把相关的东西整理一下分享给大家。
公正来说元搜索从理念上来说更接近于用户的需要,毕竟1+1不一定大于2,但是大于1是一定的。
什么是元搜索:
元搜索引擎(Meta-Search Engine)是一种对多个搜索引擎的搜索结果进行重新汇集、筛选、删并等优化处理的搜索引擎。
相对于元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(Source-Search Engine),或“成员搜索引擎”(Component-Search Engine)。
从功能上来讲,元搜索引擎像是一个过滤通道:以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。
元搜索的运行流程:
用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。
元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。
元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串。
向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。
收集各个独立搜索引擎的返回结果。
对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果。
以一定的格式将最终结果返回给用户。
元搜索的特点:
没有独立的网页数据库。
能够根据用户的需求综合特定的搜索引擎的搜索结果。
能够索引特定类型的搜索,例如图片、文档、网页、视频等等。
元搜索发展趋势:
元搜索引擎的技术研发的研究需要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。
一个理想的元搜索引擎应该具备以下功能要求:
涵盖较多的搜索资源,可随意选择和调用独立搜索引擎,还可根据一定调度策略进行自动调度。
具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、Flash、图像、影视等)选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等。
强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持"NEAR"算符的搜索引擎,可自动实现由"NEAR"向"AND"算符的转换等)。
详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)。
支持多种语言检索,比如提供中英文搜索等。
可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行分类整理。
可以针对不同用户提供个性化服务。
在已有的独立搜索引擎的基础上建立一个高效的元搜索引擎能够扩展独立搜索引擎的处理能力,提高检索的查全率,并且有可能进一步提高查准率。
但是各个成员搜索引擎的自治性引起了集成的困难,困难主要来自:检索界面的差异、文档索引方法的不同、相关函数的差异、查询参数的不同、检索功能的强弱等。对搜索引擎检索效果的评价机制;成员搜索引擎的自动调度机制;设计了搜索引擎描述文件方法,使系统具有良好的可扩展性;给出了自己的结果融合算法;可以更踪用户的使用,接受用户反馈进行自主学习和调整,使系统具有自适应性。
看了上面的介绍是不是对于元搜索有一定了解,国内目前做比较好的元搜索只有比比猫,综合了包括百度、谷歌、雅虎、搜狗、中搜、有道、Live在内的众多中文搜索引擎;国外的元搜索引擎我推荐大家可以看下Dogpile、Clusty。
原载自XJP的碎碎念:http://www.xjp.cc/2009/04/16/meta-search-engine-guide/