搜索是一个古老的需求,早在互联网产生之前,就是一个重要的研究领域。可以说任何提供信息查找的服务都是搜索引擎,互联网只不过放大了这种需求。现在搜索技术的发展趋势是无处不在,未来的竞争不仅限于互联网,本机、局域网、企业网内部以及无线网都将被包括在内。
在互联网诞生之前,计算机检索的理论和技术研究已经有30多年历史,局限在信息检索领域,主要对小规模、文本数据的索引和检索,相关论文主要在SIGIR、TREC上发表。搜索引擎要处理的互联网信息具有海量、异构、超媒体等特征,用到多种计算机学科理论和基础:
1) 人工智能、机器学习、数据挖掘。
2) 信息检索,信息提取。
3) 文本处理,自然语言处理。
4) 信息理论,数据压缩。
5) 体系结构,并行计算,数据库技术。
6) 其它。
现在,这些领域的每年的论文集都会有和Web信息检索相关的论文,成为很多研究机构的研究重点。每年的国际WWW会议(INTERNATIONAL WORLD WIDE WEB CONFERENCE)都有大量关于搜索引擎的论文。