据权威预测,未来 4年全球搜索市场每年将以高达 35%的增长速度快速成长,到 2007年全球搜索市场的整体规模将达到 70亿美元; 今后 3年内,我国搜索引擎市场的年增长率更是将达 60%至 70%。2004年我国搜索引擎市场达到了 8.8亿元, 2006年将达到 24亿元。目前搜索引擎已从一种单纯的IT技术上升为搜索力经济,有望成为继无线增值和游戏之后,互联网企业又一重要的利润增长点。因此,搜索引擎的质量也提到了前所未有的高度。
2005 年9月,清华大学 IT 可用性实验室再次对中文搜索引擎进行了较为全面的对比研究。研究对象为Google、一搜(Yisou―雅虎中国提供、百度(Baidu)、中搜(Zhongsou)、爱问(iAsk―新浪提供)、搜狗(Sogou―搜狐提供)。
搜索引擎质量主要指网页搜索质量评测,网页搜索是搜索引擎的基础与根本。搜索引擎质量评测包括标准搜索方式下检索结果相关性、网页覆盖率、死链率、作弊率、中文分词。
相关性
搜索引擎相关性是指用户输入的查询内容与搜索引擎提供的文件内容或相关网站资源之间的符合关系,同时也是搜索引擎的搜索结果符合用户需要内容的能力。搜索引擎的相关性关系着用户的搜索效率和满意程度,相关性好的搜索引擎可以节省用户的时间和网络资源,对于任何一个搜索引擎,相关性至关重要。
本次相关性评估采用从真实的Log数据库中提取的检索词作为测评样本,由外部程序按照一定规则和程序进行评估,并对评估采用多种衡量参数进行相关性比较。
图1 相关性评分
结论:
评估数据显示,对于一般检索词,六家搜索引擎标准搜索方式下网页检索结果相关性不存在显著差异,Google、百度和中搜稍占优势;相应地,上述三家找到相关结果所需的时间相对较短。
网页结果覆盖率
网页覆盖率又称为索引库大小,指搜索引擎索引的网页数量。每个搜索引擎索引的网页具体数量评测中表现为相对值,对所有搜索引擎结果的覆盖率可以做对互联网公开数据覆盖的参考。为减少覆盖率受重复网页的影响,评测中用同一排重算法对结果集排重。
图2 网页覆盖率排重结果图(纵坐标是网页数量)
结论:
各组评测结果之间无明显差异。在动态网页覆盖率测评中Google、百度占优,全部网页覆盖率测评中Google、百度、中搜相对较好。