搜索引擎如何对付“暗网”

网海无边，回头是岸。

摆在搜索引擎面前的难题很多，剪不断，理还乱，但有一个怎么绕也绕不开——暗网(hidden web)。互联网上每天都在诞生无穷无尽的新信息，这些信息存在的方式也无穷无尽——文字、声音、图像、交互数据，或者别的。

面对信息存在状态的多元化，内容的海量化，人类很焦虑，总想探求冰山底下不为人知的世界，这便是技术的伟大之处。

近来，由于百度“阿拉丁”的热炒，“暗网”问题又一次被大家关注。业内人士也由此陷入一个误区，实际上，早在1994年，Jill Ellsworth就开始提到“invisible Web”这个词，“暗网”自搜索引擎诞生的那一天起，就一直是个问题，恐怕也终将得不到100%的解决。

“暗网”有多暗?

既然是“暗网”，到底它有多大的容量，很难有一个明确的数字。有人说，现在可搜索的网页占到了37%;有人说有100亿个不重复的表单;还有人说是浅层www资源的500倍。争论这个问题意义不大，对比浅层www(即Surface Web，静态页面、超链接、文件)，让我们来看看BrightPlanet公司之前发布的一个技术白皮书(《The Deep Web-Surfacing the Hidden Value》)的结论：

1、Deep Web包含7500TB的信息，而Surface Web包含的信息容量只有19TB。

2、Deep Web包含5500亿独立文档，想对应的Surface Web只包含10亿个。

3、现有的Deep Web站点估计超过100000个。

4、60个最大Deep Web站点就已包含750TB信息，超过Surface Web所包含信息的40倍。

5、平均看，Deep Web站点的月访问量比Surface Web站点高出50%，并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。

6、Deep Web是互联网新信息增长的最大来源。

7、Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。

8、Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。

9、超过一半的Deep Web内容都保存在专业领域的数据库中。

10、95%的Deep Web信息都是面向公共访问的，而不是需要付费或者订阅的。

简单的说，“暗网”比你想象中的还要庞大，还要未知，但它们的应用却比你想象中的要多。因此，我们可以得到一个结论——尽管网海无边，但探索“暗网”对人类更从容地把握信息是极有意义的。

目前主流的应对策略

之前我曾留意到陈佼的一篇针对“阿拉丁”的文章(深入解析百度“阿拉丁”平台)，其中提到了搜索引擎对“暗网”的应对策略。实际上，针对暗网的策略非常复杂，简直可以发展多个交叉学科来研究，举个简单的例子，微软亚洲研究院一直在研究关于声音信息的处理和检索，这项研究耗时多年，一直未有突破性进展，即便如此，它也只是对付“暗网”的一小部分。

饭要一口一口的吃。在我看来，当前要解决的所谓“暗网”，主要是针对的是Dynamic content(动态内容)，这也是各大搜索引擎现在工作的重中之重。对此，主要有两大策略——主动策略和被动策略。

这就好比有一座未知的宝藏，现在想要得到它，一种方法是拿着藏宝图，将其找到，发掘出来，这就是所谓“主动”;另一种方法是让宝藏“自己显露出来”，等待开发。

主动策略：优化数据分析，优化算法，从堡垒的外部攻破。

Google的Jayant Madhavan在VLDB 2008会议上作了题为“Google’s Deep-Web Crawl”的报告，其中详细阐述了Google的一些策略，其核心就是信息模板(informative templates)。其实理解起来很简单，可以叫做“混水摸鱼”，多摸几次，反复总结，就能最大限度接近于知道摸到的是鱼还是石块。

2008奥运期间，百度也曾经针对大量相关关键词进行处理优化，整合各种状态的内容信息，取得了很好的效果。

被动策略：让网站方参与到“暗网”的显现中来，主动“洗白”。

这是一种迂回的策略。陈佼在博文中提到的One box、Subscribed Link、Search Monkey等都属于这种，它是通过开放的API允许用户主动将结构化的数据提交上来。百度公布的搜索开放平台也是其中的先驱之一。

这种策略很讨巧，但它不仅是个单纯的技术问题，更是个博弈问题。据我所知，韩国的很多互联网公司都拒绝google的爬虫，很多报纸网站也对google的抓取深恶痛绝，并别提主动协助了。

对比解析搜索巨头应对“暗网”的策略

在做对比解析之前，有一点我想表达：在应对“暗网”方面，世界各地的搜索引擎几乎是同时起步的，或许走的路子有一些差异，但殊途同归，这一点尤其值得肯定。

Google：霸道而独断

如果你仔细解读一下Google’s Deep-Web Crawl报告就会明白，Google依然以其引以为傲的算法来针对“暗网”，已经出来的产品如onebox、Subscribed Links，乃至Google base等。

Google很懂技术，但树大招风，如果不懂得平衡各方利益，天才容易寡助。比如Google base这个产品，架子很大，但生态链太短，目前的发展看来并不乐观。我倒是建议Google考虑收购一下现在正火的Wolfram Alpha，从本质上来说，这也是一个对付“

暗网”的产品。

Yahoo：简单的事情复杂化，Search Monkey是Yahoo对付“暗网”的拳头，很开放，很自由，很有颠覆感，但与Google习惯用技术眼光来解决问题一样，

Yahoo要面对的是无序和混乱的可能。之前与业内朋友交流，大家有一个共识，Yahoo是一家非常强悍的公司，拥有无数天才，但它常常将简单的问题复杂化，造成失控。在Search Monkey中，Yahoo开放了图片、视频、游戏等大量内容，展现的权限都交给用户决定，也是基于这一思维。

百度：聪明而谨慎

百度的搜索开放平台很有意思，它有3个非常突出的特点：

其一，开放却又限制。思维上是开放的，面向的也是所有的网站，但在数据内容和网站的资质上，它又有严格的审核，以保证搜索体验。在哲学中有一句话说：自由不是绝对的，而是相对的。百度的中庸在搜索开放平台上反映得淋漓尽致。

其二，注重利益的均衡。和Google、Yahoo不同，百度的策略注重生态平衡——搜索引擎、网站、用户。它的机制是：百度为用户提供更好的搜索体验，把控资源，让更优质的网站内容得到展现，而网站从中攫取品牌价值和流量的提升。

其三，谨慎对待一切。我和一些站长就搜索开放平台进行过交流，在提交审核的数据中，百度偏好“确定性信息”和“数字性信息”，而对一些模棱两可、非确定性文字信息几乎都拒之门外，从中可以看出百度搜索开放平台的谨慎。

三大巨头都是将搜索引擎从“可读”变为“可写”，但不同的思维方式决定了不同的处理方式。不管如何，在应对“暗网”的战争中，信息的使用者才是最大的赢家。

最后送一句话给致力于突破“暗网”的搜索业界朋友们：人类若能妥善地搜寻资料，实在已经改变世界了。