5月17日,数据提炼往往是指从大型、不相干的数据库中提取数据的一种学科。在这个领域享有盛誉的拉凯什阿格纳瓦日前已经离开IBM公司,并加入了微软公司成为微软公司搜索实验室技术专家的一员。
许多技术公司多年以来一直在尝试挖对方的顶级科技人才,在搜索和计算机学科领域,Google公司网罗的技术专家最多。去年,Google公司还将微软公司的李开复挖到自己旗下担任Google中国实验室的领导,结果还引发了一场官司。 Google公司还从亚马逊公司挖来了搜索专家尤迪曼伯。
阿格纳瓦曾经在IBM公司担任最高级的研究员职务,是数据提炼和数据库领域的知名专家之一。由于联邦政府开始使用数据提炼的方法来检查数以百万计的电话记录,因此数据提炼技术逐渐成为当前的热门课题之一。 但是,许多公司多年以来一直将它作为一种理解顾客行为和增强它们自己的网络流量的方法来研究和利用。
虽然在大众的眼中IBM公司与搜索没有什么关联,但是IBM公司也是搜索领域内的主要力量之一。IBM公司是第一批研究影像搜索引擎技术的公司之一,并且它刚刚在三月份收购了Language Analysis Systems公司,后者是一家专业开发个人参考搜索技术的公司,即便搜索的人名位于不同的数据库中而且拼写方法不同也可以进行搜索。
阿格纳瓦在几周之前就已经加入了微软公司,但是并没有对外宣布。微软公司的搜索实验室是在一月份建立的。 数据提炼的设想是在上个世纪九十年代初的时候,阿格纳瓦与英国的Marks Spencer连锁百货公司的一名管理人员共进午餐时想出来的。当时,连锁店收集了各种数据但是不知道该如何利用它们。
阿格纳瓦与他的团队就开始研究无限制查询的算法,最终在1993年写就了一篇关于数据提炼的论文。那篇论文被其他的650多篇论文引用过,成为同类论文中被引用次数最多的论文之一。 阿格纳瓦说:“当时我们甚至都在犹豫到底该不该将它发出去,因为我们认为其他人可能会觉得它讲得太肤浅了。”
最近,阿格纳瓦一直在研究随机化技术。利用这种技术,数据在进入数据库之前就被弄乱了。 尽管如此,数学家们还是可以用随机运算技术对杂乱的数据进行处理,将它们转变成原先的实际模式状态。
这样,只要资料保密性有保障,公司就可以获得其18岁到24岁之间的顾客的资料,因为原始资料永远不会进入数据库。 现在已经有许多人在研究随机化的科学基础。阿格纳瓦在几年前对它下过一个简单的说明:“它就是数学的美。”