编者注:此文是Christopher Mims的文章。
大数据可谓最近最火的东西之一了,所以,你最好要有点大数据,否则会在竞争对手面前丢面子—哪怕有数据但是不够大也不行。
由希望兜售下一个大事物的咨询顾问、IT公司描述的这些“大数据”故事,其背后的假设存在很多问题。幸运的是,诚实的大数据实践者,那些天生就具有高度质疑精神的数据科学家,连篇累牍地向我们讲述了对该领域的许多炒作感到厌倦的原因。以下就是部分理由:
哪怕是像Facebook和Yahoo这样的巨头通常也不和大数据打交道,Google风格工具的应用是不合时宜的。
Facebook和Yahoo用自己庞大的内部“集群”(一组计算能力很强的服务器)来处理数据。这些集群的必要性是大数据的标记之一。毕竟嘛,如果用你家里的PC就能处理的数据当然不能算“大”。将问题打破成许多小部分,然后对一个部分用一大组计算机进行处理,这种分而治之的必要性,描绘了像Google需要对全球的每一个网页进行排名这类典型的大数据问题的特征。
但是事实上,哪怕是Faceboo和Yahoo,那些集群对于它们手上的许多任务来说也是没有必要的。以Facebook为例,他们的工程师交给集群处理的大多数任务也只是MB—GB级的,这意味着用一台计算机—甚至是笔记本就能处理了。
Yahoo的故事类似,交给Yahoo的集群处理的任务规模平均是12.5GB。这个规模要大于普通桌面PC的处理能力,但是对于一台强大的服务器来说没有问题。
所有这一切都可用微软研究院的一篇论文概括,这篇论文的题目叫做《买集群不会有错》。论文指出,哪怕是在对数据最为饥渴的公司,许多工程师解决的问题都不需要在集群上跑。为什么这是个问题呢?因为存在着非常多类型的问题用集群处理起来时相对低效的,甚至完全就是不合时宜的。
大数据已变成“数据分析”的同义词,令人困惑,还会产生反效果
数据分析是个老古董了,可是现在谈起数据,你不在它前面加个“大”字都觉得不好意思—非常有必要的数据分析实践已经被一股更猛烈但没那么有用的炒作之风一扫而光。比方说,这里就有一篇文章循循诱导自己的读者要将大数据吸收进自己的小企业当中,但是里面讨论的那些东西还不如在笔记本上的Excel好用。
也就是说,实际上大多数企业要处理的是Open Knowledge Foundation的Rufus Pollock所谓的小数据。根据Pollock的定义,所谓的小数据是指可以方便地在一台机器(高端笔记本或服务器)上存储和处理的数据。Pollock认为小数据才是真正的革命,但是小数据和大数据没有太多的联系。
超量化你的数据往往会让你事倍功半
数据是不是越多越好?答案几乎是否定的。实际上,如果你要想寻找相关性—想知道X与Y是否有联系好让你可以基于此采取行动的话,收集到的数据越多反而会伤害你。
社交网络分析公司的数据分析首席科学家Michael Wu说:“随着数据规模的不断增加,你能够从大数据析取出来的信息反而会逐渐减少。”也就是说,数据量一旦超过了某个点,增加数据所获得的回报就会减少,因此,收集更多数据纯属浪费时间。
一个原因:你的数据“越大”,在相关性方面有可能出现的误报就会越多。数据科学家Vincent Granville在大数据之咒中说,哪怕是只有1000条记录的数据集,要想陷入到“处理好几百万的关联关系”的情况也并不难。这句话的意思是说,“在那么多的相关性当中,只有少数几个会因为偶然的原因而相关性极强:如果你用这样的相关性进行预测建模的话,必输无疑。”
这个问题一直困扰着大数据应用的鼻祖之一—基因学。科学家满足于对整个基因序列进行排序,然后深入剖析其中的相关性,这种没有尽头的“盘前审问”会导致种种无用的结果发生。
在某些情况下,大数据带给人的困惑跟启发一样多。
对数据采集方式的偏见,缺乏背景信息,收集资料的缺口,数据处理的手段、整体的认知偏差等等,这些都会导致算法幻象的产生。换句话说,哪怕你有大数据在手,但是大数据的处理却仍然需要非常高超的技巧和娴熟的经验(除非大数据好用了)。而且即便他们最后分析出了答案,也许那个答案是你根本就不需要“大数据”。
数据究竟是以大为美还是以小为美?
你的企业需不需要数据。当然需要。但是处理规模却不是购买数据产品的关键。同样的问题自其出现以来也困扰着科学—数据质量、整体目标,上下文的重要性,以及直觉,这些都是企业用数据进行决策所固有的东西。记住:格里格•孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据,而不是随便收集。