编者注:Michael Wu博士是 Lithium的首席分析科学家,现在他正在采用数据驱动法来调查和了解社会化Web的复杂动态。本文是吴博士对影响力引擎优化(IEO)的看法。
社会化媒体是品牌吸引客户的必由之路。然而,其手段主要是通过很难规模化的会话和个性化交互来完成。影响力营销让品牌可以通过影响少数有影响力的人来推广影响力。该策略需要靠对个人数字影响力的精确衡量,以便品牌可以找出需要吸引的目标。尽管这催生了一个令人兴奋的影响力衡量新行业,但是这个行业也有许多问题需要理解。
品牌不能够理解数字化影响的一个原因是,他们似乎没有意识到在影响方面实际没人有量化过的“数据”(如准确说出谁、在什么时候、通过什么方式影响了谁的显式数据)。所有影响力分数都是根据描述影响工作方式的某些模型和算法,从用户的社会化活动数据计算出来的。然而,这些模型和算法任何人都可以做。那谁才是正确的呢?如何才能确保你的影响力分数是正确的?换句话说,如何才能评估这些供应商用来预测影响力的模型?
为了说明统计验证的工作方式,我将用一个更为简单和具体的例子加以说明,比方说,预测苹果的股价。
建立股票预测模型并验证之
首先,我们需要建立一个模型(或算法),模型会用到各种可预测苹果股价的输入数据。任何我们认为有可能影响苹果股价的数据都可以用:包括销售数据、公司的基础性数据、社会化数据、竞争对手数据以及行业和市场数据等。
实践是检验理论的唯一标准。无论我们模型多复杂、多漂亮、数据有多少, 衡量其好坏的标准就是看它最终是否能真正预测苹果的股价。
检验任何统计模型或算法均需满足三个要求:
*需要计算某些预测性结果(股价、明天旧金山的天气、地震或某人的影响)的模型或算法
*对模型视图要预测的结果进行独立测量
对预测结果与独立测量的接近程度进行量化比较独立测定意味着什么?为什么*
独立测定
重要?
然而,许多人都不理解“独立”意味着什么。要想独立测定则意味着测定的结果应该是完全独立于模型的。在苹果股价预测的这里例子里,即意味着不能将实际的股价数据用作模型的输入。如果你把股价放进去了,那么显然模型可以预测股价,因为它已经有了有关实际股价的信息。那么你认为自己独立测定的实际股价将不再独立于模型。
因此说这个模型能很好地预测苹果股价是没有意义的,因为实际上它没有预测任何东西。因为它已经包含了自己试图要预测的实际股价。这种模型很有欺骗性,因为其基础是 循环论证。
既然所有的影响供应商都用模型来预测人的影响力,这些模型必须能精确校验。可是,基于以下几点原因,影响供应商并不能正确校验:
没有数据:这些供应商没有影响力数据的独立来源。因此他们只能通过感觉和直觉来校验自己的算法,这是不够的。你会根据一个靠感觉和直觉来验证的股票模型来进行投资吗?
过分概括:验证算法的依据仅为少量的知名影响人士,却将其算法过度泛化为数百万用户(大V的粉丝众多)
无效的循环验证:他们使用了诸如like和转发之类的相互性数据(这是个人数字影响力的比较像样的代理)来进行验证。但是他们的模型里面又使用了这些数据。这在模型验证里面是一个常见的错误,因为这一循环验证的过程并不能提供有关算法精确性的任何信息。要想准确验证模型,你必须对结果有一个独立的测定,而这意味着你不能在模型里面使用任何独立测定用到的东西。
那么还能信任你的影响力得分了吗?只需问问能把你的影响力供应商他们是如何验证模型的。
SEO
的老故事
大多数影响力模型都存在的另一个严重问题是跟SEO( 搜索引擎优化)相应的IEO(影响力引擎优化)。
上世纪九十年代,Web的发展导致了大数据问题,人力维护的Web目录便不再是互联网信息获取可扩充的解决方案。强大的搜索引擎( Lycos、 AltaVista、 Excite、 Yahoo、 Inktomi)、 Google)应运而生。为了以更有意义的方式展现获取的信息,搜索引擎需要将其搜索结果按照相关性进行排名,然后将最相关的页面展示出来。
Google开发了一套创新性的相关性排名算法—PageRank。PageRank把整个Web的超链接结构作为输入,将每个页面都算出得分,从理论上来说,该分数代表了网页的权威性。
正如我们从人类的行为经济学所了解到的那样,一旦我们将分数赋予某样东西,就会刺激某些人追求更好的得分。人性如此。由于人关心自己,所以他们会关心任何有关他们的比较,不管是网站、汽车、家庭、工作,还是他们自己。甚至有的会想着去蒙蔽算法来获得更好的分数。实际上,Google的PageRank算法已经催生了一个玩弄分数的SEO行业。尽管SEO专家可能不愿承认这一点,但这些人的确一直在寻找人工提高网站PageRank的办法。这算不算欺骗呢?有的SEO模式也许Google可以接受,但有的绝对算是欺骗(如 link farm 和 spamdexing)。
IEO
的新故事
在今天,社会化Web已经发展壮大、广为人所接受。影响力供应商又一次把数字加到某个东西身上(个人影响力)。因此必定有人又会想方设法去提高其影响力得分。但这一次有三点不同。
相对于pageRank,影响力评分算法要容易受操纵得多,因为某人的影响力得分严重依赖其自身的行为。这从一切影响力得分都是根据个人的社会化媒体活动数据进行计算这一点可以明显看出。
而跟PageRank页面分数不一样的是,某些人的影响力得分是直接反馈到他那里的。这意味着我们不需要IEO专家来告诉他怎样的行为可以提高影响力得分。用户通过自身行为的就可以轻易发现其对影响力分数的影响。因此,影响力评分算法不仅更容易受操纵,对于这场游戏来说,其规则也更简单。
最后,跟Google相比,影响力供应商几乎没有机制去发现这些欺骗行为,也无法对其进行限制。
IEO是对个人影响力进行评分不可避免的后果。那么,影响力分数还有没有意义?这绝对不是某人影响力的衡量手段,由于IEO的存在,这甚至连潜在影响力都算不上。
影响力分数充其量只能算是一个人操纵影响力算法能力的衡量指标而已。
如果你昨天发了一堆微博,今天你的影响力得分就会提高,然后你发现你可以通过多发微博来增加分数。了解这一点之后,你还不会多发微博?很多人也许会,尤其是那些在乎分数的人。这已经制造出了许多夸夸其谈却没有实际影响的人。因此其影响力得分只能反映出他已经成功地操控了算法来让他得到高分,但实际上却没有做出任何有影响力的事情来。
由于操纵该系统的行为往往要比有真正影响的行为要简单得多,IEO往往令人们的行为与产生真正影响力的行为渐行渐远。这是不是充满了讽刺性?
什么意思?意思是影响力得分对于衡量一个人的潜在影响力来说没那么精确,更多的是反映了某人玩弄影响力算法的成功程度。
Via: TC