统计数字会撒谎(最隐蔽的数据造假方法全曝光,美国畅销50年的商科经典必读书)
分類: 图书,经济,统计 审计,
作者: (美)哈夫著,廖颖林译
出 版 社: 中国城市出版社
出版时间: 2009-3-1字数:版次: 1页数: 154印刷时间:开本: 大32开印次: 1纸张:I S B N : 9787507420852包装: 精装编辑推荐
美国统计专家畅销50年的伟大时代经典,“25本投资经典之一”、“经典社会学读本”,“故事书”一样精彩,像“马克吐温”一样充满了幽默的讽刺案例,商业人士必知的数据造假权威读本,公开统计专家才明白的专业统计知识。
你有没有想过,平均数的意义并不如想象的那么大。
“经管学院毕业生平均年薪XXX”之类的话题,其实并没有多大意义。极端一点,也许10%的人年薪在100w以上,剩下90%的人年薪在10w以下。但是平均数不能给我们这些信息,所能给我们的是一种浆糊过的假象。中位数倒是能更多地给我们多一些信息。这些正是《统计数字会撒谎》一书要告诉你的。
还有,看看当今中国电视、报纸上卖药的广告,“中国有百分之××”的人“缺钙”、“缺锌”、“缺铜铁”……这个“百分之××”是多少呢?一般是70%、80%、90%。很奇怪,过去凭票过日子的时候,中国人啥成分不缺,现在怎么什么都缺?为什么?《统计数字会撒谎》可以让你对此豁然开朗。
……
这些关于数字的疑惑,你都可以在达莱尔•哈夫的书中觅出真知。
《统计数字会撒谎》一书正是美国统计专家达莱尔•哈夫的经典之作,是流传最广的统计学普及读物之一。古老而又流行,在美国出版了50年依然畅销不衰,还被人们将之与《股市作手回忆录》等一起并列为所有时代最伟大的25本投资经典。而且,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。书中揭露了大量至今仍然被销售员、专家、记者或者广告撰稿人频频使用的统计操纵技巧。此外,该书风趣的插图和通俗的语言把神秘的统计学写得像故事会一样精彩,已经成为了美国商业人士、研修人员的重要入门必修书之一。
书中,达莱尔•哈夫提出,当你面对虚假但貌似真实的统计数据时,正确的方法是问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义么?
这个达莱尔•哈夫“五步法”,才是识破数据花言巧语的“武功秘籍”。
桑普拉斯曾说过,统计分析让一切假象原形毕露。但遗憾的是,统计未必能够揭示真实,有时候还可能制造假象。当我们面对生活中形形色色的统计数据的时候,还要多保持一些理智和清醒,并要有所保留地看待问题。因为“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。” (培根语)
内容简介
假数据是可以披上羊外衣的!房价,工资,增长率,利润率……你都有可能被一些统计数字所狠狠的忽悠了一把。
然而,假的真不了!翻翻报纸,《房价数据满天飞 市民抱怨看不懂》《“平均工资水平”有多少可信性?》、《长春白领月薪1500?标准太低数据存疑》、《平均工资越高越令人恐惧》……类似于这样的质疑越来越多。统计这种神秘的语言,在一个用事实说话的社会里是如此吸引人,但有时它却被利用并成为恶意夸大和迷惑他人的工具。
《统计数字会撒谎》正是这样一本你读懂真假数据的必读书。
美国统计专家达莱尔•哈夫的这本经典作品《统计数字会撒谎》作为揭露数据造假经典工具书,被“数据造假者”在全世界围追堵截,他们相当害怕你看到书中的真相。虽被奉为“世界统计学畅销第一书”、“25本投资经典之一”、“经典社会学读本”,但美国统计专家达莱尔•哈夫用风趣的插图和通俗的语言把高深的统计写得像“故事书”一样精彩,才是此书最大的魅力。被誉为“数据造假曝光宝典”,畅销50年而不衰。给你揭露大量至今仍被销售员、专家、记者或者广告撰稿人频频使用的“行骗工具”:有偏的样本,可以挑选的平均数,遗漏某些重要的数据,混淆因果关系,滥用一维图形等。
知晓其中所有的“行骗技巧”,洞悉统计数据的真实面目,轻松理财、管理属下、彻底读懂经济报道,不再被形形色色的数据所忽悠,不再让自己的决策南辕北辙。
作者简介
达莱尔哈夫(Darrell Huff),美国统计专家,于1913年出生在美国爱荷华州,毕业于爱荷华州立大学(the State University of lowa),获得学士学位和硕士学位,在此期间他由于成绩优异加入了美国大学优等生的荣誉学会(Phi Beta Kappa),同时还参加了社会心理学、统计学以及智力测验等研究项目。达莱尔哈夫的文章多见于《哈泼斯》、《星期六邮报》、《时尚先生》以及《纽约时报》等美国顶尖媒体。1963年,由于他的贡献被授予国家学院钟奖(National School Bell Award)。
目录
Chapter 1内在有偏的样本
Chapter 2精心挑选的平均数
Chapter 3没有披露的数据
Chapter 4毫无意义的工作
Chapter 5令人惊奇的图形
Chapter 6一维图形的滥用
Chapter 7不完全匹配的资料
Chapter 8相关关系的误解
Chapter 9如何进行统计操纵
Chapter 10如何反驳统计资料
媒体评论
哈夫先生用如此生动的、充满人情味的方式来论述统计这个干巴巴的课题,真是一剂灵丹妙药……我们太需要这本书了,它虽然娱乐性强浅易读,却十分具有说服力。——美国著名管理杂志《管理评论》作者和制图者倾注了全力,给大家提供了一本十分轻松活泼的读物和卡通画。它们能给你带来娱乐,又能引发思考,而且还揭穿了许多统计方法的谎言。——美国著名图书杂志《图书期刊》这是一本善意破坏性的书,读完它后,你对于‘万能统计’的信任将大大降低。——美国权威政论杂志《大西洋》有3种谎言:谎言、糟糕透顶的谎言和统计资料。——英国前首相本杰明•迪斯雷利(Disraeli)对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要。——美国著名科幻作家H•G•威尔斯(H.G.Wells)使我们陷入麻烦的通常并非我们不知道的事情,而是那些我们知道得不确切的事情。——美国作家阿蒂默斯•沃德(Artemus Ward)我需要完成一个很大的课题——统计学,但却感到我的写作功底十分有限,如果不牺牲准确性和完整性,就很难让人理解。——英国著名科学家相关系数“r”创立者弗朗西斯•高尔顿(Sir Francis Galton)
书摘插图
第一章内在有偏的样本
有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的数量,你惟一能做的只有一颗一颗地数豆子。
用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大,并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏,由于选择方式的不合理或者容量过小,抑或两种情况同时存在。
通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放问卷,问卷中包含这样一个问题:“你乐意回答调查问卷吗?”整理所有的答案,你很有可能得到下面的结论:“一个选自总体、典型的横截面”中,压倒多数的人选择了“乐意”。为了具有说服力,你还可以详细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初的样本中,10个里面有9个会当这种“投手”,在宣布你的结果时,你仍然会遵从惯例,忽略他们。
现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。
不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教徒变成了基督教徒。资料来源于由丹尼尔A.波林(Daniel A.Poling)牧师主导的调查,丹尼尔A波林是教派组织《基督教先驱报》(Christian Herald)的编辑。《时代》(Time)杂志描述了整个故事的梗概:
“通过对全美基督教牧师的横截面展开调查,《先驱报》得到了调查结果。调查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问卷显示:在过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据样本推算,波林得到了全国范围的估计:近10年来全美共有4144366名天主教徒改变信仰,变成了基督教徒。主教威尔奥斯勒(Will Oursler)写道:‘即便考虑到误差,全美范围内这一数据也不可能少于200万或者300万,而且很有可能接近500万。’”
虽然《时代》没能指出真相的关键之处,但是它却使我们了解到被调查的牧师中超过90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破坏调查结果的可信度,我们只需要指出:这个“500万”是不可靠的,因为调查中有高达90%的牧师没有发表看法,或许他们中大多数都早已将调查问卷投进了纸篓。
根据以上判断,我们利用管辖范围内所有牧师人数,即181000人——该数据就是波林博士计算时所采用的数据——进行自己的推算。由于从181000名牧师中抽取了25000人接受调查,得到了改变信仰的教徒为51361人,如果调查全部牧师,转变信仰的总人数应该约为370000人。
我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国范围发布的数据一样“可靠”,而后者却是前者的11倍,是的,300万看上去更加令人欢欣鼓舞些。
至于奥斯勒先生充满自信的那句话“考虑到误差”,好吧,如果他发现了一种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。
在上述背景下,让我们来研究一则以前的新闻报道:“1924级的耶鲁毕业生平均年收入为25111美元”,要知道几年前的钱是更值钱的。
好家伙,他们干得真不赖!
可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老时,你就不需要辛苦地上班,甚至他将来年老时也不用上班?
在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确;它大得令人难以置信。
对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。但是对于年收入25000美元的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水。
而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们在纽海文译者注:纽海文是美国东北部康涅狄格州的一个城市,耶鲁大学就坐落在这个城市。接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有些人却故意缩小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?这两种趋势——夸大与缩小,也许将相互抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜测哪种趋势将胜出。
我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在,让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。
可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许多人已经消失在茫茫人海中。
并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到5%~10%就已经相当可观了。也许这个调查的回收率会高些,但也不可能达到100%。
因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与未被样本包括的那些人——无法联系的人或者不愿意回答的人——具有同等的收入水平?
那些在耶鲁大学毕业生通讯录上被注明“地址不详”的迷路小羊羔是谁呢?他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了与校友办公室联系,他们的地址也可以通过查《美国名人录》(Whos Who in America)或其他参考资料找到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的25年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才可能达到25111美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不起路费。
又是谁会将调查问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与同事的谈资时,“别担心,”他对老板说,“我与你一样,对这么低的工资感到羞愧。”
很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下25111美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了1924级耶鲁学生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性还需要满足这个假定:这些绅士们说的都是真话。
我们能否过于轻率地做出这样的假定呢?来自抽样理论的一个分支,即市场研究的经验告诉我们,人们会说真话的假定往往是不可靠的。以前曾经做过一项了解杂志读者阅读量的上门调查,其中的一个主要问题是:“你和你的家人阅读什么杂志?”当将调查结果制表并分析后发现:喜欢《哈泼斯》(Harper’s)杂志的人相当多,这本杂志如果不能说是曲高和寡,但至少也是品位不俗;而喜欢《真实故事》(True Story)——一本定位大众化杂志的人就不多了。但是几乎同时期的、由出版商提供的数据很明显地显示出相反的结果:《哈泼斯》杂志的发行量只有几十万份,而《真实故事》杂志的发行量却多出了百万份。正如这项调查的设计者所疑惑的,也许他们问错了对象,但这又并不可能,因为上门调查走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者,即那些调查中回答问题的人没有说实话,几乎所有的调查都无法阻止人们往自己脸上贴金的做法。
最后你将发现,当你想知道到底什么人在读某本杂志时,询问是无济于事的。直接上门去告诉他们你想收购旧杂志好了,看看他们能提供什么,这样你才能掌握更多的信息。你只需要清点一下《耶鲁评论》(Yale Reviews)和《爱情罗曼史》(Love Romances)各自的份数就够了。当然,即便采用这种方法也只能说明人们曾经买了什么,而不能确定人们读过些什么。
……