老百汇是真人吗_10分钟读完《统计数字会撒谎》,识破狡猾人的行骗术

  • 发布时间:2019-12-28 15:34:30

老百汇是真人吗_10分钟读完《统计数字会撒谎》,识破狡猾人的行骗术

老百汇是真人吗,【精读君曰】

今日推送的是精读君的第x篇微书。微书是精简版的书籍,它能够让你短时间内吸收高浓度的知识,帮您节省阅读时间。今天推送的是《统计数字会撒谎》的微书。

本书近8万字,以每分钟读600字计,阅读此书需133分钟,即约2.2小时。精读君的微书字数约6千字,阅读耗时10分钟,可帮您节省123分钟。

在这个信息爆炸的时代,我们的周围总是充斥着各种各样的新闻和数据,比如“广东本科生平均月薪7000,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”……可是,客观真实的数字摆在那,我们就能正确认识世界了吗?

今天,精读君就来拆解一下美国统计专家达莱尔•哈夫的杰出著作《统计数字会撒谎》,并按照“统计数字中暗含哪些骗局——如何破解骗局”的逻辑为大家详细讲解一番,看看我们周围的数据中都暗含了哪些骗局。

统计数字中暗含哪些骗局?

【一】

内在有偏的样本

人们利用内在有偏的样本进行数据的统计,是导致统计数字不真实的第一个原因,下面我们来看一则旧的新闻报道:

1924级的耶鲁毕业生平均收入为25111美元。

当你看到这个数据时,是否真的认为,只要把你的孩子送进耶鲁大学,将来就可以高枕无忧,坐在家里数钱了呢?

事实上,这个数据中就使用了一个有偏的样本,从以下几个方面,我们可以看出破绽:

①首先,对于一群相隔千山万水的人,了解他们的平均收入,且精确到以元为单位,几乎不太可能;

②对于年收入25000美元的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水;

③这些耶鲁毕业生不一定坚持说真话。因为当问及收入时,有些人出于虚荣或天生乐观而夸大数据也不是不可能;还有一些人也有可能故意缩小数字,特别当涉及征所得税的问题时,往往会犹豫不决,生怕与其他文件填报的数据不符;

④没有人能够掌握所有仍在世的1924级耶鲁学生的情况,25年后,他们中的许多人可能都已消失在茫茫人海中,邮寄问卷的回收率能达到5%~10%就已经相当可观了。

因此,得出“1924级耶鲁毕业生平均收入25111美元”的数据实际上是建立在这样一个样本之上:它代表的是1924级耶鲁学生中能够联系上的,并愿意站出来说出真实收入的一个特殊群体。所以,这个样本的代表性并不强。

【二】

精心挑选的平均数

当听到某公司的老板会宣称“在他的企业中,员工的平均收入达到了1403英镑”时,你就应该好好思考一下这个数据的可信度。比如,你是某个小型制造企业的3个合伙人之一,年底时,你给企业的90个职工发了99000元(每位职工1100元)。

你和其他合伙人每人各获得5500英镑的工资,最后还余下21000英镑,作为利润可供你们3个合伙人评分。如果你采用“平均数”如实宣布员工的收入信息,可能是这样的:

职工的平均工资 1100英镑

所有者的平均工资及利润 12500英镑

可是,这样看上去似乎太不公平,于是你可能会尝试另外一种形式:从利润中拿出15000英镑以奖金的形式评分给3位合伙人。这一次再把所有所有者和职工的工资进行平均,还是采用所谓的“平均数”,就变成:

所有人员的平均工资或薪资 1403英镑

所有者平均利润 2000英镑

改过后的声明看上去似乎好多了,总额中只有低于6%的部分形成了利润。

那么,导致这个骗局的原因是什么呢?就是精心挑选的平均数。事实上,平均数不仅是简单意义上的算术平均数,还包括了中位数和众数:

算术平均数:又称均值,是将所有数据加总后除以样本数得来的结果(合伙人和职工的工资加总进行平均),也是平常意义上的平均数。

中位数:它指这样一个数,在所有的样本里,一半的值在它之上,而另一半在它之下(高收入的所有者和低收入的职工中位于中间的、相对较小的收入值)。

众数:在所有样本里出现最多的那个数(平均收入1100英镑的职工)。

因此,当你看到某人平均收入时,不妨问问:是什么的平均?或许它仅仅是所有者25000英镑的高收入与全体工人低水平收入的平均数,这没有意义。因为这样既隐瞒了1100英镑的低收入,又隐瞒了所有者以巨额薪金形式抽取的高额利润。

【三】

没有披露的数据

某位统计专家曾经建议,在被告知某个调查的结果时,你需要做的就是反问一句:“为了得出这个结论,你调查了多少名被访者?”比如,下面这则牙膏广告就令人印象深刻:

“用户反映,使用多克斯(doakes)牌牙膏将使蛀牙减少23%。”

这一结论出自一家经证实信誉良好的“独立”实验室,并作为该品牌牙膏的广告宣传。如果继续阅读,就会发现一些小字内容:被测试的用户仅由32人组成(有些商家甚至直接抹去这样的小字内容)。

这样的内容意味着,让规模不大的一组人连续记录6个月的蛀牙数,接着使用多克斯牙膏。之后一定会发生以下其中一种结果:

一、蛀牙明显增多

二、蛀牙明显减少

三、蛀牙数量无明显变化

如果是第一或第三种结果,多克斯公司可以编档保存,然后重新实验。由于机遇的作用,迟早有一组被测试者将证明有很好的效果。但如果统计者把研究样本扩大为100或200人,结果就没了优势。比如,蛀牙减少2%的结果,就不会对销量有多大的提升作用。商家就是利用这样不充分的样本数据,来达到预期的广告效果。

还有一个经典的案例:

几年前,有个小儿麻痹症疫苗实验。一个社区中有450名儿童接种了疫苗,680名儿童作为对照组没有接种疫苗。不久,该区域感染了流行病,接种疫苗的所有儿童都未患上小儿麻痹症,而对照组的儿童也没有患病。

这是怎么了?其实,这就是由于实验人员在设计实验时忽略或者没能真正了解到该病的低发生率导致的结果不如预期。一般情况下,这种规模的小组预计只会产生2名患者。因此,实验从一开始便注定是毫无意义。也许将规模扩大到15到20倍,才能产生足具说服力的结果。

没有透露的数据,是导致统计数字不真实的第三个原因,其欺骗性在于:人们经常忽略了它们是否存在。

【四】

被歪曲的统计图

有时候,单靠文字来表达统计结果,很难达到广告或宣传的效果,于是人们便利用统计图的视觉冲击来达到此目的。你也许会质疑:图表是很直观的统计数据,难道还能不真实吗?下面就来看看精挑细选的统计图是如何欺骗蒙蔽人们双眼的。

达莱尔用下面这个例子为我们详细演示了统计图“歪曲”的过程。

上面这张图(横坐标表示的是月份,纵坐标是每月的国民收入)是一个原始的、清晰显示一年来国民收入变化的折线图,并且变化是逐月反映出来的。

然而画图者会发现,整张图按比例绘制,虽然看上去国民收入的确上升了10%,但是却不振奋人心。这时候,他们就会把底部的数据抹去,最后得到下面这张图的效果:

你是否发现,纵坐标的每一个刻度都缩减为了原来的1/10,横纵坐标的比例关系被更改了。最后出来的效果,就相当于将“国民收入增长了10个百分点”改写成“国民收入惊人地攀升了10个百分点”。

抹去部分数据、改变图片比例等使用被歪曲的统计图,是导致统计数据不真实的第四个原因。

【五】

相关关系的误解

有一篇医学文章曾严厉警告:喝牛奶的人群癌症发病率在上升。在新英格兰、明尼苏达州、威斯康辛州、瑞士这些牛奶产量和消费量大的地区,癌症有上升趋势,而牛奶十分稀缺的锡兰却极少发现癌症病例。

文章还指出,牛奶消费量极大的英国妇女患癌症的概率是很少喝牛奶的日本妇女的18倍。

那么,牛奶和癌症发病率的相关性到底有多大呢?其实,深入挖掘下去就会发现,还有很多因素都可用于解释癌症发病率的提高,比如,癌症主要发生在中老年或者老年人身上;发病率高的瑞士和前面提到的美国那些州,其居民寿命相对较长;有研究发现,英国妇女的平均寿命比日本妇女长12岁。

由此发现,两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化,就好比说,如果b紧跟着a出现,那么a形成了b,这样的因果关系毫无根据。比如,大学中抽烟者的学习成绩普遍不如不抽烟者,你就能得出“抽烟导致低分”的结论吗?会不会是相反的作用关系呢?

也许不理想的分数促使学生变得爱抽烟呢?虽然这种说法与前一种说法都不靠谱,只不过对于宣传人员来说,它实在无法令人满意。更大的可能性是:两个因素并不互为因果,而同为第三个因素的产物。

因此,在使用相关性关系时,要注意分辨这个相关是否是事件变迁的产物或时代趋势的产物,否则就是对相关关系的误解。

【六】

不完全匹配的资料

什么是不完全匹配的资料?我们来看这么一则案例:

有一篇刊登在《本周》杂志上讨论驾驶安全的文章告诉读者“以每小时70英里(1英里=1.6千米)的速度疾驰在高速公路上,由于速度过快而使汽车左右颠簸。”如果当时的时间是早上7点,那么你生还的机会将是晚上7点的4倍。证据是“在高速公路上,晚上7点发生的事故是早上7点的4倍。”

杂志上的说法看似有道理,但证据却和结论不符。我们只要认真想一想便知,晚上的车祸比早上多,其实是因为晚上有更多的车和人在高速公路上。单独一个驾驶员在晚上也许会比较危险,但上述资料却并不足以证明这一点。

类似的数据还有:

去年因飞机失事造成的死亡人数比1910年多,所以便意味着乘坐飞机很危险。

在最近的某一年中,火车交通的死亡人数为4712人,所以自驾比火车更安全。

事实上,这些都是无稽之谈,因为现在选择飞机作为交通工具的人已经是以前的几百倍了;调查的样本中,4712人中仅有132人是火车上的乘客,除非将这个数据与总乘客、里程数相结合,否则在横向比较中,132人也起不了作用。

搜集这样的资料,却把它说成是那样一回事,这种挂羊头卖狗肉的行为就是统计资料的不完全匹配,这是导致统计数据不真实的第六个原因。

【七】

毫无意义的工作

这里“毫无意义的工作”所指的常常是那些无意或有意被人们忽略的数据,如误差等等。

比如,a和b接受智力测试,测出a的智商是101,b是98。由于智商的平均数是100,即意味着“正常”,因此得出结论:a是比较聪明的孩子。但事实并非如此。

假设你需要通过步测栅栏来了解几块地的大小,多次步量后得出此地长为100码(1码=0.9米)。但你发现,测试数次的过程中平均而言有3码的误差。那么被你步量测出的100码应该被记录成100±3。

同样地,智力测验也会有这样的可能误差。假设这样的误差为±3,那么a的智商更全面的表达应该是101±3,b是98±3。因此,有1/4的可能性b的智商将超过101。如此一来,b的智商并不低于而是高于a的智商,它们之间还有3分的差距。

除了误差,还有一些数据也常常被人们忽略。比如,老黄金香烟公司就利用一个毫无价值的结论制造了大量喧闹并大赚了一笔。

事情源于一个对不同品牌香烟烟雾的分析实验,结果列出了每种品牌香烟的烟雾中尼古丁以及其他有害物质的含量,并刊登在一个较为权威的杂志上,与此同时,在详尽的数据支持下,该杂志声明:所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟,都不会有任何差异。

结果,因为有人发现,在一长串具有相同有害物质的品牌名单上,“老黄金”牌香烟排在最后,于是“老黄金”品牌负责人就抓住了这一机会,把“由一家国家级杂志主持的实验证明:老黄金牌香烟在不良物质,以及尼古丁含量方面排名最后”的字样打在了广告上,绝口不提“各个品牌差异并不显著”的事实。

这就是忽略关键数据导致的统计数据不真实,也是致使数据失真的第七个原因。

如何破解骗局?

【八】

查看样本是否有偏

①样本是否足够大?

由于样本数量偏小容易导致结果的不准确,因此你要明白,如果在派发的1200份调查问卷中,仅有14%的回收率,这样得出的调查结果就没什么意义了。因为86%的人不愿意公开自己对某问题的看法。

看样本是否有偏,就可以知道调查结果是由于选择不当,还是刻意挑选有利的样本而出现偏差。对于样本中的相关系数也可以问同样的问题:数值是否足够大?能否解释问题?观察值是否足够多,从而保证结论的可靠性?

②内在样本提供的答案是否真实?

对于有些样本的调查,还可以通过观察其调查的方式来判断结果的真实程度。

比如,在调查一定范围内人们喜欢看什么杂志的问题中,如果你看到的是问卷调查,就要质疑受调查者所提供答案的真实性。而如果调查是通过上门收购旧杂志的方式来获得结果,就说明结果相对可靠。

【九】

观察所得数据的调查中遗漏了什么

①注意调查中包含的观测值

在调查中,你通常不会被告知包含了多少观测值。当信息来源于与信息存在利害关系一方时,你就应该注意观测值的缺失,并对整件事提出质疑。比如,当均值与中位数相差甚远时,你就需要注意那些没有标明类型的平均数:是平均值,中位数,还是众数。

《时代》杂志这样描述他们的新订户:“他们年龄的中位数是34岁,家庭平均收入为7270美元。”而早期关于“旧时代”读者的调查发现,“年龄中位数是41岁……平均年收入为9535美元……”

看到这样的数据你就要打上问号:为什么两次谈到年龄时都指出采用了中位数,而关于收入却不明确平均数的类型?因此你就要注意,这里谈到的收入也许使用的就是数值较大的均值,以达到利用高收入读者群吸引广告商的目的。

②查看引起变化的原因

比如,某个报告得出“最近25年癌症死亡人数增多”的结论,你就要反问:癌症的死亡人数真的有增加吗?数据中是否遗漏了引起这一变化的原因:以前许多“病因不明”的案例现在已经确诊为癌症;尸体解剖成为一种经常使用的方法,因此出现更多确诊的癌症病例;医学统计资料的报告和编制更加全面;易发病年龄段的人数增多等等。

③遇到统计图时,仔细观察图中的数据

阅读统计图时,我们不能把注意力集中在图形的直观效果上,而应深究隐含的数据,通过数据的对比得出结论,才不会被看似“惊人”的变化图所迷惑。

【十】

查看数据中是否被偷换了概念

在分析统计资料时,应留心从搜集原始资料,到形成结论的整个过程中,是否存在着概念的偷换,也就是将看上去极像、而完全不同的两件事混淆在一起。

比如,对“去年因飞机失事造成的死亡人数比1910年多”这个结论来说,并不意味着乘坐飞机很危险,因为现在选择飞机作为交通工具的人已经是以前的几百倍了。

也就是说,交通事故死亡人数的增多,不能等同于交通事故死亡率的提高。

如果你出门远行前十分关注旅途的安全,那么询问去年火车、飞机、汽车哪一种交通方式的意外事故多,并直接比较这些数据来进行判断是不正确的。只有通过询问每100万乘客里程的遇难人数,并进行比较才能确定哪种方式的风险最大。

此外,在相关分析中自命不凡地胡说也是一种偷换概念的手法,即将“相关关系”偷换成“因果关系”。

比如,在抽烟和大学生学习成绩相关性的案例中,抽烟和低分只是一种相关的关系,但并不是说如果低分紧跟着抽烟出现,那么抽烟就是导致低分的原因。

如果认为抽烟导致低分,就是运用真实的相关关系来支持一个未经证实的因果关系。

【十一】

警惕外推法得来的无意义数据

什么是外推法?外推是根据过去和现在的发展趋势推断未来的一种方法。它是一种很好的近似计算方法。对于已求得的低精度近似值,只要作几次最简单的四则运算,便立刻得到高精度的近似值。但有时,通过这种方法分析统计数据,并对未来趋势进行预测而来的结论,往往就会与实际情况相左。

美国曾经根据1939~1941年的生命表计算得到,美国人的平均寿命大约只有63岁。于是,《社会保障法案》修正案曾经就纠结于这样的争论:既然预期寿命大约只有63岁,那么将退休年龄规定为65岁便是惺惺作态,因为所有人在此年龄前都已死去。

这里出现问题的关键就在于,数据指名的是出生时的预期,而出生的婴儿中几乎一半都将活过63岁。更何况,1939~1941年的生命表显然已经过时,但却仍被使用,这便忽略了许多关键因素和数据做了许多毫无意义的工作。

外推法在预测趋势时其实是十分有用的,但当看到利用外推法计算出来的数据和图表时,一定要记住的是:到目前为止的趋势都是事实,而未来的趋势只不过是受教育者的猜测。该方法暗含“其他所有条件都相同”以及“现有趋势将继续下去”的前提。但实际上,条件会一直变化。

总结概括

【十二】

统计数字会撒谎

这本书运用了大量实例揭露统计数字的不真实性,以及导致其不真实的七大原因,下面是精读君根据“是什么——为什么——怎么办”的逻辑对本书整体脉络进行梳理后的框架图:

当你下次再看到一些夸张的统计数据时,请仔细思考数据背后的含义,要知道,统计这种神秘的语言,在一个用事实说话的社会很是吸引人,但有时它却被利用并成为恶意夸大和迷惑他人的工具。

每天9分钟,读完一本书。一年365本,精读微信号。

更多内容,请点击下面链接:

12分钟读完“阅读圣经”《如何阅读一本书》

12分钟读完专治“思维混乱”的《金字塔原理》

6分钟读完“记忆训练宝典”《多米尼克的记忆魔法书》

12分钟读完《洞察力的秘密》,你也能成为福尔摩斯

10分钟读完最具影响力的商业书籍:《高效能人士的七个习惯》

重庆幸运农场app