《赤裸裸的统计学》读书笔记

Naked_Statistics_01

最近对大数据和统计学很感兴趣,于是买了一些书来看。首先从从这本以描述而非计算为主的《赤裸裸的统计学》看起。作者是《经济学人》杂志的记者,这种并不是特别专业的人写出来的书反而可能会更通俗易懂。本书从简单的知识点比如平均数、中位数、标准差开始讲起,慢慢深入,涉及相关系数、概率论,然后再逐步引入中心极限定理和正态分布,并提出统计推断和假设检验的概念和基本流程,最后介绍了用途最多的回归分析。在每个部分,除了介绍这些统计学概念和方法外,一定会谈及滥用这些方法可能会出现的错误,越是实用好用的方法,就越是容易被滥用。

统计学是一个工具,它可以提供事物之间相关性的数据判断,但这并不能替代任何因果关系,也不能被当作是唯一的判断依据,只能作为辅助。本书不断地提到统计学被错误使用的情形及其后果,就是想让读者铭记这一点。对于作者来说,这或许是比介绍统计学方法本身更重要的目的,就像在结束语部分最后所说:

因此,我想用一组词语来结束全书:火、小刀、汽车、脱毛膏。每一样东西都有一个重要的功能,每一样东西都能让我们的生活变得更美好,但如果每一样东西如果被滥用都会造成严重的后果。现在请你将“统计学”也放到这组词组中去,从今天开始,好好的使用数据。

这本书的翻译还算可以,但是稿件校对绝对有很大问题,书中出现了好几处严重的错误,以下会提到。

引言 我为什么憎恶微积分却偏爱统计学

简单来说,就是学数学很多时候并不了解数学的意义是什么,如果你没有被“高雅”的公式本身所吸引,那么你面对的只会是一些繁冗而机械的公式。相比于微积分,统计学在普通生活中的应用要多得多,所以更能吸引人。我觉得如果上学的时候老师也这么给我们将统计学,我应该会学得更好。

第1章 统计学是大数据时代最炙手可热的学问

在这个大数据时代,统计学变得非常的有用,能够帮助我们处理数据以获得有意义的结果。但对统计学的过分依赖或带来误导性的结论或导致不良后果。本书是向1954年发行的《统计数字会撒谎》致敬的,在向读者介绍统计学一些常用方法的同时,也介绍了那些最常见的错误和曲解,这样就不至于犯了错还被蒙在鼓里。

第2章 描述性统计学

数据有很多好处,但也有不少缺点,即它可以提供给我们针对某一现象的可操作性、有意义的概括,但伴随着简化和被滥用的风险。另外本章也介绍了集中基本的描述性数据:平均数、中位数、正态分布、方差、标准差等。

第3章 统计数字会撒谎

由于统计数据的简化和不精确,可能会造成对现象的误解,甚至有可能被有意利用来掩盖事实和错误引导。较常见的方法有:

  1. 仅关注某现象中多个矛盾部分中的一个,以偏概全。
  2. 对同一现象选择不同的分析对象,对于不同对象的影响可能非常不同甚至截然相反。
  3. 对集中趋势/异常值的选择,平均数与中位数的选择,关键在于在此数据分布中异常值对事实的真相是起扭曲的部分,还是其重要组成部分。
  4. 数据相同但单位不同,比如货币汇率、通胀等的影响。
  5. 百分比在基数大小不同时的表现力。关键看这个问题关注的是频数还是百分比。

由于统计数据是如此可能被误读和扭曲,将此作为一项政策指标就需要非常谨慎,否则可能会带来相反的后果。一味追求政绩的数据好看,会诱使执行者采用一些错误的方式到达指标。

第4章 相关性与相关系数

相关性体现的是两个现象的关联程度,这是科学研究中非常有用的途径,甚至可以说是人类认知世界的原始方式(可参见《金枝》)。本章简介了一种表达相关性的统计指数——相关系数。其优点在于,第一,数学表达简单,介于-1~1之间的一个常数;第二,可以消除单位不同的影响。

但需要注意的是,相关性并不等同于因果性。可能他们之间都与第三者都有因果关系,但其本身之间不一定有。这也就是大数据时代我们利用数据所需要谨记的。

第5章 概率与期望值

统计学中非常重要的一门分支是概率学,这是研究不确定事件和结果的学问。经常用于研究几件相互独立或不独立(相关)时间共同发生的可能性。如果每件事情的后果都可以用指标来表示,那么每个事件的可能性与后果的乘积之和便是整个行为的“期望值”。这在所有管理决策的过程中,尤其在金融领域是最实用的统计工具。

但对概率的应用有一个很需要注意的地方,即统计概率都是对大量样本而言的,并不能绝对地说明和指导其中一个个体。比如某个国家中喜欢吃羊肉的人多,并不能在你面对没一个该国人时就断言他喜欢吃羊肉,只能说有很大可能。又如书中的例子,某项投资总的期望值很高,但其中最有可能的结果却是失败,如果你只是进行一两次这项投资,那么并不能保证一定能获益。只有大量的多次的才能符合期望值。

第6章 蒙提·霍尔悖论

这个悖论很有意思,确实能告诉我们,对概率的本能理解有时会将我们引入歧途。除了书中从经验和直觉两种角度的解释外,我想到一个更严谨的解释:

有n扇门。每扇门的概率为1/n,当你选择了1扇门时,被选择那扇的概率为1/n,其他各扇门各自的概率也是1/n,但其总概率为(n-1)/n,如果其中n-2扇门都被打开了且没有中奖,相当于已知被打开的门的中奖概率都是0,那么着(n-1)中剩下的那扇门的概率就为

\frac{{n - 1}}{n} - 0 \times (n - 2) = \frac{{n - 1}}{n}

,这就非常大了。

第7章 黑天鹅事件

统计学会出错,不,应该说概率学本身不会犯错,犯错的是使用它的人。本章通过对08年金融危机的“黑天鹅”时间的分析,引入了人们在使用概率学士常见的错误、误解和道德困境

“黑天鹅”是指小概率风险,一般来说它很难发生,但一旦发生后果则相当严重。08年金融危机正是因为华尔街金融公司使用了VaR分析模型中1%概率的巨大损失事件的发生引起的。主要问题有两个:

  1. VaR分析用的数据都是过去的数据,但没有理由认为未来的市场行为与过去一样,其中并没有引入经济危机的数据;
  2. 虽然VaR中99%都是盈利,但并不能排除其中1%损失的风险。

对此我个人的疑问是,投资必然伴随风险,如果有10%盈利的项目,那么其效率也必然是很低的。我们有必要为了那1%的风险而去放弃99%的利益吗?这样的成本是否太高。比如事先知道VaR运作可能会导致金融危机,但如果不按VaR运作,就连金融危机后的程度也达不到,那么还应该放弃VaR吗?换句话说:是在挑战中抓住机遇前进,还是窝在原地保守安全地过日子?我认为对于黑天鹅问题,应该做的不是去为了1%的风险而放弃99%的利益,而是应该更加谨慎仔细地去评估和检查我们的统计预测模型是否存在不足而导致风险实际上高于1%。如果是,那么就应该做出更充分的资源准备,以应对可能的风险,当然这可能会牺牲一些效率和收益。

“黑天鹅”事件是很少见的概率学应用错误,但还有一些则是很常见的:

  1. 想当然认为事件之间不存在联系,而用各自概率之积来计算同时发生的概率。但有时候事件中是存在隐藏联系的,尤其是同类事件连续发生,需要引起重视,可能它们有共同的原因,此时就不再是独立事件。
  2. 想当然认为事件之间存在联系,这恰与第一种错误相反。有些连续发生的时间让人直觉上认为一个时间也会/绝对不会发生同样结果,然而它与之前事件结果之间并无联系。书中一个班级全体抛硬币的例子很生动。
  3. 成群病例的发生。这就是错误2的其中一种情形,即当一些小概率事件连续发生的时候,人们往往认为其中有特别的原因,但实际上只是巧合。只要样本基数够大,巧合是有可能发生的。
  4. 检方谬误。这涉及到概率学应用的一个基本原则,即统计概率只能用于描述整个群体或个体的可能性,并不能用于对单个个体定性。因为就算有99%的概率为是,也不能排除某个体是另外1%的可能性。所以在法律应用上,概率学只能作为一种参考工具(比如DNA检测,因为其本身也是有概率的,并不是100%),必须借助其他的调查手段和事实背景来综合判断。
  5. 回归平均数。这个很有意思,它告诉我们,某事件短期的概率波动并不是影响其在大尺度或者说整体上的概率,及平均概率。说通俗点就是眼光要放远一点,不要计较一时的得失。
  6. 统计性歧视。这个本质上和错误3是一样的,及上述基本原则。比如说河南人问题。

第8章 数据与偏见

统计学得以获得成功应用除了其数学工具之外,另一个重要的部分就是被分析的数据,甚至可以说这是基础。一般来说,会要求数据做3件事:

  1. 得到一个具有代表性数据样本。需要注意的是,首先样本容量很重要,越大越好(在大数据时代甚至可以100%取样),第二,样本不能有偏见,否则便不足以代表整体的情况;
  2. 提供比较,找到对照组。自然科学领域的对照组比较容易实现,但社会科学就很麻烦,因为大多数时候并不能对人做实验,尤其是需要研究某项消极因素对人的影响的时候。如果确实可以进行实验,那么为了保证只有一个因素不同,在对象的选择上应该严格“随机取样”;
  3. 尽可能多收集数据,因为很多数据会有意想不到的用处。

如果数据本身是伪造的或是不正当的,就算统计方法再正确,结果都会非常糟糕,这甚至超过了由于统计方法错误而导致的后果。常见的一些数据错误如下:

  1. 选择性偏见。在选择对象的时候,每个对象被选的概率不均等,一般是由于选择法所能接触到的样本有局限性。
  2. 发表性偏见。肯定性的研究发现与否定性的相比更有可能被发表,因为更吸引眼球,从而影响我们对事实真相的判断。
  3. 记忆性偏见。当研究一些特别好或特别坏的结果时,样本对象会受到研究题目的影响,从而无意识地强化和选择有利于题目假设的记忆。此时就体现出纵向研究相比横向研究的优点了。
  4. 幸存者偏见。样本在统计过程中有一些或很多数据缺失,导致样本成分发生变化,所以结果并不准确。共同基金的例子很有意思。
  5. 健康用户偏见。实验组和对照组的对象并不是随机取样,而是被研究假设分为了不同的两组,他们可能除了研究假设的不同,还存在其他系列的差别,这样就不能断定是单一原因起作用了。

所以,可以看出,在整个统计研究中,优质数据是多么重要,而且往往比看上去困难的多。

第9章 中心极限定理

在大数据时代之前,统计学获得数据的基本方法是抽样调查,那为什么抽样调查的结论能够反映整体的情况呢?中心极限定理为其体现了理论依据,其核心要义就是:一个大型样本的正确抽样与其代表的群体存在相似关系。

由中心极限定理可以得到一些推论:

  1. 已知群体信息,可推断出其中正确随机抽样的情况;
  2. 已知正确随机抽样的情况,可推理出群体的信息;
  3. 已知群体信息和某个样本的数据,可判断出样本是否属于该群体;
  4. 一直两个样本的数据,可判断出是否属于同一群体。

上述推论说的通俗一点,就是看长得像不像。那么相像程度如何来描述,中心极限定理的数学表达可以告诉我们,这就是大名鼎鼎的正态分布曲线。对群体多次随机抽样,不管群体的分布如何,这些样本的平均值会在群体平均值周围呈正态分布。

样本平均值的标准差,我们称之为“标准误差”,符号

SE = \frac{s}{{\sqrt n }}

,s为群体标准差,n为样本数量。

正态分布的神奇之处是,有差不多68%的样本平均值会在群体平均值的1个标准误差范围内,95%在2个之内,99.7%在3个之内。换言之,3个之外的概率几乎为0。所以,这就为上述推论中需要描述的相似程度提供了数学方法。

本章有一个严重印刷错误,就是164页标准误差的公式是

SE = s\sqrt n

,实际上应该是

SE = \frac{s}{{\sqrt n }}

,关系完全错了。

第10章 统计推断与假设检验

统计推断与假设检验都是基于中心极限定理的核心要义:一个大型样本的正确抽样与其所代表的群体存在相似性。这种相似性体现在两个数据指标上,即平均值和标准差,通俗地讲就是它们大小差不多,覆盖范围(离散程度)也差不多。根据上一章讲的4个推论可以看出,在一个整体及其抽样,以及两个抽样之间都存在这种相似性,我们要通过统计学来判断两组数据是否相似,就是看其平均值之差是否在合理的离散范围之内。所以应用起来一般有两种:

  1. 已知群体的平均值和离散程度以及样本的平均值,就可以判断样本是否属于该群体。样本的平均值应该在一个以群体平均值为中心,以与样本容量有关的标准误差所确定的正态分布的合理范围内,如果不在,则不属于这个群体。公式:

    SE = \frac{s}{{\sqrt n }}

  2. 已知两个样本的平均值以及离散程度,可以判断它们是否属于同一个群体。如果两个样本属于同一个群体,两个样本的平均值之差,应该在一个根据两个样本自身的标准差所确定的一个合成标准差的合理范围内,比如2个或3个以内,如果超过,则应该不属于同一个群体。公式:

    \frac{{\overline x - \overline y }}{{\sqrt {\frac{{S_x^2}}{{{n_x}}} + \frac{{S_y^2}}{{{n_y}}}} }}

本章有一个说明不清的地方,在187页提到的“标准误差为22.7”,这个22.7在前文没有出现,是在章末的“补充知识点”中计算得出的,但奇怪的是,按照书中给出的公式和数据得出的也不是22.7。这个疑问我一直没能解决。

第11章 民意测验与误差幅度

统计推断另一种常用的形式是民意调查。与其他抽样调查形式之间最根本的区别在于,数据不是平均数,而是百分比。除此之外,其他流程都是相似的。

与其他统计推断相同,民调值也有一个标准误差

SE = \sqrt {\frac{{p(1 - p)}}{n}}

。当然这是在68%的置信区间内,如果要扩大置信区间,则要降低精度,即允许有2个或3个SE。举个例子,比如有68%的把握认为共和党会获得53%±2%的选票,其中2%就是SE,68%表示在一个SE以内的区间。如果扩大“误差幅度”就可以说“有95%的把握……获得53%±4%的选票”。总之,在没有新数据补充的情况下,要想提高民调正确率,就只能降低预测精度。

基于中心极限定理,一个1000人的民调足以提供有关整个美国的有意义和准确的信息。统计学并不复杂,关键是在于样本是否优质。所以民调真正的挑战在于:设计并选取正确的样本;用恰当的方式从该样本中获取合适的信息,以准确的反映他们的真实感受。

本章又出现一个明显错误,在205页“共和党候选人的新标准误差为 

\sqrt {0.52 \times 0.48/2000} = 0.1

”,而实际上应该等于0.01,下一段中的0.1也应该是0.01,真是令人惊讶的错误啊。

第12章 回归分析与线性关系

回归分析与前几章讲的统计学方法的很大一个不同点是,之前的例子里,需要研究的变量只有两种状态,是或否,有或无,比如是不是国际香肠节的参加者,是不是篮球队员,有没有一天吃20个麸皮饼,有没有自闭症。这种情况下只需要研究变量与结果之间是否有相关性即可,不需要也没有办法研究因变量随解释变量变化的具体数据。而在很多研究中,变量并不只是绝对的两种状态,而是一系列数值,这种情况下,没有绝对的多少或高低之分,就必须要研究结果随变量的变化规律,这就是回归分析的一个重要特点。

回归分析可以为每个解释变量给出一个回归系数,这样就可以在假设其他解释变量不改变的情况下,看出因变量与某一个解释变量之间的关系,换句话说,这就排除了其他可能的因素。这是回归分析的另一个重要特点。需要再次重复说明的是,统计学证明的相关性只是一种辅助的判断,并不能证明其中有因果关系。

回归分析中最核心的一点是,它寻找的是两个变量之间的最佳拟合线性关系。回归分析最后会得到一个回归方程,

y = a + bx

,y是因变量,x是解释变量,a是截距,b是回归系数。对于回归系数,我们需要关心的有3件事:正负,即解释变量与因变量之间的相关关系的方向;大小,解释变量对因变量影响的程度;含义,样本是否能够反映整个群体普遍的有意义的相关关系。前两个很容易理解,最后一个含义问题,其实就是前面几章一直在讲的置信区间。我们可以用相同的方法来判断这一样本的回归系数是否在标准误差的合理区间内。要注意的是,对于小型样本数据,回归系数的平均值不会呈现正态分布,而是t分布。

前面第4章讲了相关关系,都是用来描述两个量之间相关性的系数,相关系数和回归系数有什么联系呢?其实很简单,

b = r \times \frac{{{\sigma _y}}}{{{\sigma _x}}}

,b是回归系数,r是相关系数,是y的标准差,是x的标准差。直觉上思考一下也可以理解,标准差大小表示两个量的变化程度,比值就是一个随另一个的变化程度了,再乘以表示紧密程度的相关性系数就是回归系数了。

第13章 致命的回归错误

与其他概率学应用一样,回归分析也会被误用,而且由于回归分析应用的范围更广,所以误用的后果就更严重。本章介绍了让回归分析这一非凡的工具沦为“邪恶”工具的7个最常见的错误:

  1. 用回归方程式来分析非线性关系。回归系数所描述的那条“最佳拟合直线”的坡度,一定要是一条直线,如果不是,就需要分段用不同的坡度来表示。
  2. 相关关系并不等同于因果关系。这个在前面已经讲过多次了。
  3. 因果倒置。A与B有相关关系,并不一定是A导致B,完全有可能是B导致A,这一点很容易被忽略。关键在于,不应该使用那些受结果影响的解释变量,否则就会相互纠缠下去。比如,解释GDP增长时,在回归方程中加入失业率因素是不合适的,因为失业率很显然会受到GDP增长的影响。
  4. 变量遗漏偏差。加入回归方程式中遗漏了某个重要的解释变量,尤其是当方程式中的其他变量又恰好“覆盖”了遗漏的解释变量时,那么回归分析的结果就会变得非常具有误导性,甚至于真相背道而驰。这个也很容易被忽略。
  5. 高度相关的解释变量(多元共线性)。在一个回归方程式中,如果有两个或以上的解释变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每个变量与因变量之间的真实关系。
  6. 脱离数据进行推断。一个统计推断的结果只对与多分析样本相似的人口有效。比如用一个针对成年人的分析结果去套用到婴儿群体,那肯定不会准确。
  7. 数据矿(变量过多)。当变量过多,尤其是无关变量过多时,回归分析的结果会被冲淡或稀释。

所有警示都可以浓缩为两个基本经验。第一,设计一个好的回归方程,想清楚应该考虑哪些变量,应该从哪里搜集数据,一个好的方程式比统计计算本身更重要。第二,与绝大多数统计推断相同,回归分析始终以观察样本为立足点,对于任何回归分析来说,都需要在以下方面得到理论支持:为什么方程式里有这些变量?通过其他学科领域是否也能解释这个分析结果。

第14章 项目评估与“反现实”

前面讲的都是统计推断的一些形式和方法,但正如上一章结尾所说,作为某一个研究项目,最重要的想清楚要考虑那些变量,用什么方法来控制变量。在很多时候,都很难人为地创造实验组和对照组来将某个变量绝对的分隔,这时候某个解释变量对结果的影响就会受到其他变量的干扰,就需要用一些其他方式来排除这种干扰。以下几种是常用的方法:

  1. 随机控制实验。如果没有办法创造除了某个变量其他都完全相同的实验组和对照组,那就随机分配实验对象,让其他干扰变量在两个组中也随机分布,这样就抵消了他们的影响。医学实验就是典型的随机控制实验。
  2. 自然实验。运行一个随机控制实验是需要大量资金的,一个更为经济的替代方案是寻找到一个自然实验,当某个时间自然而然发生时,恰好营造出一个接近随机的、对照的实验环境。
  3. 非对等对照实验。任何非随机分配都会产生偏见,至少是有偏见的可能。但在某些限制情况下,某些精心分配的非随机实验仍然可以成为非常有用的工具。只是在这种情况下,需要对结果额外谨慎,如果没有找到其他合理的因果解释,最好不要轻易下结论。
  4. 差分类差分实验。任何“前与后”类的分析都面临一个挑战,那就是仅凭一件事情紧随着另一件事情的发生,并不能推断出两者之间存在因果关系,因为很有可能恰好在这个时间点上,有其他介入因素在发挥作用。这种情况下,除了对比时间前后的变化(第一个差分)之外,还应对比没有某个介入因素的另一对照组在这个时间前后的变化(第二个差分)。两组之间的不同便是研究变量的影响。
  5. 不连续分析实验。这有点像非对等对照实验,在无法创造甚至随机分配实验组和对照组的情况下,可以寻找一个刚好可以划分两组对象的指标,然后将这个指标左右很接近的对象作为实验组和对照组,这样可以最小程度上消除其他变量的干扰。

在任何一个研究项目中,我们总是关心介入手段是不是真的起作用了,但是因果关系是一块很难啃的骨头,有时候我们甚至连原因和结果都无法确定。为了了解介入手段的效果,我们需要看到“反现实——事实的背面”,即假如没有接入手段或治疗会发生什么。在随机实验中,对照组就是“反现实”;但当对照试验不具有可行性或有违道德的时候,就需要寻找其他方式来模拟“反现实”。

结束语 统计学能够帮忙解决的5个问题

由于大数据时代的来临,曾经一些由于数据收据困难而无法得到解决的问题有望获得新的进展。作者给出了其中5个问题作为结尾:

  1. 橄榄球的未来在哪里?橄榄球运动与永久性大脑损伤之间的关系会影响该项运动的发展。
  2. 是什么导致了自闭症患者数量的激增?到底是自闭症发病人数激增,还是诊断人数激增,在没有更好的病理学解释前,统计学所能做的最有贡献的是就是尽量排除无关因素,这些因素一开始会进入人们的视线是因为他们混淆了相关关系和因果关系的区别。
  3. 我们依据什么来奖励优秀的教师和优质的学校?评价教师和学校质量的一个长期存在的问题是如何寻找一个客观的衡量标准。无论是考试分数,还是入校后进步的幅度,都并不能完全将一些其他因素分隔开来,这样得出的回归方程就并不准确。
  4. 解决全球贫困的最忌途径是什么?虽然这个问题一如既往的让人素手无策,但统计学工具的有效应用能够在很多小的方面提供给我们对贫困问题新的认识。当这样的认识多了以后,希望能找到问题的答案。
  5. 猜猜你是谁?大数据时代,可以根据个人留下的各种有用无用的信息来精确判断一个人,这当然就涉及到隐私的问题,所以我们的习惯和法律便要不断地改变来平衡隐私的范围。


无觅相关文章插件,快速提升流量

2 条评论

  • 匿名 CHINA Safari Mac OS

    本章有一个说明不清的地方,在187页提到的“标准误差为22.7”,这个22.7在前文没有出现,是在章末的“补充知识点”中计算得出的,但奇怪的是,按照书中给出的公式和数据得出的也不是22.7。这个疑问我一直没能解决。

    想不到能碰到同道中人,这个困惑足足消耗了我6个小时,直到看到你这段话才作罢

    [回复]

    PANOTA CHINA Google Chrome Mac OS 回复:

    想不到这常年不更新的博客还有同道中人回复……感动 ing

    [回复]

发表评论

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

  

  

  

分类

作者

文章归档