中国数据新闻工作坊培训手册第六章 – 因果关系(视频)

分享给朋友:

接着上一章的讨论,这一部分探讨这样一个问题:“数据中真的有一个故事可以报道吗”?具体来讲,当我们从数据中发现一些联系或规律的时候,我们要去看有哪些不同的途径来解释。

我们先对一个网上约会站点的信息做一下分析:

因果关系1

数据来自OKCupid这一网站,显示的是女性对男性发给她们的帖子的回复率。平均回复率为1/3,也就是说,在该约会网站上,当一位男性给女性发帖后,三分之一的情况下他会得到回复。但是,如上图所示,男性所发帖中包含的某些字词会提高或降低其得到回复的几率。

为什么呢?假定这是你要做报道所获得的数据,这些数据意味着什么呢?对这个问题,人们常见的反应是,“如果一个男性使用不同的措辞,就会得到不同的结果“。 果真如此吗? 如果真是这样,你就在做一个有关事件原因的报道。

很多新闻报道都是有关原因的。如果我们写一则报道说,“住在大工厂附近的人们都有病“,我们其实说的是,”该工厂使得他们生病。“。这是一则有关因果关系的报道。

遗憾的是,OkCupid的数据并不是因果关系,或者更准确地说,我们不清楚其表达的是否是因果关系。

下面是另外一个图表:

因果关系2

此数据显示,在人均巧克力消费量和人均诺贝尔奖之间有一个很清晰的关系。吃巧克力会使你更聪明吗?

因果关系3

而这个图表的数据似乎在说,吃奶酪将导致你死在床上。

但为什么这两个例子让人觉得荒唐,而且很明显是错误的,而当你考察OkCupid的数据时,却觉得自己知道有因果关系呢?我们现在来对因果关系这个概念做更进一步的探讨。

下面是20世纪70年代,英国研究人员在对吸烟和健康之间的关系进行调查时获得的数据。他们收集了不同职业的人吸烟量和生病次数等数据。这些数字是相对数字,也就是说,所有职业的平均值被研究人员设置为100。

 职业分组

Occupational Group

相对吸烟量

Smoking

相对死亡率

Mortality

农民、护林人、渔民 Farmers, foresters, and fisherman 77 84
矿工、石匠 Miners and quarrymen 137 116
天然气、焦煤、化工工人 Gas, coke and chemical makers 117 123
玻璃、陶艺手工者 Glass and ceramics makers 94 128
高炉、锻造、制造车间、轧钢厂工人 Furnace, forge, foundry, and rolling mill 116 155
电器电工工人 Electrical and electronics workers 102 101
工程及类似工种 Engineering and allied trades 111 118
木匠 Woodworkers 93 113
皮革工人 Leather workers 88 104
纺织工人 Textile workers 102 88
裁缝 Clothing workers 91 104
食品、饮料、烟草工人 Food, drink, and tobacco workers 104 129
造纸、印刷工人 Paper and printing workers 107 86
其它产品工人 Makers of other products 112 96

由这些数据做成的散点图如下:

因果关系4

数据似乎表现了一个正向关系, 即吸烟多的人总体上病得更厉害。这个关系是偶然的,还是真正的因果关系?该图表是否证明吸烟引起肺癌?当然这些数据是来自40年前的,现在我们已经知道这个问题的答案了。但是,这个相关性本身是否提供了足够的证据,说明吸烟导致死亡呢?ets.

如果这个图表本身就是足够的证据,那么上面另外一个图表也就是足够的证据,说明吃奶酪会使你被床单缠死。

以上讨论是想引导大家思考相关性(即一个变量发生变化时,另外的变量也发生变化)和因果关系(即一个变量导致另外一个变量发生变化)的不同。什么导致两个变量相关?为什么我们测量的两个值会一起变动?

如果两个变量是相关的,那就意味着有一些什么机制使它们产生联系。但仅仅因为两个事物是有联系的,并不意味着其中一个事物会导致另一个事物的发生。举例来讲,如果我们看到了很多碎了的茶杯,我们同时也看到了很多茶杯跌落,我们不会认为碎了的茶杯引发茶杯落地。

事实上,两个变量产生联系的方式很有限。

因果关系5

上图显示了解释两个变量共同变动的所有可能。除此之外,其它的可能不存在。你在分析一种相关性时的目标,是弄清变量之间关系的真正类型。

奶酪消费量和死在床上的人数为什么会相关?比较合理的一种猜测是这种相关是偶然的。这副图表(以及很多其它的荒唐图表)是通过运行一个程序而产生的。运行此程序的目的,是找出看上去有一些相关性的变量——即便这些变量之间没有任何关系。我们的世界充满了巧合,你的数据越多,能看到的巧合例子也越多。

统计检测是我们用来对巧合进行审查的工具。它问的中心问题是,“在多大程度上我们看到的关系可能是偶然性所致“?如果数据中的关系很有可能是偶然性所致,那么这些数据就不是支持因果关系的好证据。

但在实践中,人们经常混淆两种关系:X导致Y,以及Z导致X以及Y。

我们现在再回头看一下OkCupid的约会数据。

看到这个图表的大多数人都会说,一个男性在所发帖中的措辞导致了女性回复率的高低。也就是说,X导致Y,X是“帖中包含某些字词”, Y是“女性做出答复”。有没有可能这些数据之间的关系是产生相关性的其它规律所致?有没有可能是Z 引起X和Y, 或者有一个隐藏变量的介入?

在发现一个假说是否真实之前,你首先得能想到它。那你能不能编一个故事,故事中第三个变量引起 X和 Y? 有没有可能某个女性或男性的特点会导致: 1) 该男性使用某些特定字词; 2) 该女性更常或不常回复?

这是一种可能: 如果一个女性很漂亮, 1) 人们会告诉她这个事实; 而且 2) 她会得到太多帖子,所以不可能全都回复。

因果关系6

事实上,这样的一种效果很有可能。其它数据表示,最漂亮的女性会得到很多很多帖子, 所以她们总体上回复率低。 (你也许在想,“美” 应当如何衡量。这的确是一个好问题!本例中的衡量方式是让人们对一张照片的吸引力打分。这当然不是一个完美的办法, 因为“美”因人而异 , 但在此例中,这种衡量办法还是有道理的,因为在 OkCupid 上人们发帖子时的,的确是靠照片做决定的)。

这儿很可能有几个不同的因果关系:使用的字词的确影响一个人是否做出回复,而且, 一位女性的颜值既影响字词的选择,又影响回复率。我们需要做更精细的分析,来决定这两个因果规律的相对强度。

同样,这儿是对巧克力消费量和诺贝尔获奖情况之间相关性的解释:

因果关系7

这不见得是产生以上相关性的真正原因。相反,这不过是个推测,是对为什么巧克力消费量高的国家获得更多诺贝尔奖的另外一种可能的解释,而且可能是比“巧克力使你更聪明”更现实的一种解释。我们不知道这个解释是否正确,但我们可以对此进行研究。

在寻找原因时,我们必须问的关键问题是,“还有别的什么可以引起此规律”?仅仅寻找一个符合我们看到的规律的故事并不够。作为新闻工作者,我们必须寻找符合此规律的所有不同的故事,然后试图找出哪个是真相。

请记住:要是你想象不到某个可能的原因,那你就无法知道它是否是真正的原因。

 

我们至此已经花了一些时间来找出能够解释OkCupid数据的其它原因。这正是你做数据新闻工作中的一部分。在考察数据时,如果对你看到的规律觉得有一个明显的解释,你该问的第一个问题就是,“还有什么别的不是如此明显的解释?”

我们再来考察一个例子:

因果关系8

这是一些经济数据。该图表反映了什么?投资占GDP比例和失业率有一个反向关系。为什么?

总体上来说,有很多不同的因素我们是看不到的。你如何能够显示其中的一个因素引起另外一个,比如, 投资降低失业 (即X引起Y)?这个假说也许是事实,但我们必须问:有没有其它可能。

那反向有可能吗?有没有可能高失业导致低投资?我们可以辩论说,高失业降低存储,从而减少投资 (Y引起 X)。我们也可以辩论说,失业和投资两个变量都受到GDP增长率的影响 (Z引起 X和 Y)。事实可能是这些可能性之一,或者是这些可能性的组合。

作为一个新闻工作者,你怎么办?设想你的编辑找到你,给你看了这个图表,说, “啊,这证明了如果你投资,你就能创造就业。”你会如何应答?这不只是一个学术性练习。因为你必须在限定日期内写出一篇报道。

一种可能是诚实地说,“我们不知道/没有足够信息可以这样说”。回答这个问题的关键是,“没有足够信息。”我们必须到别的地方找到其它信息。

本章的一个目的是帮助你认识到什么时候你有、什么时候你没有足够信息来作出结论。有的时候你有可能获得更多信息,从而得到正确答案,但有的时候不可能。有的时候你必须说,“一定是所有这些不同可能的一种组合。”

我们现在再回到吸烟和癌症发病率的数据:

因果关系9

你相信吸烟引起癌症吗?今天,大多数人都相信。为什么?我们怎么知道是X导致Y,而不是其它可能呢?

这是因为除了上面这种类型的数据外,我们还有很多其它证据:我们对一个人吸烟时人体里会发生什么已有详细的研究。我们也知道60岁患癌症不会导致你20岁时抽烟。有的时候要排除一种可能性很容易,因为原因是和时间顺序相关的,而时间顺序不会倒过来。

但就吸烟这一例,会不会有一个隐藏起来的变量在既导致吸烟,又导致健康问题?比如,生活中的压力。有没有可能生活中压力大的人会开始吸烟,而且也得癌症? 烟草公司多年来一直做这种辩论,而且不幸的是,仅仅靠数据,我们无法证明他们的说法是错误的。这正是我们花了很长时间才使得大众总体上接受吸烟有健康风险的原因之一。但是,通过其它类型的研究,我们现在有了证据。

总而言之,我们希望你们从此章学到了三点。第一是前面已经给大家看过的这张图:

因果关系10

此图所表示的是相关性存在的所有逻辑可能。

第二点是,如前所述,你必须能想象到某种可能,才能知道这种可能是否真实。这一点适用于任何类型的数据分析和任何类型的新闻。

第三点是,对数据中所见规律,你有责任想出其它的解释和原因,来证明自己所持的解释是错误的。因为如果你不花时间和精力找出自己报道中的问题,别人会的,而且是在你的报道发表之后。


点击进入下一章节:第七章: 数据可视化
想回到目录请点击这里

作者简介

数据新闻工作坊

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。