数据会说谎

分享给朋友:

原载于Open News Source:《纽约时报》Jacob Harris 论述六种数据使用错误

随着538Vox及《纽约时报》Upshot的登陆,数据新闻的时代似乎到来了,媒体研究的称赞和担忧纷至呈来。然而数据新闻并不是新生事物。这些新网站本质上还是新闻应用,践行电脑辅助报道、精确新闻。这些都是报道真相和寻找故事的方式。换句话说,新闻结合了数据-对待数据持同样的严谨态度,这和传统电话采访中对待专家言论的态度并无两样。

以上现象是在说明,数据新闻历来已久,正确使用数据是其核心。概括我在NICAR会议上听到的就是:担忧和强迫症是数据记者最好的朋友。公众对不准确的数据新闻容忍度有限,我们不能一直犯错。

说了这么多来举点真实发生的错误例子。这不是在嘲笑那些记者-犯类似错误其实很容易-然而实例可以说明数据报道可能走偏出错的方式,可以学习经验教训。所以,让我们从谈论“色情”开始。

几周以来,一则网络色情在“红”州和“蓝”州的消费比较在社交媒体上大受瞩目。首先,我注意到这个数据是因为Vox转载了一篇Andrew Sullivan的帖子,而这篇帖子里有Christopher Ingraham的图表,图表数据是Pornhub的研究提供的。从这种链接跳转中也能看出网络传播的路径,然而没有人发现其中的数据疏漏。

先说一下Pornhub的数据科学家的总结。Buzzfeed找上了Pornhub,想分析看看上次选举投票给奥巴马的蓝州在网络色情消费上和投给罗姆尼的红州有何差异。于是Pornhub的分析师们通过联网的IP地址模拟消费者们的地理位置,并得出每个州总的流量数据。然后,他们用每个州的总点击量除以州的总人口来得到平均点击率。最后,他们得出了蓝色州的人均点击率略高于红色州的结论。

如何迷失在统计数据中

然而Pornhub的数据分析及后续报告恰恰说明了使用数据可能出现的六种错误:

  • 草率拟代
  • 二分法
  • 相关不代表因果关系
  • 区位推论
  • 地理编码
  • 数据想当然

第一个问题:替代。在统计学中,当你无法直接测量某个东西时,你会寻找替代--例如用人均GDP来估测生活水平。Buzzfeed以“谁观看更多色情录像:共和党还是民主党?”为题发布了Pornhub的研究。假设这个就是Buzzfeed的问题。应该如何寻找答案呢?问遍民主党和共和党人的色情影片偏好显然是不可能的。退而求其次的方法就是随机抽样样本,样本的结构和全国人口构成类似。然而,这需要时间和金钱。于是,Buzzfeed找到了Pornhub,使用他们的数据来寻求一个答案。

在这个案例中,他们在第三大线上色情网站上对所有的色情产品消费使用页面请求作为代表,并且依据他们投票给了奥巴马还是罗姆尼来代表他们是民主党还是共和党。这些代表中间有些差异,所以误差在所难免。例如,也许在某些州,人们更倾向于通过订购电话或者录像商店来获取色情产品,这些人就不会纳入Pornhub的统计上。同样,对于网站用户,这项研究使用页面浏览量作为计数基础;但是增长的浏览量是否意味着相应的用户数增长并不一定。另外,大量美国人都认为自己是独立的个体,通过一次选举就判定选民是民主党还是共和党准确吗?设定的变量未必合理,从而得出的结果也未必是答案。

调查的缺陷从这里延伸出去。Pornhub将各州分为红蓝阵营。然而,他们并没有考虑一个州中投票给奥巴马的比率,而是草率地通过罗姆尼还是奥巴马胜出来划分阵营。好在一些统计学家意识到了这个问题,并设定了更精确的样本以及他们的投票倾向

接下来是两处最经典的统计学错误。首先,相关并不等于因果关系。两个变量之间的关系极有可能是一种巧合。更可能的是,尽管两个变量相关,但背后的原因更复杂。例如,某个州也许有更好的宽带所以喜欢通过网络来购买色情产品,又或是城市居民消费更多的网络色情产品,而城市区域更多的州也倾向于民主党。混杂变量很常见,Jonathan Stray有一篇写得很好的概括。再搞笑点的例子也多的是,投票和疱疹传染或者Nickelback乐队之间也有联系。坦白来说,这些红-蓝州的对比是统计上的夸大,经常反映了下结论者的奇思妙想,而不是真实情况。

第二个错误是什么?首先,让我们先假设已经避免了上述所有问题。网络色情产品能够有效的代表所有的色情产品,所以在上一次的总统选举中,投票给某一个候选人是一个有效的区分党派的方法,而且这个联系并没有其他隐藏的变量,然后我们就能够肯定的说民主党人比共和党人消费更多的色情产品,对吗?还是错的。这是区位推论谬误。简单来说,正因为已经得到一些一个团体的平均估测,而这个团体包括大于一个的分组人口,这并不意味着这项估测适用于这个团体的每个人,尤其是在差异非常轻微的时候。民主党确实有可能消费更多的色情产品,从而使得蓝州的人均消费更高。然而,这也可能是共和党人在民主党主导的州比共和党人在共和党主导的州消费更多的色情产品,这也可能使平均消费更高。或者这也可能使城市人口消费更多的色情产品,并且有更多的民主党人倾向于居住在城市,但这两者并无直接联系。我们仅仅不能在没有对个体足够的了解之前这样说。

在这些统计数据前,我们当然也没有对特定人群有足够的了解。知道你的邻居使共和党人还是民主党人对了解他们的色情产品消费情况没有任何帮助,尽管他们也是单独的个体。

我们不在堪萨斯州

不幸的是,这才是最严重的问题。在这一项研究中,许多早期的报道提到数据中一个奇怪的反常:Kansas,一个非常激进的州。相较于所有其他州,这个州色情产品的人均消费额极其之高。当各州的数据标记在一个柱状图中表现非常明显。然而,所有州在奥巴马选举的散点图中的显示和网页点击量比较时,这是非常不同寻常的。如果根据Pornhub假设,色情产品平均消费在所有州呈正态分布,Kansas的平均消费显然高的不合常理。真正的随机调查中,只有0.16%的可能产生高于平均线2.95的标准偏差。当遇到这样极端的例子,作为一个数据记者,你会坐下来并记笔记,因为这只意味着以下两种情况之一:或者你会发现一个极端的例子揭示了一些稀奇古怪但是有报道价值的事情,或者,像Andrew Sullivan的网站上说的一样,所有的记者只会耸耸肩,这个数据是有缺陷的。

Pornhub的报道遗漏掉了任何关于他们方法论的说明-这不是一个好的信号-但它定位IP地址是从用户访问网站的地理地址并将地理编码转换成IP地址来得到这些州的数据。Pornhub的统计学家们(以及报道这些发现的记者)假设这是一个正确的过程,然而,任何有经验的程序员都能够告诉我们一个苦涩的事实:地理编码通常都是垃圾。通常发生的是,大部分IP地址不能被解析成比“美国”更详细的地址。当这个地址是地理编码的时候,它表现为美洲大陆中心的一个点,这个点就在-正如你猜的那样-Kansas!不幸的是,IP地理编码很容易曲解网络建构;例如,在某一时间,每个AOL的用户使用拨号上网服务都像是他们从Virginia,Reston这个地方来连接网络的。现在,我的代理服务器使我看上去在New Jersey上网,但我实际上是在Maryland。

当然,如果我们去掉Kansas的数据,这并不能改变Pornhub的蓝州比红州人均消费更多色情产品的假设。我已经充分论证了我的观点,但仍然有一个特别的错误导致主要的失败。如果你希望成为一个数据科学家,有一个错误永远不要犯:必须要验证数据。即使是最完美的数据也可能会因为方法论而有缺陷和遗漏。这不仅仅是检验数据本身。你必须要看到数据库之外的东西,认真的思考数据是如何收集的,甚至是使用传统记者的成熟的工具去检验,你会发现数据的问题。

做的更好*

你也许会问为什么我对Buzzfeed的病毒式传播这么较真。首先,宣称一半选民比另一半堕落不是“仅作娱乐”。而且这里的错误并不是个例。另一个例子是因为盲目的相信数据而导致错误结论,还有一个例子也是这样。如果我没数错的话,已经出现三个报道错误了,在新闻业里就算“趋势”了(此处为吐槽)。我担心因为发布时间越来越短,记者在截稿压力下匆忙分析数据,且没有人在发表前检查是否有疏漏。我不认为我们有能力让这一切放缓,但数据记者能够做什么来避免更多错误?

怀疑数据

首先,记者的本能是质疑。在全面思考下,看出数据的缺陷并不困难。建议去看以下两个资源获得启发。成为一个数据怀疑论者-这是O’Reilly出版的一本免费电子书。这本书主要讲述了数据科学家关注的问题:量化一个模型和准确的描述它一样重要。第二个是-发现伪科学指南-关于那些最差的科学研究中的错误数据分析。

发掘动机

作为一个记者,仅仅怀疑数据是不够的,还需要想想提供数据的机构。Pornhub和Buzzfeed发布的研究结果从一开始就有问题。除了获取关注度,他们想在这项研究中发现什么真知吗?还有很多网站不假思索的转载了他们的报道,让这个色情网站更加声名远扬。我们常常批评媒体不加质疑地转发公关报告,但这二者之间有分别吗?数据的背后是动机,几乎没人无目的地搜集数据。这并不意味着我们要弃用所有的数据。例如,如果你在报道水质,和调查这个问题的非营利机构合作是合理的,前提是他们的数据比较客观。大部分记者都自己决定信息源有多可靠,数据分析也是同理,你得对背后的数据源持基本的怀疑态度。

发现问题

我希望编程中有一个概念可以应用到数据分析中。程序员们增加系统的功能意味着更多的代码和增添系统的复杂性。但这往往也加进了更多错误。这时,代码重构的作用就是清除冗余的代码,让程序更轻盈。一个有经验的程序员几乎拥有发现低质量代码的“本能”,就像能发现食物在冰箱里发臭一样。同理,数据使用者也应该有自己的数据“直觉”,例如,本福特定律,过大的标准差,重复计算或省略的记录,手动输入的数据,然而,目前并没有一个分享这些数据经验的地方。

学习统计学

我建议学习点统计知识。现在网络公开课是很好的选择,CourseraEdX都有类似课程。你不一定要学高级统计学理论,但如果不了解平均数和中位数的区别,或者是方差时候,你是没办法做数据记者的。至少像统计学家一样思考吧,看看这种方法会不会改变你对数据的态度。

继续进步

最后,我认为,数据新闻的许多充满错误的报道,都是因为同样的几个原因-比如劣质的数据,错误的选择代表,以及愚蠢的统计学方法。然而,我还没有确实的数据来证实这个问题。Greg Linch指出,我们应该分类记录数据处理的哪个环节出了问题。编程中,事后检验是一种常见的手段。也许它也能用在数据上?如业内人士所说,我们可以开始收集一系列数据报道中的常见错误,为数据记者和编辑建立一份清单和指南。

作者简介

数据新闻网

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。