中国数据新闻工作坊培训手册第六章 – 诠释数据(视频)

分享给朋友:

数据经常被看作是科学的,被认为是“真理”,但事实并非如此。数据之所以产生,是因为我们试图把周围复杂的世界转变为数字。尽管这是理解世界的一个强有力的方式,但在你了解数据来自何处、衡量什么、对谁重要以及为什么重要之前,数据并没有任何意义。了解数据的这一过程就叫做对数据的诠释。

新闻报道经常使用GDP(国内生产总值)和 GNI (国民总收入)等统计数字,帮助人们理解其周围的世界。这些数字其实代表了非常复杂的概念。作为数据新闻工作者,你必须了解这些数字及其有限性,以向大众作出解释。下面我们使用空气质量指数这个例子来进一步说明这一点。

诠释数据 1

如上表所示,空气质量指数是一个技术性的法定概念,测量空气中很多不同类型的污染物。但大多数人只对PM2.5 感兴趣——PM2.5 衡量直径等于或小于2.5微米的粒子的浓度,是一种较为被大众所认识的污染物。上表中最右一列描述了PM2.5 的测量值 (每立方米中微克量)和空气质量指数(一个抽象的数字,但目的是让人易懂)之间的关系。但别忘了空气质量指数也衡量其它污染物,而且每个污染物都有自己的衡量标准。最终的空气质量指数是每个污染物空气质量指数的最大值。

诠释数据 2

作为数据新闻工作者,你工作的一部分内容就是向人们解释为什么要对某一个、而不是其它东西进行测量。如上所见, PM2.5 污染物是直径等于或小于2.5微米的粒子,这些粒子的直径比人的头发的直径要细小得多。为什么要用直径2.5微米的粒子来计算空气质量指数基数呢? 要是你测量另外一个大小的微粒,比如PM10,空气质量指数将会不同。之所以选择2.5微米的粒子,是因为这种大小的微粒可以进入并滞留在人肺里,引起健康问题。这是我们经过多年科学研究而知道的一个事实。

诠释数据 3

PM2.5 测量值然后被换算为一个空气质量指数。但是,如何进行换算是人为定义的,因此具有一些随意性,换算标准多年来也经过了改变。

诠释数据 4

不同国家使用不同的方法来将污染物测量值换算为空气质量指数。为什么呢? 一部分跟我们报道空气质量的原因有关。我们之所以发布这一信息,是为了让人们了解健康风险,从而做出相应决定。如果空气质量指数总是处在“高危段”,人们是没有选择的,因为每天情况都同样糟糕。然而我们都必须有时去户外。所以不同国家使用不同的标准来计量不同层次的污染。为了就空气质量的衡量提供一些一致性,世界卫生组织定义了几个不同层次的标准。

诠释数据 5

我们现在来考察另一个常用的统计数字: GDP。GDP衡量什么?每年的GDP增长数字是从哪里来的?当然是从中国统计局。但统计局又是怎么计算GDP的呢?

你在报道中用过GDP吗?你真的了解GDP的意思吗?我们把这个数字拆解一下。

GDP是经济学中的一个概念,是“国内生产总值” (gross domestic product)的缩写,意思是一个国家生产的所有产品的总价值,减去这个国家为了生产这些产品从其它国家的进口值。GDP试图测量一个国民经济所生产的“附加值”, 有些像整个国家生产利润的意思。所以我们把所有生产总值加起来,然后减去该国家从其它国家的进口值。

你可能注意到了,“生产量”并没有在上述GDP定义里出现,但“消费量”却在里边。这是因为消费量比生产量容易衡量,而这两个概念在数量上是相关的:如果我吃一碗米饭,就得有人生产这碗米饭,除非做米饭的大米是从另外一个国家购买而来(也即进口)。

诠释数据 7

上边是一个稍微更细的图表。你可以看到一个经济中不同部分里资金、产品和服务的所有流动周转。该图表更接近计算GDP所用的实际公式。别忘了,GDP是一个定义,而不是一个实际的东西。GDP是一个人们发明的、试图衡量我们认为重要的一个抽象概念的公式,是一种用一个数字来衡量整个经济的办法。

实际操作中,测量以上各部分很困难。试想一下中国有多少家工厂?几万家?几百万家?所以你必须通过做某种调查来获得生产数据,这也就意味着你会有计算错误。这些错误可能来自很多不同地方:样本误差,即样本不能代表整个经济;生产商上报数字不准确;生产商或政府雇员的误解;数据管理问题,等等。可见,GDP的计算非常复杂。另外,随着更多的数据和更好的分析出现,GDP数字也常常得到修改。

但即便通过如此谨慎的一个过程,中国的GDP数字仍有些不正常。一部分原因是中国的统计过程仍在朝着国际化的方向发展。比如,中国的GDP数字和别国的看上去不一样:中国的GDP增长率不像别国的一样变化大

诠释数据 8

其它国家的GDP增长率(即从一年到下一年的上升或下降率)要比中国的多变,而中国的几乎一向都是7%左右。这个事实应该能够告诉你,也许其中有什么问题。但这其实并不神秘。有很多学者(既包括中国学者,也包括外国学者)研究中国的GDP增长率为什么总不变化这个问题。他们考察中国的GDP是怎么计算的,发现了一些原因,比如得到好样本的困难以及中层干部犯的错误等等。你可以通过网上搜索找到这些研究结果以及更多有关信息。所以,你没有理由在未弄懂一个概念/数字的特征之前就使用它。

上面的例子表明,每使用一个数字,你必须询问,此数字代表什么?是如何衡量的?因为看去同样的数字,可能是由不同的人以完全不同的方式测量出来的。

以上所述的中心内容就是,数据不是真理。数据是人为的,是通过一个非常复杂的程序而产生的。即便数据是准确的,你仍然需要了解它代表什么。你必须了解数据衡量什么如何衡量以及为什么

下面是一个有关坏数据的报道,因为数据不是通过一贯的标准产生的:

纽约市的犯罪受害者有时很难说服警官们正式记录下来他们的遭遇。导致此现象的原因多种多样,比如警察常常很忙,而且大多数都不喜欢填写报告。但在采访中,七八位警察、侦探和警局负责人也都提到了警察局力图压低犯罪统计数字的压力。

数据容易被人操纵,所以我们必须一向都寻找人们可能操纵数据的政治或财政原因。在大多数国家里,你都能到政府的网站,下载有关犯罪的统计数据。但这些数据实际上衡量了什么?在本例里,纽约市警察没有记录人们报告的犯罪事件,尤其是性骚扰类的。所以看到诸如此类的数据,我们必须一贯都问这样的问题: 这些数字来自何处?数字是谁记录整理的?如何记录整理?事件报告是谁写的?事件是如何计数的?

在上例中,大多数犯罪统计数字都是由警察报告的。这就自动产生了利益的冲突,因为记录数据的这些人们希望犯罪数据下降。利益冲突是一个大问题。另外,并不是所有的犯罪都会被报告给警察的。有些国家还有犯罪调查,即问人们“你是否曾经是犯罪的受害者”这样的问题。这就有了第二种产生犯罪数据的方法。也许你可以比较由此两种方法产生的数据,从而对犯罪数据的准确性获得一些了解。

有的时候,技术性问题可能降低数据的准确性。举例来讲, 洛杉矶市首次在网上以图表形式发布犯罪数据时,才发现40%的犯罪记录都缺失,因为不在数据库里。一位记者因此写了一篇报道,揭露此犯罪数据库的问题。他认为这是技术问题所致,而不是警察局的有意遗漏。他的报道发表后不久,洛杉矶警察局就对此问题做了修正。

讲这些例子,是为了说明,我们生活的世界比我们以数字所能记录的内容要大得多,也复杂得多。我们在记录有关事物的信息时,其实是在把一个非常复杂的世界转变为一副非常狭隘的画面。作为数据新闻工作者,你的责任是找出此转变过程中发生了什么。

对数据进行采访

如何确认一套数据的准确性? 在其它形式的新闻中,你通过问提供信息的个人各种问题,来确认其告诉你信息的准确性。数据也一样。

在数据新闻中我们说“对数据进行采访”。针对任何一套数据,你必须提出以下问题:

  • 这些数据来自哪儿?
  • 谁记录了这些数据,如何记录的?
  • 收集这些数据的目的是什么?
  • 我们怎样知道这套数据是完整的?
  • 数据针对的人口是哪些?
  • 所用的量化方法合适吗?

还有一个“什么算是?”的问题。假定我们在收集性骚扰的数据。什么算是性骚扰事件?有没有一个通用的定义?大家是否都以同样的方式使用该定义?不同的警官是否以同样的方式使用同样的标准?我们怎样知道他们没有以同样的方式使用同样的标准?

数据本身永远不够。我们必须对数据进行更多了解。我们可以寻找数据是怎样记录的信息,或者将其与其它数据集进行比较。我们还可以给产生数据的个人打电话。

其它应该问的问题包括:

  • 这些数字中没有包括什么?
  • 这些数字会导致谁丢面子或损失钱财?
  • 数据是否不同日期或由不同人收集时的标准都一致?
  • 要产生这些数据需要先做哪些选择?
  • 这些数据和来自其它来源的数据相符吗?
  • 谁已经对这些数据做了分析?
  • =数据是否有别人已经指出的缺陷?
  • 数据是否有多个版本?

如果在数据产生时需要做一些判断,你必须找出背后的定义或数据节点。如空气质量指数例子所示,如果你不知道数据产生所采用的定义,你就不会知道数据的意义。

视角和解读

虽然问问题的过程让你了解数据是如何产生和记录的,你或许仍然不了解数据的意义。因为数据的意义是不能在数据本身里找到的。为了更好地解释这一点,我们考察一下就在2012年总统大选之前有关美国失业率的两个报道:

诠释数据 9

注意到两个报道都使用了同样的数据来支持自己的意见,然而两则报道的立场却截然相反。一个报道说失业率下降了,另外一个则说失业率没有多大变化。这怎么可能呢?哪则报道是正确的?到底谁说的是真话?

两则报道都说的是事实,但出发点不同。华尔街日报本来在期待美国经济会增加不止148,000个新工作;而对纽约时报来说,同样的事实则强调了失业率的下降。

失业率从最近的高峰下降了两个百分点

诠释数据 10

失业率43个月里一致高于8%

诠释数据 11

这两个图表也显示的是失业率,不过是过去几年里的。它们显示了民主党(在此时段里是执政党)和共和党(非执政党)可能采取的不同看法。民主党人会说,失业率自经济萧条高峰期,已经下降了2个百分点以上,而共和党人会说,失业率近四年以来一直持续高于8%。两种说法都是事实。

即便你对数据的各个方面(其准确性、收集方式、可靠性、数据源有关数据的评论)都了解了,仍然存在对数据看法和解读不同的问题。数据无法告诉你哪个看法是正确的。作为记者,你的责任是报道真相。但真相在哪里?和做任何报道一样,你必须作出选择,决定什么重要:失业率下降还是失业率长期持续很高更重要?当然,你也可以把这两方面事实都进行报道。

结论

作为数据新闻工作者,我们的目标是从数据中找出意义,因为我们试图告诉人们数据代表什么意思。如上所述,数据本身并不能告诉我们其意义。意义必须来自数据和别的东西的组合,即我们已有的知识、有关世界的其它事实、以及对我们重要的问题。

作为数据新闻工作者,你必须作出和做其它类型报道一样的判断。你必须决定什么重要、什么不重要。在任何其它形式的报道中,你必须作出选择。你必须通过和很多不同的人们进行交谈来找出真相。数据新闻也一样。有数据并不意味着你就没有必要做判断了。你必须确定数据是怎样收集的、确认其是否是好的数据、进行数据分析,然后决定做出怎样的报道。


点击进入下一章节:因果关系
想回到目录请点击这里

作者简介

数据新闻工作坊

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。