「我在美国新闻编辑室」尝试用数据做当地新闻的KUSA-TV

分享给朋友:

[zilla_alert]在【我在美国数据新闻编辑室】系列中,身在美国的数据新闻记者们会分享报道数据新闻的亲身经历,揭秘各个新闻编辑室的独家秘笈和个中苦恼。

如果你也在美国新闻编辑室做数据新闻,欢迎给我们投稿(info[at]djchina[dot]org)。

本系列文均为原创,转载请注明出处、网址与文章作者。

更多本系列文章:
【我在美国数据新闻编辑室】爱啃数据硬骨头的ProPublica
【我在美国数据新闻编辑室】尝试用数据做当地新闻的KUSA-TV
[/zilla_alert]

隶属于NBC旗下的KUSA-TV是丹佛最大的电视台,共有六十多名新闻人员,调查新闻部有六名成员。此部门一直专注于做深入性调查报道,内容关乎科罗拉多州五百万居民的生活,对当地政府起到了很好的监督作用,也因此多次荣获国家级电视新闻奖(Emmy, IRE, DuPont等) 。

被传统媒体忽略的数据

KUSA调查新闻部的数据信息来源主要有三种:

  • 政府的公开资料
  • 公司内部的数据库
  • 与当地其他新闻媒体合作

KUSA的母公司Gannett在全国有包括《今日美国》在内的五十多家电视台和报社,这种覆盖全国的新闻网络为数据共享提供了平台。此外,KUSA也与当地报社和网络媒体也建立了合作关系,扩充了数据库资源,也加强了记者与数据分析人员之间的联系。

但传统媒体在大多数情况下,只是将数据作为信息传递给观众,或是作为证据用来鉴别采访对象所言之词是否属实,却忽略了这些数据本身的故事性。举个例子,我们听说科罗拉多州一个名为Morrison的小镇2013年的政府收入中,最主要的来源是违规司机向交通部门所交纳的罚款。于是便向当地交通部门申请索要了13年所有的交通违规记录。调查中,我们发现这个人口只有四百多的小镇一年内开出的罚单竟然多达13000多份,这相当于当地警察每天平均要开至少35份罚单。得到这个结果,故事基本有了,可要作为调查性新闻报道的话,它仍旧缺少细节。比如Morrison是否为一个旅游小镇?它平时的交通状况如何?当地有几名交警?他们平时都在哪里罚款?这些问题如果得不到解答,我们就不知道这个小镇的警察局是否存在恶意罚款的行为。

在数据分析进入编辑室以前,大部分调查记者在了解背景情况后,会实地走访那些他们认为“有料可挖”的地方,他们相信眼见为实。而面对手里成千上万份的资料,记者很多时候却无从下手。我的同事把这13000多份罚款的电子记录表(PDF)交给我时,距离最初拿到它已经过去了大半年。

1、拿到数据后,我首先做的是将PDF文件转化成可进行分析运算的Excel表格。这里顺便介绍几个常用的格式转化工具:

  • Cometdocs( 可转化扫描和多页文件,[email protected]re.org 申请免费账号。)链接>>>
  • Tabula(免费。为新闻记者量身打造的一款工具。可直接手动抓取文件中的图表进行格式转化。缺点是不能同时转化多页和扫描文件。)链接>>>
  • Zamzar(免费,支持多种格式转化。缺点同上。)链接>>>

2、格式转化后通常是最令人头疼的部分——处理“肮脏”的数据。这是由于电脑不能很好的识别PDF的文件内容,导致它生成的Excel表格中有不少错误信息 。对这些信息进行整理时,如果数据比较少,可对比原文件进行手动调整,但这是种耗时耗力的方法。大部分情况下,我会使用Excel 中的运算功能。比如:格式转化中最常见的问题之一是因为两个行列(Column)距离太近,电脑无法识别中间的空档,以至表格中有不少混杂的内容。这时可以尝试用使用Excel中Data版面下的(Text to Columns),按照空格,符号,或是根据内容长度进行行列分离。如果是文字和数字混杂,则可以用(Flash Fill)功能。另外一个常见的问题是错行和错别字,这种情况通常出现在扫描文件的转换过程中。对于错别字,我们可以使用(Find and Replace)进行错误甄别和内容替换。对于错行,我的建议是先从凌乱的表格中寻找规律,将每个行列按顺序整理好,再将多个行列排列整齐。关于Excel的使用,遇到具体问题不会操作的时上网搜索一下,通常会有答案。

处理完格式转化的错误后,有时我还会用Google Refine进行一下数据整理。我在工作中最常接触的数据是来自地方政府的各类记录和报告。这些大部分是公务员,警察手动输入电脑的信息,其中难免会有大小写不统一,错别字多余的空格等问题,Google Refine(链接>>>)可以很好的解决这些问题。

3、接下来进行的就是分析数据了。我最常用的是Excel自带的PivotTable,它可以很快的梳理出每个项目的数量,总和,平均数和方差等信息,且十分容易排列(Sort)。PivotTable还可以根据你选择的项目进行图表绘制,更加直观的呈现结果。除此外,当我从不同的部门拿到相似的数据时,我会用Access进行表格间的比对,找出其中共同的部分。

回到之前的罚款案例中。在数据分析时,我发现每条罚款记录都注明了肇事日期,地点和原因等。这意味着我们至少可以从这组数据中得出三个结论:

  • 最容易被罚款的地点
  • 罚款最常见的原因
  • 一年当中罚单开得最多的一天

随着答案浮出水面,我们也掌握了更多信息,比如罚款最多的那天镇里正好举行一场大型户外演唱会,再比如最常见的罚款原因是在镇子外头的高速公路上超速行驶。那是一条沿山路,而罚款最多的地方,恰好是一个减速带。很多车子因为来不及刹车,被停在路边的警车抓了个正着。我们调查发现,这个减速带是最近几年新修的,而它的出现无疑给当地交通管理部门带来了良好的“经济效益”。是数据分析的能力,让这个原本被人遗忘的故事重新变得有意思起来。

结合其他信息让交互图表多元化

用Tableau(链接>>>)这样的软件做可视化图表方便且容易。但它的缺点是不够灵活,比如你只能用它自带的地图以及表格类型,而无法根据自己的需要进行个性化设计。但自从Tableau 8.0加入了URL Action功能后,这个方面便有了很大提高。它允许用户在图表中嵌入其他网站信息(新闻,视频,地图等),并和图表本身进行互动式操作。下面是个例子:

denver

图为丹佛市2014年的交通肇事逃逸信息表。数据是通过向当地交通管理局申请信息公开(FOIA)拿到的。蓝色的点在上方地图上标注了肇事发生的地点。下方的Google街景地图则是我通过URL Action嵌入Tableau中的,为了方便用户了解交通事故具体发生的地方。查看原图请点击这里

避免脱离现实的数据新闻

由于我是外国人,在美国媒体的工作中不可避免的因自身不足带来影响。外国记者除了语言和人脉以外,最缺乏的是对于当地文化的了解。举个例子,我们得到过一份科罗拉多州警察装备清单,里面详细记录了给每个县警察局所配发的武器,从一粒子弹,到一辆装甲车。在数据分析的过程中,我发现有一个县所拥有的重型武器数量远多于其他地区,而它的人口比例却又出奇的低。总结中,我费了不少笔墨去描写这个县是如何的武装化。而编辑在审稿时却告诉我遗漏了一个重要信息:原来这个人烟稀少的地区有着号称全美最严格的监狱系统,里面关押着几名美国历史上臭名昭著的杀人犯和恐怖分子。如此一来,武器的数量也得到了合理解释。而我在不了解背景的情况下报道的新闻,多少显得有些扭曲事实。从那之后,每当我在调查中发现一些不合常理的现象时,都会先上网查一查相关的背景资料,或是向同事询问情况。这样不仅使得新闻报道更加准确、公正,也提高了对于当地的了解。

利用资源,交流学习

大部分新闻单位一天都有两次例会,上下午各一次,每次不超过半小时。记者挨个报题,编辑审核,参加这种快节奏的会议很锻炼人的口才和反应能力。此外,每隔一段时间和编辑坐下来想想新题目,讨论故事大纲,也是必要的交流学习内容。工作之余,积极地参加各种数据新闻研讨会,既可以认识优秀的同行,又能了解到行业的最新动向。从地方到国家,美国有很多为新闻记者设立的奖项,交流会,讲座以及短期交流项目。利用好这些资源,不但可以开拓视野,更能提高自身技能。

作者:王小丹

作者简介

数据新闻网

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。