美国媒体如何找数据

分享给朋友:

媒体想做数据新闻,有的在数据挖掘上花力气,建数据库出问卷,有的在数据呈现上出重金,招揽设计师程序员做出适合各种平台的信息图、互动图。要成为优秀的数据新闻团队,任何一个环节都不能有失。这里要和大家分享的,是美国的数据新闻团队做数据新闻的第一步,去哪儿找数据。

入门 – 政府部门的公开数据

采访对象提供的数据不可以马上用,须和相关部门所出的官方数据比照过之后,再考虑使用。从政府部门网站可以找到各种季度或年度报告,比如每年移民人数国别去向,细分到街道的全国收入水平、失业率、犯罪率,某个议员接受捐赠的数量和来源,以及去年今年明年国家财政预算等,这些数据通常挂在网上存成各种可下载形式的文件,在美国相对容易拿到,可以说是做数据新闻的基本功,不能不熟悉。

进阶 – 非政府机构

稍微再多一些经验的数据团队,还会关注和自己受众关心领域有关的非政府机构数据。智库 Pew Research Center 会不间断发布有关公民意见的调查报告;做城市相关研究的 Urban Institute、宗教研究的 Public Religion Research Institute 等等,都有阶段性的数据公布。

除智库外,高校资源也不容忽视。乔治亚大学政治学系的教授维系着一个关于美国国会的数据库,其中记载了美国建国至今所有国会议员的投票记录,和每个议员的意识形态指数;马里兰大学的 全球恐怖主义数据库 记载了1970年至今每一次由恐怖组织造成的伤亡;除了长期的数据库,关注社科类的学术杂志有时也会有意想不到的数据收获。对高校的重要数据库有基本了解,同时常常翻阅学术期刊,在有新闻项目需要数据时就能够想起数据可能在哪儿。这算是进阶的数据查找方法。

但是媒体仅仅靠以上两样,怕还是不敢说自己在做“数据新闻”的。

专业:自己动手收集数据

不走出简单的网络Google查找数据,不能称之为在做数据新闻,这时候团队的财力和人力就显得尤为关键。在《纽约时报》数据新闻专栏Upshot推出一个月的时候,我做过一个关于其数据来源的统计。在Upshot首月标记为data source的组织中,有近三分之一是纽约时报自己的数据(Source署名The New York Times)。Upshot当然用到了劳动数据局失业率的数据,这是每月必须报道的劳动市场报告,也反复用到了Pew的问卷调查,在日常新闻中占到一定比例。

但每当推出互动大项目时,Upshot都会出一篇与项目匹配的“方法论(Methodology)”,介绍项目中用到的数据的收集方式。纽约时报用“自己的数据”生产过多个轰动一时的项目,包括全美棒球/篮球球迷分布图,数据来源为分析整理Facebook各球队主页中粉丝的所在地;另一次纽约时报和Kaiser Family Foundation Poll合作,共同出资在一周内做了四千多个电话问卷,调查四个州在中期选举时真的会走出去投票的人口数(参与率),来完善他们的2014美国中期选举预测模型;此外,Upshot推出了一个可以帮助计算在美国大城市工作买房还是租房合算的工具,整个计算过程使用到已有的政府公开数据、私人财政分析公司的数据,纽约时报在这些数据之上还做了自己的统计分析。

独辟蹊径创特色

《纽约时报》的资源不是人人都有,能够说自己在做“数据新闻”的另一些团队,各有各的过人之处。以做数据新闻调查监督政府闻名的ProPublica,每个项目都能挖掘出独特的信息点,这仰赖于他们的“政府数据”,并非仅仅是政府自主发布的公开报告,而是通过填写Freedom of Information Act Request,要来政府不愿意主动公开却受法律约束不能不提供的数据。ProPublica在等待数据上所花费的时间,短为几个月,长则几年。

和Upshot几乎是同时推出的数据新闻项目FiveThirtyEight的优势在于做预测,从世界杯结果预测,到美国中期选举预测,再到苏格兰公投预测,把平日的新闻现象归纳到相关的历史数据中进行统计分析,再科普给有兴趣的读者,这时候团队里的有统计学以及某方面专长的统计分析师就派上了用场。

美国那些被认为成功做了数据新闻的团队,很重要的一点,是他们各凭本事,找到了别家媒体找不到的数据。

作者简介

周优游

数据新闻记者,交互设计开发,致力于讲当讲的故事,给更多人听。目前供职于美联社。