中国数据新闻工作坊培训手册第二章 – 获取数据(视频)

分享给朋友:

在和国内的记者谈数据新闻的时候,最常遇到的问题就是:没有数据。

但这个“没有”的情况,又其实是多种多样的。有的是真的完全没有搜集,有的是有有关部门在搜集,但是并不完整或者许久不曾更新;又或者有多个部门在搜集,但彼此的方法和结果都有冲突;还可能是搜集方法古老,没有电子化;亦或者电子化了,但是没有做成易于传播和分析的格式——各种问题,对于常常需要一天内就写出稿件来的记者来说,就等同“没有数据”了。

但其实每一种问题,都有它可能的解决方法。一旦进入数据新闻这个领域,就会花许多的时间在寻找和获取数据这一环节斗智斗勇。本章节将提供一些常用的数据资源以及不友好的数据的“破解”办法。

  1. 基本政府资源

在每期工作坊前,都会给学员做一个简单的调查问卷,了解他们平时已经在使用的数据来源。无论主题如何,每一期的回答中,都有许多的政府网站。例如以下是“公共卫生”主题工作坊中收回的政府相关资源:

卫生部、卫计委、计生委、药监局、环保部数据平台、人社部、统计局(各地/ 年检)、质监局食品安全数据、保监会、部委公报、蓝皮书、中国疾控中心、国家风险评估中心、中国卫生年鉴、中国统计年鉴、政府有关部门的政务公开报表、宏观经济数据、国家人口与健康科学数据共享平台以及公共卫生科学数据中心

政府有关部门拥有许多有价值的数据,只是一来需要条线记者的专业知识以及人脉关系从而知晓去哪里要到数据,二来数据质量和可用性总是需要进一步的判断。

有些情况下,政府有相关数据,但是会由于各种原因“不便公开”。例如《南方都市报》曾经想做一个选题,了解过去10年中国人在海外被绑架的情况。于是他们向外交部私下打听了获取数据的可能性,得知不会给。于是便转向希望通过新华社的报道来做数据统计,但最后觉得新华社的报道并不完整,于是选题便流产了。但有时候可以通过一些其他方式倒逼。例如香港《南华早报》曾经做一个关于细菌感染的稿件,希望和医管局索取相关数据,但被告知没有。记者通过简单的网络搜索在未加密的医管局服务器上(并不在其网站页面上)找到了相关文件,再向当局认证时,对方就被迫给出了完整的数据,从而成全了此报道。

  1. 政府信息公开

我国于2008年通过并实行信息公开条例,它对于记者来说,并不是鸡肋,而是在某些领域非常有用的信息公开申请基础。例如某位工作坊学员分享的一个案例:“最初可以申请环境信息公开的时候,我们当时想试一试,这个信息公开到底能不能用。当时做了一个29个省市信息公开的调研,填了信息公开申请表,传真过去。结果是,大概只有10家以内给了回复,剩下就都没有回复,或者拒绝公开。其实我向每个省申请的内容都是一样的。但有的省就会回复说,我们这个信息属于什么政府信息,不能公开,但有的省回复得就很详细。我记得当时好像是安徽和广东吧,就是很详细地回答了。” 同一位学员还分享了一个申请失败的案例:“也试图申请国家的土壤污染数据公开,试了很多次,都不成功。说是国家机密。是向中央的环保部申请的,还有就是国土资源,国土部。过程很波折吧,但是国土部中途它自己又公开了。但是它公开以后,我向环保部再申请,它还是不给。其实国土部公开的还是环保部的数据。它公开了一小部分。然后他们还是说机密呀。”

有时并不一定是媒体记者直接向政府部门提出信息公开申请,而是由民间组织或者个人提出,然后媒体跟进报道。例如2014年,陈思乐发出320份收容教育信息公开申请,接受对象是国务院、公安部以及31个省(区、市)政府和公安厅,具体问题包括“各单位辖区内现有收容教育所的数量与名称,被收教男性与女性人数,被收教者的劳动收入金额和支出去向,收教期限的具体裁量标准,收教期间的收费项目和金额”[1],收到了来自19省公安厅的答复。后来她还起诉了广东省公安厅,引起了广泛的媒体关注。

又有时,同样的诉求,不同的政府部门却给出不一样的数据。2013年,广州市政协委员韩志鹏分别向广东省卫计委、省财政厅、省审计厅快递了《关于公开广东省2012年度社会抚养费收支及审计情况的申请》。广东省卫生计生委公布,2012年度广东省社会抚养费征收总金额14.56亿元。而广东省财政厅却答复,2012年广东各地征收社会抚养费总额为26.13亿元。不同部门的审计结果相差了11.57亿元[2][3]。媒体跟进时,便需要对数据的差异纠其原因,仔细质询统计方法,深入了解数据是怎样得出的。

自从信息公开条例公布至今七八年,政府,尤其是地方政府,也在学习和进步,从申请=找茬的第一反应,转变到按程序办事的专业处理。下图是许多地方政府部门遵循的处理信息公开申请流程图,便对于公民和办事公务员都很有指导价值。

获取数据1

  1. 国际组织与第三方机构

当涉及到一些国家层面的数据的时候,常常会需要与其他国家做比较,这时候国际机构的数据就可以派上用场。例如联合国及其下各机构、世界经贸组织、或者比较专业的有针对性的国际组织等等。世界银行近年来一直在力推开放数据,其数据网站也专门做了中文版本,也和国内一些媒体和网站合作,培训记者编辑去使用他们的数据库。

一些公司提供了平台集成了一些不同来源的数据。例如谷歌的数据平台,除了数据整合之外,还提供一个免费简单的可视化工具,帮助用户发现数据之间的关联。用户可以用它的数据在平台上直接做一些基本的可视化,再判断是否需要下载数据。再如国内的“数据堂”,上面整合了4万多条数据,覆盖语音、图像、文本、交通等多种样式,也提供定制化服务。

当使用非官方渠道的数据库时,总是要多加验证和比较。例如当你下载到一份似乎处理的很干净的《世界主要城市空气污染状况》表格(如图)的时候,它看上去很专业,涵盖不同国家、不同城市,还有辅助的人口情况,有数据的各个组成。但是如果这是直接搜索得到的文件,那么至少要回到数据出处进行基本核实。就此例而言,尽管下载链接是来自于统计局,但是在统计局网站上却似乎无法找到相关页面——通往此数据的链接是需要收费的。那么就注意到它的资料来源是世界银行,不如直接去世界银行网站找。但是在“世界发展指标”页面上下载到的Excel格式或者csv格式都没有表格中提供的数据。最后通过指标的英文名,才能够找到数据原始报告的PDF版本,再通过城市定位,去比对原始数据和下载到的表格上的数据——数字是否对应,城市和地区是否有所选择,年份是否齐全,数据如何解释等等。这还只是最初步的核实,当发现一些数据的缺漏或者问题时,还需要进一步的去解决和弥补。

获取数据2

  1. 数据就在那里,但是……

无论数据来源是哪里,都可能有各种疑难杂症出现。这里列举几个常见的问题:

1)数据无法直接复制粘贴或者下载

例如环保部数据中心首页有一个全国城市空气质量日报,是一个实时更新的表格。但由于地市过多,但一页只能显示20个市,所以没有列完整,而是做成了自动翻页的表格,以罗列所有的市。怎样一次性的把不同页面的表格内容同时抓取下来?在实操中会介绍相关工具。

也可能,数据并非以表格形式呈现,而是做成了图文列表,例如这个网站列举了香港的创业公司,如果只是复制粘贴,是没法形成一个清楚的表格的。如果还想要每个公司的具体资料,则更需要手动进入每家公司页面。这种时候,如果是程序员,则可以写一个抓取程序去自动抓取不同层级的页面资料。但即便不会写代码,也可以通过一些现有的工具,例如import.io或者Kimono Labs去抓取。

2)数据不容易读取

一种常见的情况是找到了PDF文档,然后需要提取其中的表格。有的时候,复制粘贴就可以得到比较清楚的表,但并不总是那么走运。有时就需要一些转换软件,而又并不是所有的软件都可以支持中文。在实操中会介绍相关工具。

另一种情况是,文档被处理成了图片格式,那就完全无法通过复制去提取文字了。这种情况下需要OCR图像识别。知乎上有人推荐一款ABBYY FineReader,评价指对中文支持很好,但正版需要150美元。

  1. 数据……真没有

最坏的情况,就是数据真的没有。那么需要考虑的办法就是怎样去采集。

比较传统的办法是通过问卷或者调查去搜集。另一种现在比较常见的办法就是众包——也即利用群众的智慧和力量去搜集或处理数据。

2014年春节前,《南方周末》联合环保组织“创绿中心”发起了“回乡测水”行动。测水包由创绿中心开发,测水包括饮用水和地表水两种。其中地表水测水包的指标包括:pH值、氨氮、总磷、CODMn、铜等五种重金属;饮用水指标包括:pH值、硬度、余氯、硝酸盐、亚硝酸盐、铅、细菌。创绿中心提供低成本、便携、快速、可订制的水质检测工具,让公众有能力、渠道参与水质检测,同时利用春节人群扩散至二三线城镇乡村的时间节点,再借助南周的媒体效应,为众包提供有利的环境。尽管最后收回的数据样本并不够多,但是也已经远多于如果仅仅派出南周记者去采集可以收回的数量,基于此结合采访成就了《“回乡测水” 家乡水,清几许?》一稿。

获取数据3

  1. 部分数据来源列表
名称-中文 Name (English) 链接 Link
国家统计局 National Bureau of Statistics, China http://www.stats.gov.cn/
公共卫生科学数据中心 Data Center of China Public Health Science http://www.phsciencedata.cn/Share/index.jsp
环保部数据中心 Ministry of Environment, Data Centre http://datacenter.mep.gov.cn/
世界卫生组织 – 数据和统计数字 WHO – Data http://www.who.int/research/zh/
联合国数据库 UN Data http://data.un.org/
世界银行公开数据 World Bank public data http://data.worldbank.org.cn/frontpage
谷歌公开数据搜索 Google Public Data Explorer https://www.google.com/publicdata/directory
公众环境研究中心 IPE http://www.ipe.org.cn/pollution/index.aspx

小结

总而言之,很多时候我们在获取数据的时候,就跟在拼图一样,找到了一些,但找不到另外一些,找到了你也不知道怎么样把它们给组装起来。这种时候你就需要有更多的对数据的分析理解, 然后包括进一步的通过可视化来找一些点,然后再深入挖掘下去,去找到更多的数据,最后拼出结论。获取数据的过程往往十分迂回,但对于数据新闻的制作来说,数据质量和数据准确度往往需要第一手的保障,才有可能最后成就一则好的作品。

[1] http://news.ifeng.com/a/20140922/42049209_0.shtml

[2] http://finance.people.com.cn/n/2013/1226/c1004-23953327.html

[3] http://news.163.com/13/1227/18/9H4EMER800014JB6_all.html


点击进入下一章节:获取数据
想回到目录请点击这里

作者简介

数据新闻工作坊

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。