MOOC 微信沙龙 – 如何利用数据做好新闻?

分享给朋友:

本文整理自本网编辑邱悦和主编马金馨在MOOC学院的微信沙龙分享。

大家好,我是邱悦。我现在在彭博通讯社的数据和可视化部门担任一名可视化记者,主要工作是利用数据和可视化报道亚太地区的经济新闻。

我之前在美国的两家调查性报道机构ProPublica 和Center for Public Integrity 担任类似的工作,也在美国接触到很多做数据新闻的一线记者和编辑。今天,我想根据自己的工作经历和所见所闻,和大家聊一聊什么是数据新闻,现在大家在怎么样做数据新闻的。

因为我自己的工作经历和个人经验的原因,我今天所讲到的案例可能更多偏重于美国的数据新闻案例。我知道群里应该有很多中国的新闻从业者,大家可以在自由问答环节中分享一下中国的数据新闻案例。我和马老师一会儿也会和大家分享我们很喜欢的中国的数据新闻的案例。

  • 什么是数据新闻?

可能大家听说数据新闻不过是最近一两年或者两三年的事情,但其实数据新闻有着非常悠久的历史。美国最大的数据新闻会议NICAR 是在1989年的时候成立的。我们在1970至1980年的《纽约时报》上面,也经常可以看到一些设计得非常有趣的图表或者地图。

所以,严格地来讲,数据新闻并不是一个非常新兴的新闻分支,只不过它在之前叫做计算机辅助报道,并且因为最近几年的媒体的数字化进程而得到了更多的关注,也由于可视化的发展而吸引了更多的受众。

我现在想和大家分享一些我很喜欢的数据新闻的案例,通过举例来跟大家说明一下,美国的数据新闻到底在报道些什么?

这张图片来自《纽约时报》去年所做的一个国债收益率的专题。国债收益率就是国家向你借钱,它答应在还你的时候利息是多少。决定国债收益率因素有两点:一是国家什么时候向你借钱,二是借了钱以后多长时间会还你。

这个问题有三个维度:国债收益率、购买日期和偿还期限。我在学校的时候为了理解这个概念花了一定的功夫,我想很多同学也有同样的困惑,《纽约时报》的这个可视化就很完美地解决了这个问题。这里横轴、纵轴分别是购买年份和偿还期限,竖着的z轴是国债收益率。

从这样的一个三维的可视化中,我们可以很明显的看出,国债收益率短期、长期,过去几年和最近几年的变化。因为国债收益率是一个宏观经济的重要指标,所以这个图很直观地显示出美国经济过去几年的走势,并且可以看到美国经济的未来走势。

 

 

 

上面三幅图是把三维的图像从不同的维度“压扁”之后得到的。有的能让你看到美国长期国债收益率和历史上相比处在什么位置,有的是让你看现在的长期国债收益率和历史上相比也处于一个很低的水平,短期国债收益率就更是非常的低。

像这样的数据新闻,我们把它称为Evergreen Piece,它用来解释一定的经济或者金融或者社会规则。有一个新闻事件作为切入点能吸引受众注意,但是这样的数据新闻会在今后不停地重新引用,因为像国债收益率、宏观经济趋势预测这样的议题,是在经济报道中经常出现的。

还有一类报道是社会议题的报道。我现在发的PPT上面是彭博社做的一系列有关社会议题的报道,有兴趣的同学,我之后会发这些项目的链接,大家可以自己去看。

这些项目里面有的是有关美国同性婚姻合法化的,借这个契机回顾一下美国历史上的社会运动变革,看看在女性堕胎、平权、同性婚姻方面,美国的哪些州做得比较先进,美国哪些州比较保守。

还有一些是关于全球气候变暖的,通过非常直观的图表来显示全球气候是不是真的变了。或者和科学家合作,通过一些历史数据来证明全球气温变暖主要是由人为原因碳排放导致的。

还有一大类是视觉新闻报道。一年一度的大选是数据新闻的盛会。不管是英国大选还是现在美国的大选,每家数据新闻网站都卯足了劲儿,动用他们最精干的部队来报道这些盛会。

在过去不久的英国大选中,很多媒体都有出色表现。我这里贴的是《卫报》做的英国大选的数据新闻。

英国大选比较特殊,因为它每个选区的人口都是相等的,大家可以注意看左边的那个英国地图。它不是一个真正的英国地图,而是一个变体,每一个小的色块都是一个六边形,都代表着一个选区。这样的地图比真实的英国地图更加能代表哪个党派占优势,哪个党派处于劣势。这样的方法也被多家数据新闻媒体所采用。

还有一个大类是可搜查的数据库。这样的数据新闻与其说是新闻,不如说是一个公共工具。制作这样的工具的主要是调查性报道的新闻编辑室和大的新闻编辑室的调查性报道团队,这里我放的例子是ProPublica 和Center forPublic Integrity 所做的可搜索数据库的案例。

比如说,这些数据可以让你查询在所有的大学中,哪些大学对于贫困生的资助力度比较高。如果你是一个家境比较困难的学生,在择校的时候拿到了很多录取通知书,你就可以通过这样的工具来决定应该接受哪所大学的录取,在哪所大学比较有可能在经济上得到资助。又比如说,美国的医疗系统和医疗保险是一个很让人头疼的、很复杂的系统。ProPublica 做了一系列工具,有的是帮你核算续签去年的医保合不合算,有的工具能帮你查看你的医生做手术的出错率有多少。而同时,我们也做过一些有关工作场所有毒物质的搜索工具,让大家可以警惕起来,看看自己的工作场所是不是有一些可能致癌的物质。

最后还有一个很受关注的大类,就是分析和预测型的数据新闻。有一本很红的书叫《信号与噪声》,它的作者纳特•西尔弗就是现在一个很红的数据新闻网站538的主编。538 这个网站专注于做分析和预测型的数据新闻报道。大家可以看左边红蓝相间的图表,它可以让你输入你的收入和配偶的收入,然后帮你决定你们两个是结婚合起来报税比较合算,还是分开报税比较合算。这样的分析和预测行的数据新闻在大选期间也非常流行。

  • 为什么要做数据新闻?

讲了这么多案例,可能有的同学会问:除了很炫酷之外,为什么要做数据新闻呢?我觉得数据新闻能有现在这么高的关注度和这么多的受众,是因为它的确弥补了传统新闻或者叙事型新闻所不能达到的效果。

首先,数据新闻是一个更为直观的证明观点的方法。相比传统的方式,去采访十个人,然后把他们的观点拿来证明一个论点,数据新闻更具有说服力。

同时,数据新闻,尤其是可视化,也是将抽象的概念具体化的一个非常有效的途径,这个特点让它成为了调查性报道和经济金融报道的很天然的伙伴。因为调查性报道和经济金融报道有一个共同点,就是很多时候它们报道的对象非常艰涩难懂。数据新闻和可视化使这些报道找到了更多的受众。

当然,当我在说它们更容易证明观点的时候,也应该注意到数据新闻带来了很多的问题。因为当你阅读一篇文章的时候,你会想这个作者采访的对象可不可靠,他们的观点是不是有代表性,他们所说的话有没有证明这个观点?但是当你在看一个数据新闻报道,再一看可视化的时候,很多读者就会想当然地觉得,既然有这背后有数据,那么这个观点肯定是正确的。但事实上,数据新闻报道里面最大的陷阱是数据本身的不可靠,是解读者本身对数据的误读。在接下来的自由讨论时间,我们可以谈谈不同的数据新闻工作者是怎么样应对这些问题的。群里的数据新闻工作者,也可以来谈谈你们的数据新闻编辑是怎样解决这些问题的。

  • 数据新闻是怎样诞生的?

数据新闻的生产一般来讲有三步:数据的收集,数据的分析整理,可视化的呈现。

在数据收集方面,又分几种方式。首先,最主要的方式当然是利用公开的数据。有的是政府发布的数据,有的是企业发布的数据。比如现在美国在报道大选的时候,所有媒体最依赖的就是美国FEC所发布的竞选人的竞选资金的来源。大家都紧盯着候选人的钱是从哪里来的,哪个人资金雄厚。

还有一种很重要的方式是通过和大的企业合作,直接拿到他们的数据。《纽约时报》曾经做过一个全美的棒球粉丝的可视化,他们当时的数据是直接从Facebook那里拿到的。

不管是公开数据还是从合作方拿到的数据,对于新闻记者来说,很重要的一个任务就是核查数据的真实性。最好的办法是和收集这些数据的人打交道,问他们数据是怎么收集的,里面可能会存在怎样的问题,并且搞清楚每个数据栏的具体意义是什么。

当没有公开数据,也没有找到合作对象取得数据的时候,数据新闻的记者还一个办法就是自己去收集数据。有的时候可以通过从网上抓取数据,有的时候社交网络会提供API,你可以在本地建立一个数据库,自己写程序,通过社交网络的API收集你需要的数据。美国还有《信息公开法》,你可以写申请,要求政府提供你想要的数据。

关于数据分析和可视化呈现的部分,我们可以在后面讲数据可视化相关的技能的时候进行进一步介绍。

我刚才也说过美国是数据新闻和可视化做的非常前沿的一个地方。那么,还有什么样的问题没解决呢?

首先是移动端优先。值得一提的是,移动端优先这件事情,我们国内的媒体做的比美国的媒体要好很多,因为我们国内移动端的群体更加庞大,而且我们移动端应用也领先美国的移动端应用很多。我们一会可以分享一些中国媒体做的很好的移动端的数据新闻案例。

其次是原生内容对于数据网站的挑战。所谓原生内容就是并不是在网页上看到的内容,比如微信的公众号的文章就是原生内容的一种。在美国还有Facebook的原生内容。这是原生内容因为并不是在网络端的,而是在一些应用内部的,所以它对JavaScript 等数据新闻所必须要要求的语言和各种库的支持都很不一样。这对以交互性可视化为主的数据新闻而言,是一个很大的挑战。

还有一个问题就是数据新闻的盈利模式。在美国,大多数的数据新闻团队都不肩负盈利的重任,他们更多为网站的新闻性做出贡献。很多的调查性网站,比如说ProPublica 和Center forPublic Integrity,都是非盈利的新闻组织,他们每年只要负责产出高质量的新闻,就可以得到捐款者的大笔捐款,所以他们并不需要担心网站的流量是不是够,数据新闻是不是真的增加了网站的流量。但是,可能国内的媒体会对数据新闻对网站流量的影响这个议题更加关注,但好像也没有很多的证据证明数据新闻对网站流量有着巨大影响。

  • 做数据新闻需要掌握哪些技能?

可能大家来参加讲座最关心的问题是:如果我想做数据,我对这方面有兴趣,那么有哪些技能是必须的呢?

在这里,我列了一些数据新闻比较常用的工具和技能。这些技能从上到下基本上是一个由易到难的过程。

首先,Excel 是所有数据新闻记者必须掌握也是最容易掌握的一个工具。Excel非常强大,如果你的数据体量不大,你想要解决的问题不是非常难的话,大多数的数据分析工可以在Excel中完成。

Tableau Public 和Datawrapper 是两个比较入门级的数据可视化工具。它们不仅可以帮助你做出很好看的可视化图表,并且也可以用作数据可视化工具。大家不妨自己去试一下。

下面是Highcharts 和Google Charts API。那些不害怕编程,想要试试水做一些可以直接在网站上嵌入的图标的那些同学,可以从Highcharts 和Google Charts API开始做起。

还有一些工具能让你导入数据表格,然后生成一些数据可视化选项,比如说Google Fusion Tables、CartoDB 和Mapbox。这三个都可以做一些简单的地图。CartoDB 和Mapbox 的功能都非常强大,UI设计都非常棒,但是它们两个都对流量有些限制。如果是个人网站,可能没有关系,但是如果是刑侦纪实要做地图的话,可能需要付费。

接下来是Python、R和SQL。如果你真的很想做数据分析,并且不害怕编程的话,非常推荐这些语言。SQL 是一个数据库语言。当我们需要处理大体量数据的时候,Excel可能打不开。Excel 打不开的时候,你可以把它导入R;当R也打不开的时候,你就需要把它导入SQL 中,选取你需要的数据。

后面是一些可视化工具,JavaScript 是现在所有新闻编辑室都使用的数据可视化语言,因为你要在网络上呈现你的数据可视化,其中被大家广泛称赞的工具是的是D3.js,它有非常强大的可视化功能,但是它的学习曲线也比较陡。

Leaflet、OpenStreetMap、TileMill 是制作地图的工具,QGIS 和ArcGIS 是制作地理信息分析的工具,其中QGIS是免费的。

如果想进一步学习新闻应用,比如说像我们刚才所说的那些可搜索数据库,主要是以新闻应用的形式存在的,那你需要一些框架的知识。Node.js, Ruby on Rails 和Django 是现在新闻编辑室用的比较多的框架。

如果大家对工具方面和案例方面感兴趣,欢迎大家去我们的网站:djchina.org。我们今天发布了重新设计的网站,里面有案例库和工具库的内容,我和马老师之后也会更详细地告诉大家网站有哪些学习资源。

嗯,我现在就先讲这么多,接下来交给马老师。

  • 如何学习课程《数据新闻》?

大家好我是马金馨。据我所知这次沙龙有上千人参加,大家对数据新闻有这么大的热情,这让我们很惊讶。

大家听完之后一定会问:怎样开始学习那么多的技能呢?所以我们正在做一个数据新闻的公开课,我是这个课程的统筹,接下来我来给大家介绍这门课程的基本信息,你可以对这个课程有更多的了解,决定是否要参加这个课程。

邱悦讲的是数据新闻的5个W,我来讲关于这门课程的5个W。

  • Where:在哪上课?

地址:http://mooc.jmsc.hku.hk/

这门课程在哪里上。刚刚发的这个链接就是这个课程的链接,是在港大的网站上面,现在已经有全世界超过三千人的注册了。对中国的参与者来说会有专门的微信群来交流。注册课程后会有助教审核然后安排他入群。所以这个课程是完全在线的。

  • What:课程讲什么?

这个数据新闻公开课都讲些什么?会学到什么技能?

它是一个基础课程,不会编程不会设计都没有关系,还是很适合学生朋友的。课程分为五个部分。

第一部分是讲新闻是什么,通过全球和亚洲一些很好的案例分析它的历史和它最新的趋势,包括刚刚讲的移动端的趋势以及整体的开放新闻的趋势;

第二部分讲怎样去找数据,课程将花一周来讲一些国际国内常用数据库,社交媒体的数据怎样去使用,也会讲一些小技巧,例如怎样用好高级搜索,怎样从PDF转换出表格,怎样在网页上面抓取数据;

第三周和第四周会进入到数据分析数据可视化,学会怎样判断数据质量,找出数据关系,然后将关系可视化。涉及到的原理方法和常用免费的可视化工具都会介绍。刚刚邱悦提到的工具都会有介绍。

最后一个部分,最终是做数据新闻而不是简单的数据可视化,所以会有专门一周的时间来讲如何将报道、采访最基本的新闻的手段和数据结合在一起,而不是简单地文本报道。在什么样媒介上发布,怎样确定不同团队的分工,都会在最后一周讲。

  • When:什么时候开课?

课程4月5日就开始了。如果你还没有开始注册,现在注册还来得及。

整个课程会持续五周,正如刚才所说,每个周一的早晨会把课程的资料全部发出来,包括老师的讲课视频阅读材料,作业的要求,大家可以自己分配自己的学习时间。只要在每个星期天的晚上完成作业就可以了,那是一个死线。课程结束之后也会留大概一两周的时间给大家去完成一个大的项目。每周大概要投入三到四个小时的时间。

  • Who:讲师是谁?

讲师是公开课的精华部分,因为请到了国际知名的讲师非常不容易,我们也简单介绍一下他们每个人的背景。

Simon Rogers

基本上做数据新闻的人都听过这个名字,他是《卫报》数据新闻的创始人。《卫报》数据新闻栏目和《纽约时报》并称数据新闻界的两大巨头。这个团队五六年前刚起步的时候也是数据新闻刚起步的时候,他们是最早做的人之一。Rogers 是这个栏目的创始人,他离开了《卫报》,到推特做数据编辑,现在是跳到了谷歌去做数据编辑,他写了一本关于数据新闻的书,现在国内已经出了中文版。

这本书我翻看过,也写过一些推荐的评语。它很适合初学者学习,可以看看《卫报》的作品都是怎样做出来的,也推荐大家有兴趣的可以买来看一下。

Jonathan Stray

他是一个自由职业者,在全世界飞来飞去给大家做数据新闻的培训,同时也做一些相关的议题。他最早其实是Adobe的程序员,做了七八年后做腻了,就跑到港大读了一个新闻的研究生。之后在《纽约时报》实习,我和他是在实习的时候认识的。之后他在美国自己做了一个小项目叫Overview,帮助记者处理大量的文件。

在过去的两三年内,我们一起做了七八次的数据新闻培训,有三四百名的记者参与。他也对中国有很多的了解,CCTV也请他做过培训。

Francesca Valsecchi

她是意大利人,在同济大学设计创意学院教书。2010年到上海定居,主攻传达设计,之前在米兰理工大学毕业,在这里做了几年的设计工作。我和她是在开放数据的研讨会上认识的。她的兴趣在公共事务、城乡创新等领域,因为她是纯设计专业出身,她会讲关于可视化的部分。

刘婕(Irene Jay Liu)

她会讲最后一部分,怎样去做采访,她现在也是路透社深度调查报道的记者,用很多数据的方法去做,覆盖全亚洲。再之前她在路透社做数据可视化,我和她是同事。再之前她在《南华早报》做数据可视化,有两个比较经典的作品,第一个是香港政商关系的互动图,第二个是伊朗运输业的调查。

马金馨(Yolanda Ma)

最后就是我,我会讲怎么去找数据,我现在在联合国开发计划署的亚太总部,现在人在泰国,做创新的工作,所以对亚洲整体的情况比较了解,之前在路透社和Irene一起工作, 期间发起了数据新闻网,也是在这个时候认识邱悦的,再之前在南华早报也做过一些项目,所以和数据也非常有缘分。

讲完了讲师的背景,这是一个非常国际化的团队,很明显是用英文授课的。因此我们和MOOC学院有所合作,来鼓励大家互相帮助来学习下去,而不因为英文授课就打了退堂鼓。

 

  • Why:为什么?

先讲一下为什么要做这个公开课。之前已经有两三次关于数据新闻的公开课,一个是欧洲的一个新闻中心做的,也可能有些人上过,但是没有面向亚洲的,这次是专门来弥补这样一个空缺。

为什么要做针对亚洲的呢?一方面,数据新闻的需求在不断上升。以中国为例,在国内做了两三年的培训,就见证到了需求的上升。我们面向中国做了七八次工作坊,最初只有20个人,最初都找不到学员,到最后一次已经有几百个人报名,选不过来。我现在人在曼谷,也不断收到亚洲其他一些国家的培训需求,包括缅甸、印度和泰国本地,都意识到需求非常广泛。

同时也有很多地方开始做尝试了,印度和中国的很多媒体已经开始做。其他一些地方包括印尼、菲律宾已经开始做数据新闻了,但大家都不知道,新闻操作是需要被本地化的,他的语言他的文化,他的技术环境,都会影响你的操作。比如在中国一些国际上的工具你不可以用,那这些情况你该怎么办。这些问题和操作都需要被发现然后被整理然后被整个世界所知道,所以这也是为什么要做这个公开课的原因。

最后的原因就是你为什么要上这个课,一方面这是一个国际化的团队,十分难得;另外一方面,对于大家的成长来说,如果你完成所有的作业,达到分数要求,就能得到港大新闻学院的证书。在学习过程中,你还能上手操作一些自选的课题,从实践中学习一些工具,还可以和来自全世界的学院有一些沟通和互动,相信对大家的成长都会是很有利的。

作者简介

数据新闻网

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。