NICAR2016会议总结

分享给朋友:

丹佛地处美国中西部山区,紧邻着著名的落基山脉,是天然的滑雪胜地,也是闻名全国的啤酒城。2016年三月初,有超过1200名媒体从业者来到这里参加一年一度的NICAR (全国电脑辅助性报道) 会议。

car16_banner

为期四天的会议包括了案例研讨 (panel) ,工具教学 (hands-on) ,灵感演讲 (lighting talk) 以及菲利普·梅耶数据新闻奖 (Philip Meyer Award) 的颁奖仪式等不同内容 。参会的上百家媒体机构和新闻学院中不乏在数据新闻方面领先的《纽约时报》,《洛杉矶时报》,非盈利调查机构 ProPublica 和 Center of Investigative Reporting (CIR),以及网络媒体 BuzzFeed 和 FiveThirtyEight 等媒体。会议除了总结过去一年中各家在数据方面的成就,对优秀作品进行讲解外,还有不少关于网页爬虫和数据使用的道德与法律方面的探讨,和专门针对年轻记者的就业辅导。

 

– 提高新闻应用开发的制作效率

对于新闻应用 (news application) 的开发者来说,挑战之一是在有限的时间里制作出实用又美观的可视化工具。来自Marshall Project美联社等媒体的数据记者给出一些提高开发者工作效率的建议:

  • 至少准备两套方案。一个比较详细和完整,另一个相对简洁,易于完成。然后尽可能早的和编辑沟通,不要等做完了才去说服编辑接受你的思路;
  • 在招聘新人时,尽量寻找富有创造性的多技能(写作、数据、设计)人才;
  • 不要总是单打独斗的写程序,增加与文字记者和编辑之间的交流;
  • 给自己树立一些行业内的榜样,研究和学习他们做过的项目和使用的工具;
  • 注意当下的潮流和趋势,尝试了解观众都在看些什么,以及为什么他们喜欢这些故事。

 

关于开发者如何从过往作品中提高水平,他们给出的建议:

  • 将你在项目中所负责的内容写成文字总结,这对正在求职的年轻记者来说尤其重要;
  • 养成在代码中添加注释的习惯,并将开源代码分享到Github或类似的开发者社区。

 

对编辑室里独自战斗的数据记者,来自CIR的Scott Pham给出的建议:

  • 利用jQuery, Bootstrap等工具帮助优化网页设计,让可视化制作变得轻松容易;
  • 并非每个可视化都需要原创。时间有限的情况下,上Github找一下别人分享的代码;
  • 习惯使用浏览器中的“检测元素 (Inspect Element) ”来诊断网页中出现的问题;
  • 加入NICAR-L这样的讨论组,上面有大量的关于数据来源和分析技巧的讨论;
  • 如果你知道如何描述具体问题,不妨直接问谷歌或百度,通常你会发现有人跟你同样的疑惑,也有许多经验丰富的程序员乐意回答各种技术问题。

 

– 制作最合适而不是最复杂的可视化

卫报》记者Troy Griggs在过去四年中收集了来自338家新闻机构共4600件新闻应用作品。他发现越来越多的媒体在制作可视化时不再局限于常见的表格和地图等形式,而是致力于开发“用户探索性强,数据内容丰富”的应用。

Screen Shot 2016-03-28 at 3.19.16 PM

(图为华尔街日报的可视化作品:Are You Good Enough to Be a Tennis Line Judge?)

 

Griggs总结了几条在发表可视化作品时应注意的问题:

1. 平台的支持

目前不少媒体已具备开发新闻应用的能力,然而也有许多可视化作品因受到网站和移动平台的技术限制而效果不佳。这个问题在未来几年中能否得到解决?

2.开源与版权

越来越多的人开始关注数据新闻制作过程中的道德与法律问题。如何在不侵犯版权的情况下使用别人的代码是媒体人应当深入思考的主题。

3.失效的链接

有些旧的网页链接由于没有一直没有更新而失效,我们是否应关闭这些无效链接,而不是任凭其在网络太空中像废品那样漂浮着。

70533052

 

– 数据抓取的灰色地带

尽管现在许多媒体都在使用网络上爬取的数据,但与这方面相关的法律和制度却并不完善。有时媒体抓取和分析的数据结果也会引来一些业内人士的批评和不满。因此今年会议加入了更多与数据使用规则相关的议题。

 

1. 爬取数据在什么样的情况下是必要的?

来自美国国家广播电台(NPR)视效部的David Eads说,从网页上抓数据并非记者获取数据的主要方式,而更像是种专治疑难杂症的手段。在编写爬虫程序之前先尝试跟有关部门联系获取现有数据。如果是不存在、价格太贵、或是等待时间太长等原因无法在有限的时间内拿到数据的话,再考虑从网上爬取。

2. 爬取网络数据并非免费

首先,你需要有掌握技术的程序员或记者来写爬虫程序。其次,服务器不是免费的,你爬取的数据越多,意味着你所需要的相应网络配置也越高。再次,爬取网络数据需要时间,有些分析需要庞大的数据量或是足够长的时间跨度。

3. 对方服务器的负担

在编写爬虫程序时,适当限制你的爬取速度,尽量不要给对方的服务器带来太大负担。

Picture3

(图为NICAR会议上关于数据爬取的应用技巧和道德规范的讲座)

 

当然爬取数据也有很多积极的方面,比如对信息的公开化和透明化起到的推进效果,或是帮助记者了解政府存储数据的方式和更新的速度等。此外,正因为有了日益增大的爬虫需求,越来越多的公司和个人参与到程序的编写队伍中,提升和完善了爬虫技术的整体水品。

 

– 人工智能 vs. 新闻记者

在一场关于“未来的编辑室的主力是电脑还是人类”的探讨,主持人先让大家在“电脑”或是“人类”选择一个答案,然后轮流陈述自己的观点。所有人都说完后,主持人让大家想一下工作中有哪些事是只有人类能完成的。大家再通过投票,选出其中的一条,讨论如何在未来十年中让机器学会这项本领。

 

我的小组投票选出的是“制造出能够代替人类进行报道的机器人记者”。一个数据科学家告诉大家,目前已有科技公司制造出能谱曲的机器人,说明人工智能也可以从事创造性工作。另一个来自斯坦福大学的女生则认为自动化的编辑室给年轻记者带来的更多是挑战而非机遇,因为电脑擅长的是处理简单和重复的任务,而这些事情以往大多是留给实习生和新手来做的。随着越来越多这样的工作被外包或是直接由电脑完成,留给年轻记者的机会也就越来越少。也有人提到机器人需要通过学习大量的新闻作品才能开始“创作”,而灌输给它的文章对它将来的采访和报道方式有着直接影响。如果它学习的文章大多数都出自男性之手,或是某个保守派的媒体,是否意味着未来的机器人记者也会带有性别歧视和政治偏见?

alala

(图为NICAR会议上的小组讨论和设想中的报道型机器人9000)

 

– 如何让数据更加人性化

这一直是数据新闻会议上的热门话题。来自Buzzfeed的调查记者Kendall Taggart说,自己作为数据记者最容易犯的错误是对那些宝贝数据过于痴迷,不知不觉就花了大量时间查看表格。然而回过头来看过往作品,她发现出彩的往往还是那些“先做采访,后查数据”的新闻故事。Taggart建议记者多提一些报道性的问题,而不是数据问题。2015年,她做了一组关于未成年人因逃学而入狱的调查报道,受到广泛关注,最终推动德州政府废除了该条法律。调查之初,她与同事从当地法院的庭审记录入手,查找相关数据。然而由于青少年的庭审记录是保密的,他们的调查进行的并不顺利。随后他们改变了调查方向,从监狱服刑人员名单中寻找线索:

Screen Shot 2016-03-28 at 5.09.10 PM

(图为德州某郡服刑人员名单截图。一个94年8月出生的服刑人员因逃学而被法庭指控。)

 

不同于庭审记录,这份监狱服刑人员名单是政府网站上的公开信息。上面虽然没有姓名,却有所有服刑人员的出生日期,入狱时间,对他们的控告内容。Taggart在分析了大量的监狱数据后,发现对二十岁以下的服刑人员最普遍的控告罪行竟是逃学 (truancy) 。按照德州的法律,法院会起诉逃学的未成年人,如他们不能按时缴纳罚金,则会被送往监狱服刑一段时间。至此,Taggart已经有充足的数据可以进行报道,然而她的调查并未就此打住。她通过ancestry.com(类似Lexis Nexis的背景调查网站)找到一些未成年服刑人员的父母,并到实地走访调查。一番波折后,终于有个曾因逃学入狱的女生同意接受采访。她代表了当地一批和她年纪相仿的未成年服刑人员。她的亲身遭遇证实了数据分析的结果,使整个调查报道变得更加完整和人性化。Taggart说,虽然数据给她的调查带来了线索和突破,但若不是亲自上门走访,她也不可能采访到那些学生和家长。

 

纽约时报的调查记者Andrew Lehren随后补充道,记者的工作是讲故事,而不是讲数字。使数据故事人性化的关键点是寻找代表性强的采访对象。有时可能要采访几十个人,才能找到一个关键人物。

作者简介

王小丹

多媒体记者,关注可视化交互设计。致力于用数据做更优秀的调查新闻。