「2015 NICAR 会议系列报道之一」像记者一样写代码

分享给朋友:

[zilla_alert]今年三月初,一年一度的新闻骇客盛会NICAR(全称:The National Institute for Computer-Assisted Reporting,即美国计算机辅助报道协会)在美国亚特兰大举行,参会人数超过一千两百人。在【2015年度NICAR会议系列报道】中,亲临现场的数据新闻网作者们共同这一数据新闻领域的重要会议。

本系列文均为原创,转载请注明出处、网址与文章作者。

更多本系列文章:

【2015 NICAR系列之二】 不写代码,也能成为记者极客

了解往届NICAR年会:
【2014 NICAR系列之一】 新闻界极客的聚会
【2014 NICAR系列之二】没有数据怎么办?
【2014NICAR系列之三】新闻应用,静态页面VS动态页面
【2014  NICAR系列之四】一览无遗:数据新闻资源
[/zilla_alert]

Atlanta_Nicar

佐治亚洲因为盛产桃子而被称为桃子洲,亚特兰大作为首府更是拥有七十一条桃树街(Peachtree St.),这次会议的酒店就坐落在贯穿全市最主要的桃树街上,酒店的内部是一个巨大的空柱,每层房间外观都规整的暴露在视野之内,从一楼往上看就像鲸鱼的骨头层层叠加,而在这条鲸鱼的肚子里,从老牌报纸《纽约时报》、《华尔街日报》,到新锐媒体Vox,BuzzFeed,都有记者骇客们来来往往穿梭其中,探讨着计算机辅助新闻报道(Computer-assisted reporting),或者说数据新闻的未来。

“你可以把这个故事也‘雪崩(Snowfall)’一下吗?”

会议第二天的灵感演讲(Lightning Talk)如往常一样是NICAR会议的亮点,这个五十分钟的会议由十个五分钟的主题演讲组成,演讲主题在会议之前根据投票选出,主题囊括了数据新闻的专业技巧,记者们在日常生活中的所思所感等等,比如来自《华盛顿邮报》的Steven Rich就贡献了整个灵感演讲的小高潮,他的演讲主题叫做,处理坏数据的五个阶段:抗拒、愤怒、协商、失落、无奈接受,台下的记者们因为颇受坏数据的折磨,从而爆发了表示共鸣的掌声。

nicar_pop

我的前同事Ashlyn Still也作为演讲者参加了灵感演讲,她的演讲主题也是最近在新闻界一个很热门的争论点——我们需要用绚丽的外观来包装一个新闻故事吗?自从《纽约时报》做过雪崩(Snowfall)故事之后,这种将多种媒体糅合在一起的媒体形式一时间很是风靡,新闻编辑室都流传了一种说法,叫做“你可以帮我把这个故事‘雪崩(Snowfall)’一下吗?”,其内在含义就是,“嗨,你可以加点视频,加点音效,加点地图,然后把我这个故事包装一下变得更加炫酷吗?”

今年会议的讨论趋势却是意在减少不必要的数据可视化元素,强调记者们要加深对于数据本身的理解,强化数据的后台处理。在这次会议上介绍数据可视化元素的会议多是来自于Silk、Tableau这种专注于简化可视化步骤的软件公司,组织者有意识地让记者们把焦点重新放回在故事的构思上面。

整个会议关于教记者开发新闻应用(Newsapp),学会基本的Python、R、Ruby等编程语言的部分却在增多。令人惊喜的是,这几年在计算机世界里盛行的机器学习,也出现在不少会议讨论中。

“在成功之前,我也许会失败……五次。”

《华盛顿邮报》就分享了他们使用机器学习中的文本情感分析(Sentimental Analysis )来研究读者对新闻报道反馈的过程

文本情感分析,也称意见分析,通过选取读者评论的文本内容生成训练组和测试组,通过词语分析来检测积极、消极和中立三种态度。这预示着新闻机构现在不再只简单考虑点击量或者停留时间,这种比较粗略的衡量影响力的方式,而是希望通过非人工分析新闻评论来更加精确的衡量一篇文章的影响力。

在“成功”作出比较准确分析之前,《华盛顿邮报》团队经历了五次“失败”,在不断从失败中总结教训的过程中,完善了模型建立的种种考量。

失败1:训练数据样本,对于大部分文本分析是有益的,但是(由于缺乏绝对正确的检验方式)对于检验语意分析来说是非常糟糕的。

解决方式:可以反复修改训练数据样本以提高检测语意的正确性。

失败2:英语是一门让人沮丧的语言,对于同一件事可以有1000种说法,所以需要分析成千上万的词汇。

解决方式:随着未来更多文本评论样本的加入,训练样本会越来越好。

失败3:同一个词可以有多种暗示的意思。

解决方式:可以通过改进分析的方式,来增加对于所包含词语的内容的理解。

失败4:表示消极或者积极的词语可以用来描述各种事物,不一定是关于文章的内容。

解决方式:我们可以通过只研究包含特定关键词的内容来缩小分析文本的范围。

失败5:语意情感分析是不完美的,它其中一定有不同程度的不确定性。

解决方式:采用非常保守的模型以降低潜在的误差数量。

“新20/80/20法则是用百分之二十的时间写代码,百分之八十的时间问谷歌,百分之二十的时间擦掉所有写过的代码。”

20_80_30

图为Jonathan Soma在“怎样进行数据新闻教学”会议上的演讲

从无到有的数据团队,一步一步摸索怎样学习编程的数据新闻记者,在这条长路上要学习的还有很多,但是最先需要知道,怎么面对失败,即使是全盘否定自己以前写过的代码,也要明白,这是学习新事物,获得进步,再正常不过的途径了。

所以,你可以骄傲地跟所有人说这句话,也是今年NICAR的主题句——“我像记者一样写代码。”

bowers_small

如果你对以上内容感兴趣,请密切关注接下来几天数据新闻网的报道。同时,不妨移步这里浏览2015年NICAR的全部网上资料,