数据处理,不可不知的常用工具

分享给朋友:
网页、PDF里的数据获取,令人头大;更别提数据清理了。在大多数情况下,做数据可视化的我们都难以得到最干净整洁全面的“ready to go”的数据,需要我们在网页中去“挖”,再去另外的平台进行“清理”,下面就介绍一些NICAR中被提到的常用工具。
01
网页获取数据-非编程方式
A.  Web Scraper
Web Scraper 是一款用于网页数据索取的谷歌浏览器插件,用户可以自行创建数据抓取计划,命令它索取你需要的数据,最终数据可以以csv类型文件导出。
B. Import.io
Import.io 是一款免费的桌面应用,它可以帮助用户从大量网页中抓取所需数据,它把每个网页都当成一个可以生成API的数据源。
C. HTML表格插件
    a). Chrome插件
    b). Firefox插件
D. Down Them All
另外一款用于从网页下载文件的火狐浏览器插件,它包含一些比较简单的过滤功能,比如用户可以选择只下载包含名字中包含“county”的xls文件或者zip压缩包(*county*.zip)。
 
E. WGET
WGET是一个使用命令行的传统而很好用的数据索取方式。假设用户想从一个网站上索取省份信息,每个州都有统一格式的URL,比如http://sitename.com/state/34  和 http://sitename.com/state/36, 用户就将一个包含所有这些url的exl表格存成text文件,这样就可以用wget-ilist.txt来获取所有身份信息。
 
F. XML奇迹
很多情况下,网页的数据是以xml的形式架构起来的,这个教程可以帮助用户探索网页中潜在的数据结构,搞清楚网页的代码源是如何被组织起来的。
02
获取PDF中的数据
A. 免费软件

    a). CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。

缺点:不能免费处理图片,需要订购OCR服务。

Screen Shot 2016-05-05 at 10.39.14 AM

 

    b). Tabula 是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。

缺点:Tabula不能做到光学字符识别,它不如下面会列举到的商业程序精确,比如它获取的行列边距不是很准确,需要手动调整。
 
B. 付费程序:

    a). Cogniview和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。

Screen Shot 2016-05-05 at 10.39.45 AM

    b). ABLE2EXTRACT是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。

缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。

 

     c). ABBY FineReader 
    d). Adobe Acrobat Pro 
    e). Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。
03
清理数据- Open Refine
Open Refine是清理数据方面一款强大的工具。比较典型的使用案例是当你有一个人名、公司名格式不统一的数据时,Open Refine就是很好的选择。在NICAR会议中,来自纽约时报的数据库项目编辑Robert Gebeloff
和Kaas & Mulvad创始人兼CEO Nils Mulvad对Open Refine使用其自创教程对Open Refine进行了讲解:
教程:

https://github.com/gebelo/nicar2016/blob/master/refine.pdf

辅助数据资料:

https://github.com/gebelo/nicar2016/blob/master/prof.csv

https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx
 
作者:吴嘉川、刘佳昕

作者简介

数据新闻网

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。