中国数据新闻工作坊培训手册第二章 – 实操:获取数据

分享给朋友:
  1. 搜索指令

谷歌、百度这些我们每天都用的搜索引擎,你真的会用吗?

例如:请在环保部网站上找到过去两年内的PDF格式的空气污染数据,你可以在三秒钟之内得到结果吗?

下面介绍一些最常用的指令

1) 双引号 “”

作用:完全匹配搜索,即搜索结果包含双引号中出现的所有词,连顺序也必须匹配

适用:谷歌,百度

实操:比较搜索结果 北京空气污染“北京空气污染”

2) 减号 –

作用:搜索不包含减号后面的词的页面。减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。

适用:谷歌,百度

实操:搜索 北京 空气 -污染

3) filetype:

作用:限定文件格式

适用:谷歌,百度

实操:搜索 北京空气污染 filetype:pdf

4) site:

作用:站内搜索限定,即只在特定网站内部搜索

适用:谷歌,百度

实操:限定于环保部网站。搜索 空气污染 site:www.zhb.gov.cn

5) inurl:

作用:域名搜索限定,即只在含有特定词汇的域名范围内搜索

适用:谷歌,百度

实操:限定于政府网站。搜索 inurl:gov.cn 空气污染

6) 设定时间范围

目前没有直接的指令可以限定时间范围,但是在谷歌的搜索工具中可以直接限定

在搜索结果下,选择“Search tools” (搜索工具)

选择“Any time”(任何时间),在底部可以看到“Custom range…” (自定义范围)

实操 获取数据1

选择Custom range后,即出现时间选择框

实操 获取数据2

完整的指令请参考:

谷歌:https://support.google.com/websearch/answer/136861?hl=en (英文)

除了常用指令之外,谷歌和百度也都有自己的高级搜索页面。

谷歌:http://www.google.com/advanced_search (英文)

百度:http://www.baidu.com/gaoji/advanced.html

最后,请在三秒钟内,在环保部网站上找到2015年1月1日至2015年3月31日的与 空气污染 直接相关的PDF格式文件

  1. 抓取表格

很多时候我们需要使用Excel格式的数据,但它们并不总是免费午餐。更多的时候,它们以表格的形式存在于PDF文件中或者网页上。

1)抓取PDF文件中的表格

在环境报道中,经常会涉及到很多的报告或者论文,是以PDF格式存在的。其中会有很多的表格来呈现数据,但是在PDF格式中,我们无法对其进行二次梳理。所以,将它们转换成Excel格式是必要的。

有很多的免费工具可以使用,例如:

CometDocs

也有Windows离线软件版本及iOS手机版

PDF to Excel Online 

迅速,清楚,中文支持,免费帐号只能五次

PDF to Excel 

效果也不错,但是要等30分钟才能拿到文件

请在百度云上Data文件夹内下载“2012年上半年环境保护重点城 市环境空气质量状况”文件。这是一个PDF文档,你可以看到里面有一张表。试用以上工具将其转化成Excel表格。

2)抓取网页上的表格

例如,环保部数据中心首页的全国空气数据,你会怎样提取它?(请注意,它每隔几秒还会自动切换城市)

实操 获取数据3

如果你尝试直接复制粘贴(很多时候其实是可行的),它在Excel里并无法以规整的形式展现出来。在Mac版的Excel里会出现如下情况:

实操 获取数据4

有一个工具可以解决这个问题:Firefox (火狐浏览器)的插件 Dafizilla Table2Clipboard。你需要先安装火狐浏览器以及此插件。

然后,使用火狐打开同样的环保部数据中心的页面,选中那张表,点击右键,选择Table2Clipboard,选择Copy whole table (复制全表)

实操 获取数据5

然后,进入Excel,直接粘贴,等待奇迹出现。

  1. 结构化信息表格化

有时,一个网页上会出现明显结构化的信息,但是并没有整理成表格格式。例如这个网站

实操 获取数据6

此页面上的数据是很规整的:图片、相应文字解释、相应链接。

我们使用一个工具:import.io,它有在线版,也有功能更强大的线下版。简单输入这个网址到import.io,就可以获取表格化的数据,如下,亦可导出下载。

实操 获取数据7

  1. 大批量下载文件

有时,一个网页上会同时提供许多的链接提供下载,这时如果手动去选择就会非常耗时。

火狐有另一个插件叫做DownThemAll,可以完成这个任务。

请先在火狐中安装这个插件。

然后我们来尝试下载所有环保部下载中心中的文档:

http://www.mep.gov.cn/gzfw/xzzx/wdxz/

在这个页面上,是许多的链接,导向环保部提供的文件。

使用火狐打开页面后,右键,选择DownThemAll

实操 获取数据8

在跳出来的窗口中,选择你所需要的文件。例如,只选中PDF格式文件。

实操 获取数据9

然后点击右下方的Start! (开始),所有文件就开始自动下载到指定文件夹了。

迅雷软件的Windows版本亦有类似功能。


点击进入下一章节:第三章:使用Excel分析数据
想回到目录请点击这里

作者简介

数据新闻工作坊

数据新闻网以引介全球范围内最顶尖的数据新闻实践为初衷,以推动数据开放及媒体革新为宗旨,面向中国的新闻从业者、媒体管理者、新传教育者以及对传媒感兴趣的设计师、程序员,提供线上信息平台与线下交流机会。