以下文章归档于:数据清理

The Quartz 坏数据手册

编者按:真正参与数据新闻生产的朋友都知道,数据新闻最费时的环节之一是数据清理,其过程繁琐却极其重要。那些不符合要求的数据常常被称为“dirty data”(脏数据)或者“bad data”(坏数据)。数据集里一般有哪些坑?又应该如何应对和处理呢?2015年年底,美国数字媒体网站Quartz曾把员工的… 继续阅读

中国数据新闻工作坊培训手册第三章 – 实操:Excel基本技能

第一部分 – 单元格中的公式 通过这个动手实践活动,你会学到一些几乎每个数据新闻项目都会用到的基本的Excel技能。 先从你的样品数据文件里载入 世界主要城市空气污染状况_EN&CN.xlsx。该文件来自data.stats.gov.cn/lastestpub/gjnj/2013… 继续阅读

中国数据新闻工作坊培训手册第三章 – 实操:Excel进阶技能

此练习基于Investigative Reporter and Editors – IRE 的Jaimi Dowdell所编写的材料更改而成 我们来使用世行数据WorldBank.xlsx进行练习,提高分析速度和准确度。 使用筛选功能来迅速找到信息 看一下在“Ineligibility … 继续阅读

中国数据新闻工作坊培训手册第四章 – 数据可靠性和数据清理

虽然网上有很多免费数据,你经常会发现,这些数据并不是你需要的格式。这是数据新闻工作者常常面临的一个挑战。事实上,做数据新闻项目时,大部分时间常常都花在了获得准确、可靠并是可用格式的数据。本章探讨评估数据可靠性、保证数据干净可用方面的常见问题。 保证数据干净和可用的过程就叫数据清理。 这是从美国使馆空… 继续阅读

中国数据新闻工作坊培训手册第四章 – 实操:使用Open Refine清理数据

本教学材料部分根据 http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial 改编。你可以到此网址了解有关 Open Refine 的更多情况。Open Refine 以前叫 Google Refine, 所以你在搜索信息时也可以用Google Refi… 继续阅读