The Quartz 坏数据手册

分享给朋友:

编者按:真正参与数据新闻生产的朋友都知道,数据新闻最费时的环节之一是数据清理,其过程繁琐却极其重要。那些不符合要求的数据常常被称为“dirty data”(脏数据)或者“bad data”(坏数据)。数据集里一般有哪些坑?又应该如何应对和处理呢?2015年年底,美国数字媒体网站Quartz曾把员工的数据处理法则整理成坏数据手册(Bad Data Guide)链接>>>,这家刚刚获得了2016数据新闻奖(DataJournalism Awards, DJA)的评委选择优秀奖,数据新闻水平受到认可。此手册所列问题非常全面和实用,数据新闻网特此编译了这个手册。

详细列举了平日可能遇到的问题以及建议解决方案。

记者每天都要处理数据,然而这些数据往往都有一些问题。这本手册详尽地列举并描述了在利用数据工作时可能遇到的各种情况,并给出了相应的处理建议。

大多数问题可以解决,有些无法解决问题的数据应该放弃使用。但是仍有一部分数据虽然存在着一些不能解决的情况,但是只要多加小心,数据还是可以使用的。这种分类方式稍显模糊,这本手册使用了另外一个角度——按照谁可以解决这些数据中进行分类,将这些数据中出现的问题分为了你可以解决的,你的信源可以解决的,专家可以解决的等等。各个详细的条目中,还提供了如果相应的人不能解决问题时的应对策略。

这本手册的目的不是让人们在遇到一份数据的时候都要逐条分析,这样太耗费时间精力也会造成不必要的麻烦。它的目的是让人们知晓并熟悉工作中可能遇到的问题类型,并尽量在使用数据或造成失误前就提前做好准备。

如果在使用中遇到了任何问题,请联系Chris。

手册遵守 Creative Commons Attribution-NonCommercial 4.0 国际授权条款。

目录

你的信息源应该解决的问题

你应该解决的问题

外援专家应该解决的问题

程序员可以帮助解决的问题

问题详细列表

你的信息源应该解决的问题

数据值缺失

小心数据中的空值或“null”值和它们的含义。如果是按年收集的数据,这种缺失的数据是不是表示某年没有收集数据?如果是调查问卷,这些缺失的数据值是不是代表了受访者拒绝回答问题?
无论何时,处理数据值缺失相关的问题是,都应该问自己“这些缺失的值有什么意义?” 如果不知道答案,则应该向你的信息源求证。

缺失数据值被0补位

比缺失数据值更糟的是用随机数补位。这可能是由于人们缺乏对于缺失值的思考而导致的,也有可能是由一些不能处理缺失值的程序或者自动化过程而产生的。无论如何,当你在数据中看到一系列的0(有时候会是-1)时,你需要辨别这是真的数字0还是用来替换一些空白缺失值的。如果你不确定,你需要向你的信息源求证。

当数据类型不是数字的时候,0这种补位值可能会以其他形式出现。例如对于日期来说,1970-01-01T00:00:00Z或者1969-12-31T24:59:59Z可能会被用来填补一些缺失的数据值。对于地理位置来说,这种数据可能会被呈现为0°00’00.0″N+0°00’00.0″E或者0°N 0°E——一个在加纳南部一个经常被叫做“Null岛”的小岛。

参见:

明显的数据不完整

有时候从数据的结构中可能看不出数据缺失,但是数据的应有的主题可以提供一些线索。如果你的数据是关于美国的,那么你可以检查50个州的数据是不是完整(有时候还要考虑海外领土,如果你的数据包括波多黎各,那么50个州也不是完整的数据。)如果你正在使用一个棒球运动员的数据库,那么你应该先确认它包含你认为正确的球队数量,并用几个你熟知的运动员作为参照检查一下数据。如果你的直觉告诉你数据是不完整的,相信你的直觉,并向你的信息源求证。

数据行或数据值重复

数据中出现重复的数据行的时候你尝试找出原因。有些时候不需要重复一整行,比如有些金融信息会使用相同的数据行id登入一些修正信息。如果你并不知道这些惯例,那么在用这些数据进行一些计算的时候就可能得到错误的结果。如果他们不应该是重复的,而你手上的数据却是重复的,那么请和你的信息源核实原因。

拼写不一致

通过拼写可以看出数据是不是由人工录入的。不要上来就看人名,因为这种数据类型试最不容易发现拼写错误的。先去看城市或行政区的名字是不是有错误(最常见的是Los Angelos)。如果你找到了类似的错误,那么你八成知道这个数据是由人工生成的或者编辑过的,这时对数据的使用就应该更加谨慎。这些数据依旧可以使用,只是在使用的时候可能需要人工纠错或者在成品中注明数据可能会是不准确的。

OpenRefine中的text clustering应用可以通过自动匹配同一列中的相近数据来达到快速更正拼写的效果(例如,将Los Angelos和Los Angeles分为一类)。当然,你需要记录对数据所做的编辑,并保证使用好的数据来源

参见:

姓名顺序不一致

如果你的数据中有中东或者东亚人名,姓和名的顺序是不是正确?数据中有没有人只使只使用了名字用了名而没有姓?生产数据的人习惯性的会犯这些错误。如果你手头的数据包含了来自世界各地的人名字,那么在你合并“姓”和“名”两列数据前至少应该粗略的检查一下这样生成的人名是不是正确。

日期格式不一致

下面哪个日期是九月?

  • 10/9/15
  • 9/10/15

如果第一个是欧洲的日期格式而第二个是美洲的,那么它们都是九月。如果你对数据的来源没有什么了解可能就无从知晓了。所以在使用数据之前,请确定你对数据的来源有所了解,并选择适合的数据使用。

参见:

未标明数据值单位

重量、支出这种名字都不包含数据所使用的度量单位。不要假设美国的数据使用是磅和美元作为单位的。科学数据多使用公制,外币可能使用的是当地货币单位。如果你获得数据没有包括数据的单位,向你的信息源求证。即使数据中包含了单位,也要时刻小心这些单位随着时间的变化会产生不同。2010年的1美元和现在的1美元已经不是一回事了。短吨长吨英吨也不是一回事。

参见:

分类不合理

小心那些看起来只有“是”和“否”但实则不然的数据栏。一个例子就是调查问卷中人们拒绝回答问题或者没有给出答案,这种否定的答案实则是有意义的。另一种常见的问题是对于“任意”和“其他”的使用。例如在一个国家列表中,这种答案类别代表了什么呢?是被调查者不知道具体的答案?他们在公海区域?是被驱逐出境?还是难民?

这种不合理的答案分类也会自动过滤很多信息。在犯罪统计数据中这种情况十分常见。美国联邦调查局(The FBI)近年来给“强奸”做了不同的定义。因为他们对于罪行的定义实在太过拙劣,以至于很多犯罪学家表示他们的数据已经没有了参考意义。不好的定义可能导致一种犯罪行为被划分到和人们想象完全不同的类别中,或者根本就不被记入犯罪行为中。对于类似种族、民族这类定义十分不确定的主题相关的数据应该多加小心。

字段名命名模糊不清

什么是“住所”?是以在哪居住,还是在哪交税划分?是一个城市,还是一个县?数据中各个字段的名称永远都达不到我们想要的精度,但是当命名明显有歧义的时候,我们就需要特别注意了。即使你通过具体的数据猜测出了真实的意义,这种命名的歧义还是会造成人们在录入这些数据的时候的一些失误。

来源出处未标明

数据使用不同的个人、公司、政府、公益组织、阴谋论者等等收集整理并公布的。收集的渠道从调查问卷、传感器到卫星多种多样。可能是被输入到电脑里的,可能是被录音的,也有可能是手写的。了解数据的来源可以帮助你理解数据的局限在哪。

调查得出的数据很少是巨细靡遗的、不同的传感器的灵敏度不同、政府的数据多少都会经过一些审查、战争区域的数据会因为战线的危险程度而产生严重的偏差,而这些数据往往都是相互串联在一起的,这使得情况变的更加糟糕。政策分析人员往往会分析并重新发布政府的数据、医生记录的数据会由护士录入电脑。每个这种环节都会大大的增加产生错误的几率,所以要了解数据的来源以做到心中有数。

参见:

出现不合理数据值

如果你的数据中出现了下面这些内容,你需要多加注意:

数字:

日期:

位置:

这些数据都有可能是由某些人工或程序造成的失误,如果你在数据中发现了这些内容,请确认这些数据是正确的数据。

参见:

数据过于笼统

你的数据中有各个州,但是你需要国县的信息。你有雇员的信息,但是你也需要雇主的信息。信息中有年份,但是你想要月份。我们拿到的数据很多时候都被过分的简化了。

一旦信息被合并之后就很难再细化了。如果你拿到的数据本身过于笼统粗糙,那么你需要向你的信息源所要更加细致的数据。有时候这些更加详细的信息本身就不存在,有时候他们并不想分享公开这些更加详细的信息。有些时候为了保护隐私,很多联邦的数据是不能被地方机构获取的,不然可能会被用来寻找特定的人(例如在德州西部居住的唯一一个索马里人),但是你总是可以问一问的。

把一年的数据除以12并把结果当作月平均值是绝对不应该做的一类事情。在不知道每个月的数据分布的情况下,这样做的结果是毫无意义切错误的。不要这样做。

参见:

数据量和公开的数据量不符

经历了漫长的“信息自由法(FOIA)”申请之后,你得到了一份警察意外使用武力的数据表。这份数据有2467行,但是在使用、发布这些数据之前你需要核对一下你拿到的数据和警察局上次公布的数据是否一致。你可能会发现六周前的一次采访中,他们表示有“不到2000起”相关事故,或者其他和你手中数据不相符合的数字。

这种公开发布数据和原始数据的是一种很好的线索。这种情况产生的原因往往很简单。比如你拿到的数据和公布的数据并不是同一个时间段的数据。但是有时候则是他们在虚报数据。无论如何,你都应该确保你拿到的数据和公开的数据在数据量上是匹配的。

数据表有65536行

老版本的Excel数据表单是有行数限制的,65536行。如果你拿到的数据正好有这么多行,那么基本可以确定你拿到的数据是不完整的。回去管他们要剩下的数据吧。新版本的Excel把限制提到高了1048576行,所以基本可以回避处理不完整数据的可能了。

数据表中的年份出现1900、1904、1969或1970

出于某些原因,Excel的缺省初始日期是1900年1月1日,在苹果系统上Excel的这个日期是1904年1月1日。使用Excel处理的数据很可能会出现和这两个日期有关的各种错误,如果你的数据中出现了这两个日期,可能代表你遇到了这类问题。

很多数据库和应用会默认产生1970-01-01T00:00:00Z或者1969-12-31T24:59:59Z这样的时间,它们被称为UNIX时间戳。换言之,当系统尝试显示在时间或者时期上的空值或者0时,可能会使用这个日期时间。

文本被转为数字

并不是所有的数字都是数字,比如美国人口普查局使用“FIPS码”代表全国各个地方。这些编码的长短不同而且都是由数字表示的,但是它们并不是数字。037代表洛杉矶,但是它并不是数字37。37也是一个FIPS码,它用来表示北卡罗莱纳。Excel和其他数据表单应用经常会把这些用数字表示的内容误认为时数字,所以开头的0经常会被自动处理掉。如果你尝试着转换数据格式或者合并数据库,这些数字就可能会造成问题。你需要在得到这些数据之前就知道这些问题。

数字被储存为文字

一些数据表可能会把数字储存为带有奇怪格式的文字。为了展示而不是复用而进行的调整经常会造成这样的问题。例如人们常用“1,000,000”、“1 000 000”或者“USD 1,000,000”这种带有逗号、单位、空格的方式而不是“1000000”来展现一百万美元。Excel可以处理一些简单的情景,但是为了让单元格可以更方便的被使用,你常常需要使用一些公式去除各种字母、符号。数字应该被储存成为没有格式和其他附加内容的单元格,并在单元格标题中提供相应的说明解释信息。

你应该解决的问题

文字出现乱码

所有的文字都是以数值的形式储存在电脑中的。编码问题常常出现在文字备用特定的一组数值来表示的时候而你并不知道这组数值是什么的时候。这就会造成数据中的文字成为乱码,完全不能阅读,就像这样: ���.

大多数情况下,你的文字编辑器或者表单处理工具可以自动分析解码,但是仍有一些时候它们还是不能正常地运作,这就可能导致你发表文章时有个人的名字中间插入了一个很诡异的字符。你的信息源应该可以提供相应的编码信息,从而避免这种问题。如果你在信息源那里找不到编码信息,这时可以问问程序员,一般可以猜出编码信息。

行末出现乱码

所有的文本文件或者“文本数据”文件,例如CSV都使用了不可见的符号作为换行符。Windows,Mac和Linux一直以来就对这个问题就有争论。使用一种操作系统打开其他操作系统中储存的文件时可能会造成类似Excel这样的软件无法识别行末的换行符。

一般情况下,使用写字板或者文本编辑器打开文件重新储存之后就可以修复这个问题。如果文件异常大,那么可能需要考虑使用命令行工具或者找一名程序员进行处理。这里有更多相关内容。

数据在PDF文档中

很多数据,尤其是政府数据,只以PDF的形式公开。如果在这些PDF文档中有可以选中的文字信息(如果只是扫描的版本就另说了),那么有很多方便高效的方式可以获得这些数据。一个很好用且免费的工具是Tabula但是如果你安装了Adobe Creative Cloud,那么用其中自带的Acrobat Pro就可以很好的解决导出在PDF中的数据表格到Excel的问题了。两种解决方案都应该可以导出大部分在PDF中的数据表格。

参见:

数据过于细碎

这和数据过于笼统相反。如果你有县级单位,但是想用州级单位的数据,或者你有月份的数据但是想看每年的情况。这些情况的解决方案都比较简单。你的数据可以通过Excel或者Google Docs中的数据透视表功能整合在一起。使用SQL数据库或者几行简单的代码也都可以解决这些问题。数据透视表是每个记者都应该学会使用的功能,但是它有还是有很多限制。对于比较大的数据库或者比较少见的整合来说,你可以去找一名程序员给你提供一个可以验证并可以重复使用的解决方案。

参见:

数据由人工录入

人工录入数据是一个常见的问题,十多种人为数据错误在整个手册中被屡次提及。没有什么比只让一个人去录入数据且不做校对更能毁掉一份数据的了。比如我曾经申请了一份整个伊利诺伊州库克县的宠物狗牌照数据库,系统选择使用一个文本输入框而不是通过选择列表来注册狗的种类,结果导致数据库中包含了至少250种不同拼写的“吉娃娃(Chihuahua)”。即使有最好工具,这种数据也无法挽救了,基本已经毫无意义。虽然可能对于宠物狗的数据库来说无伤大雅,但是如果是受伤士兵或者证券数据呢?人工录入的信息需要我们格外留意。

数据中混杂格式和注释

较为复杂的数据表现形式例如HTML或者XML可以很清晰地将数据和格式内容区隔开来,但是普通的逗号分隔值数据就并不是这样了。后者常见的问题在于,数据表单的前几行都是描述性内容或者标注而不是各列标题或者数据本身。数据键或者数据字典会被放置表单中的任意位置、表头可能会有重复、或者一个表单中其实有多个不同的表而不是正确地分在不同的子表单。

存在这种问题的数据表单通常无法使用。最简单的解决方法就是先分辨出问题是哪一种。不管怎么样,拿到一份数据的时候,先检查一下有没有多出来的表头或者混藏在数据里的格式信息等等都是一个好习惯。

计算没有处理缺失值

假设我们有一个100行的数据,其中一个数据栏叫做开支,这一项内容中有50行的空白值。那么平均开支到底是多少呢?我们应该使用sum_of_cost / 50 还是 sum_of_cost / 100来计算?虽然答案视情况而定,但是大多是情况下,如果需要计算一个带有空白值的数据项,你都可以先把空白数据先筛选出去。可是当两栏数据有不同空白值的时候,比较这两栏数据计算结果就不科学了。有时候这些缺失数据可能可以被替换成0。如果你不确定,请咨询这方面的专家。

这可能是你自己在分析中造成的问题,也有可能是别人弄乱了数据然后交给了你,所以记得在使用数据前看看数据有没有被处理过。

参见:

非随机样本

当一个调查或者一个样本数据故意或者无意的没有覆盖所有需要的人群时,就会使得这个样本成为一个非随即样本,从而造成误差。造成这种问题的因素很多,例如调查的时间、使用的语言等等,这些都是十分常见的社科研究中会出现的问题。这种错误也可能由其他原因导致,例如研究者认为他们有一个完整的数据库,但是只使用了其中的一部分进行研究。如果数据本身就不完整,那么任何通过这个数据得到的结果都会是不正确的。处理这种问题的唯一方式,就是尽量避免使用这种数据。

参见:

误差范围太大

就我所知,因为数据的误差范围过大而导致的报道失实是最严重的。误差范围这个概念在调查问卷获取的数据中十分常见。记者经常会在使用选举投票数据或者人口普查数据的时候遇到它。误差范围是正确值的可能范围。它可以被表示成数字 (400 +/- 80) 或者百分比 (400 +/- 20%)。相关的数据量越小,误差范围就越大。例如,2014年发布的五年社区调查预测显示,在纽约居住的亚裔有1,106,989 +/- 3,526 (0.3%)人, 菲律宾裔有 71,969 +/- 3,088 (4.3%),萨摩亚裔有 203 +/- 144 (71%)。

前两各数据是可以报道的,但是第三个数据就不应该被报道出去。虽然对于什么情况下数据不准确到不应该使用没有一个明确的界定,但是总的来说,当你的误差范围比10%大的时候就应该格外小心。

参见:

误差范围未知

有些时候问题并不是误差范围太大而是人们根本就没有去记录、收集有关的数据。这就是不科学调查方法造成的问题。如果没有计算误差范围,我们根本不能知道结果是不是准确。最基本要做到的是,当你拿到一份调查数据的时候,就应该同时所要这份数据的误差范围。如果你的信息源没有提供相应的信息,那么你拿到的信息最好也不要用来做严肃的分析。

参见:

样本有倾向性

非随机样本一样,一个具有倾向性的样本是因为在取样的过程中没有多加注意而造成的,或者是有意而为之的。调查可能是在互联网上进行的,因此有些没有不能使用互联网的人就没有被囊括进样本。调查还应该仔细的权衡各个族群的比重,并确保这种比重差别在样本中有合理的体现。做到完美的样本几乎不可能,所以这个问题在实际中其实很常见。

参见:

数据被人工编辑过

人工的编辑和数据由人工录入一样,只是在顺序上的差别。事实上,人们去编辑数据大多是因为想要修正由人工录入而造成的问题。当编辑人员对于原始的数据没有彻底地了解时,这种编辑就会带来问题。我曾经在使用数据库的时候见证了一个人把一个人的姓名从“Smit”改成了“Smith”。可是那个人真的叫“Smith”么?我并不知道答案,但是如果没有相应的修改记录,我们以后也都无从查证了,这个数据也就成了有问题的数据。

这些由人工编辑而产生的问题就要求我们完整的记录数据来源如果一份数据没有确切的来源,那么很可能就是因为有人编辑过它了。学者和政策分析师经常从政府获取数据,修改编辑之后再重新交给记者使用。如果没有相应的修改记录,我们就无法判断这些修改和编辑是不是合理和必要。如果可能的话,尽量获取原始资料、或者至少是最原始的版本,然后自己根据需求进行分析或者编辑。

参见:

通货膨胀影响数据

通货膨胀指随着时间变化货币的价值也产生了变化。光看是看不出数据有没有被按照通胀率调整过的。如果你不确定的话,去问问的你信息源。如果这些数据没有被调整过,你可能需要自己把它改过来。inflation adjuster这个工具可以帮到你。

参见:

自然因素影响数据

很多类型的数据都会随着一些不可抗力而产生变化。最常见的一种就是随着季节变化而产生的就业波动。经济学家研究出了很多应对这种波动的方法。具体的实行方式并不是那么重要,重要的是,你需要知道你的数据有没有经过这些方法的调整。如果这些数据没有被校正过,你又想对各个月的就业形势进行对比,那么你可能需要去索要已经调整过的数据,因为这种调整自己做起来比调整通胀数据要复杂的多。

参见:

时间维度被修改

有些时候,原始数据可能被你的信源有意或无意的节选了一段特定的时间。一个很好的例子是2015年被广泛报道的“美国犯罪潮”,但是事实上根本就没有这样的事情。其实只是在一些特定的城市近年来有些短暂的高犯罪率时期。如果记者可以再更长的时间范围内求证一下的话,就会发现十年前的美国犯罪率比现在要高的多。而二十年前的犯罪率几乎是现在的两倍。

如果你的数据只涵盖一段有限的时间范畴,尽量不要使用用你数据中的第一个时间段进行计算和分析。使用现有数据中你有信心的一部分数据,可以让你确定你的分析结果不会因为多出来的一两个新信息而变得毫无意义。

参见:

参考纬度被修改

犯罪率最高的时期的数据常被用来和现有的犯罪数据进行对比。这种对比可以通过变化(自2004年起下降了60%)或者通过一个指数(2004年是100,现在是40),但是无论使用何种方式,2004年看起来可能都不是一个很好的用来参照的年份,因为犯罪率看起来过高了。

对比不同地点的时候也会有这种情况发生。如果我想让一个县看起来很糟,我只需要找一个看起来最好的县来比对就可以了。

大多数情况下这种事情都是因为人们有一种自以为是的偏见,为了避免这种事情发生,请多对比一些其他的数据来确定你的结论。无论如何都不要使用这种方式证明你想证明的一个想法,这种做法太片面了。

参见:

外援专家应该解决的问题

作者不可靠

有些时候你唯一的数据来源并不可靠。有时这并不是一个问题,比如,知道枪支数量的人只能是军火厂商。但是如果你的数据来自一个可能有问题的机构,最好能找个第三方的专家来帮助你鉴别,如果能找到两个、三个专家就更好了。如果没有很多确凿的证据和支持材料,不要发表一个有问题的信源的数据。

数据收集过程不透明

数据的收集环节是最容易出现主观假设、错误或者谎言的。所以数据收集环节的透明度就尤为重要。当然,一般情况下你不可能完整地了解收集数据的方式,但是通过一些过于精准的数据或者过于完美的数据你可以看出一些问题的苗头。

有时候整个调查本身就有一些让人质疑:某些学者真的采访了五十个还活跃着的南芝加哥地区的黑帮成员么?如果你觉得这个数据的获取方式上有任何疑点,而你的信息源又不能提供确凿的来源和证据,那么你就应该寻找一位相关领域的专家帮你辨别这个数据是不是可能通过这些渠道获得。

参见:

过于精准的数据

除了一些特定的学科,很少有数据的统计是有超过小数点后两位的。如果一份关于工厂排放的数据中出现了七位小数,那基本可以确定这些数据是用其他数据生成的或者估算的。这可能并不造成什么问题,但是你需要了解运算的过程,因为人们采用的估算方式可能并不正确。

数据中出现异常值

我最近自己创建了一个数据库,来统计在互联网上信息传送到各地需要花费的时间。所有的数据都在0.05秒到0.8秒之间,除了三个超过5000秒的数据。这明显是在生产数据的过程中产生的错误数据。我后来发现是我代码中一个计数功能写得有一些问题。

这种异常数据可以让你的分析错得离谱,特别是在计算平均数的时候(中位数可能更好)。拿到一组新的数据之后,你需要检查一下最大值和最小值,看看数据的值域是否合理的。即使数据看起来没有太大的问题,你最好使用一些严谨的统计学方法进行分析,比如用标准差或者中位差

这样做的另一个好处是,这些异常数据经常是一个好故事的线索。如果在互联网上向某个国家传送数据的时间是其他国家的5000倍,那还挺值得一探究竟的。

空泛的指数

为了研究某些议题的走势,分析师会把不同的测量值综合成一个指数。这本身并没有什么错,而且往往有很强的解释力。只是你需要小心查验,不同的数值是如何被结合而推导出了指数。

例如,联合国的性别不平等指数使用了多种测量值来衡量各国男女平等的发展进步情况。其中一种是“女性在议会中的比例”。世界上有两个国家通过法律强行的规定了议会中的女性比例:中国和巴基斯坦,这使得这两个国家在这个度量标准上的表现远远好于其他国家。无论是否公平,对不了解情况的人来说,他们就会产生误解。类似于这样的指数数据都应该被小心的分析检查之后再进行应用。

假设检验不真实

假设检验不真实(P-hacking)是一种为了寻找更加有意义的结论,而刻意改变数据、改变统计分析方法或选择性地使用数据。例如,一旦得到显著的结果就停止收集数据、故意删去一些观察结果从而得到更加显著的结论,或者进行了许多研究但只选择结果最显著的一些汇报。有些不错的报道专门研究了这个问题。

如果你需要报道一个学术研究的结果,你需要了解这个研究中的p值是什么,这个p值意味着什么,然后根据你已有的知识需推断这个结果是不是值得报道。很多很烂的学术研究被大肆报道,只是因为记者并不了解p值是什么。

参见:

不符合本福特定律

本福特定律说明小的数字(1,2,3)开头的数据比大的数字(7,8,9)要频繁的多。理论上来说你可以用它发现会计或者选举数据中的异常,但是往往事实并非如此。如果你怀疑某个数据集是被捏造或者修改过的,你可以用这个定律来作第一道防线,但是在下结论之前,一定要咨询一个专家来确定。

过于完美的数据

“全球民意数据库”这样的东西并不存在。没人知道西伯利亚到底有多少人。各国的犯罪数据无法比较。美国政府也不可能告诉你核裂变物质的库存是多少。

你要小心那些收集看起来没法收集的数据的数据库。这些并不是数据,而是很多人的猜测或者推断,而且很可能是错的。当然,这些数据中也可能有值得挖掘的故事,问问专家的意见吧。

程序员可以帮助解决的问题

被错误合并到一起的数据

有些情况下你手中的数据精度正合适,不会太笼统,也不会太精细,但是它们的分组并不是你想要的。一个经典的案例是一份数据根据邮编做了整合,但是你想要它以城市街区来分类。很多时候如果不能找到更加细致的信息,这个问题是不能被解决的,但是也有些时候,数据可以被按比例投射到另一个分组中。如果你想做这么做,你必须要提前考量这么做会带来的误差范围。如果你拿到了被错误合并到一起的数据,问问程序员能不能帮助你重新整合数据。

参见:

数据在扫描的文件中

美国的《信息自由法案》规定政府部门必须公开政府数据,即使他们真的不想给。面对数据公开申请,政府部门常用的一个策略是给申请人一份扫描或影印文件。这可能是图像文件,更多情况下,这些图像文件会被整合到了一个PDF文档中。

从图像中获取文字信息并转存成为数据是可能的。这个过程叫做OCR(光学字符识别)。现在的OCR软件几乎可以做到准确率100%,但是这很大程度上要依赖文档本身的质量。如果你使用了OCR进行数据提取,记得和原来的文件对比并确认它们是不是正确。

现在也有很多网站可以让你上传文档来进行OCR处理,也还有一些免费的工具,可以让程序员把特殊的文档数据处理成你想要的样子。问问他们,对特定文档最好用什么工具。

参见:

作者简介

杨宇辰

本科新闻,硕士信科。目前在伦敦游荡,目标成为一名有钱有闲有爱好的全栈设计师。