川普数据公司团队意外泄漏近2亿美国选民的个人信息

原作者 Dan O'Sullivan

编译  Mika

本文为 CDA 数据分析师原创作品,转载需授权

前言

就在今天,数据安全公司 UpGuard 证实,亚马逊的云空间上存在一个总量大于 1.1TB 的美国选民数据库,不用密码即可访问。其中几乎包含了所有 2 亿美国登记选民的个人信息。数据来源是共和党全国委员会聘请的公司 TargetPoint 、 Deep Root 和 Data Trust,共和党聘请这些公司在去年帮助特朗普赢得美国大选。

这次可能是目前已知历史上最大规模的选民信息泄露事件。

发现

在 6 月 12 日傍晚,UpGuard 网络风险分析师 Chris Vickery 在为其网络风险团队进行错误配置的数据源搜索时,发现了一个开放的云存储库。该网络风险团队属于 UpGuard 的研究单位,旨在提高公众对信息泄露问题的认识。

该数据存储库(Amazon Web Services S3 bucket)没有设置任何访问保护。 因此,只要能上网,任何人都可以访问共和党的数据操作系统,他们只需浏览一个亚马逊子域名:“dra - dw”,该系统曾用于帮助特朗普在总统选举中取得胜利。

经检查发现,“dra - dw”是 Deep Root Analytics 的数据仓库。Deep Root Analytics 是一家提供政治广告的数据公司,该公司创建了此次泄露的数据仓库。在 Vickery 联系联邦当局后不久,于 6 月 14 日的晚些时候,dra - dw 已经被禁止公众访问。

在数据仓库中总共有 1.1TB 的数据,也就是 1100GB ,约相当于 500 个小时的视频,可以免费下载。这些文件清楚地表明了资料库的政治重要性,文件目录以一些有权势的、有影响力的共和党政治组织命名。此次泄露的 Deep Root Analytics 数据仓库包含了大量可访问的数据。

然而,这还不是全部。数据仓库中还存在 24TB 的数据,但已被配置为防止公共访问。总共,存储在错误配置数据库中的数据的大小相当于 100 亿页的文本。

不太清楚的是有些无法访问的文件,比如一个名为“for_strategy_xroads_updated_FINAL”的文件,可能涉及到 American Crossroads,这是由乔治·w·布什(George w . Bush)前顾问的 Karl Rove 共同创建的政治行动委员会,在 2016 年的选举融资中非常活跃。其中还发现了大量的 Reddit 帖子,以文本形式保存:

从 6 月 12 日到 6 月 14 日,Vickery 总共花了好几天才把 1.1 TB 的数据下载完,其中包括两个名为“data_trust”和“target_point”的关键目录。

操作

Deep Root Analytics 由共和党的竞选数据科学家 Alex Lundry 在 2013 年共同创立的,Alex Lundry 曾在 Mitt Romney 2012 年竞选时担任数据总监。该公司将自己标榜为“共和党政治中最有经验的目标群体”,向企业、游说团体和共和党政治活动提供媒体分析服务,旨在达到特定的目标群体。Deep Root 声称能够通过使用大数据分析“微目标”从而有效地达到所需的人口统计,进而使客户在购买广告时做出更明智的决策。

Data Trust

为了赢得选举,共和党全国委员会需要大量专门从事数据分析的私人公司资源。 这些私人咨询公司包括 Data Trust,一家位于华盛顿的公司,声称“通过选民档案收集,开发和改进,不断发展共和党和保守的数据生态系统”。

在 Deep Root Analytics 数据库中,“data_trust”文件夹详细包括了 2016 年潜在选民信息。

“data_trust”总共涉及到 1.98 亿位潜在选民的信息。主要包括两个文件存储库,一个 256 GB 的 2008 年总统大选的文件夹和一个 2012 年的 233GB 的文件夹,每个文件包含 51 个文件,每个州都有一个文件,以及哥伦比亚特区。格式为逗号分隔值(.csv)的每个文件列出了一个32 个字符的字母数字“RNC ID”,例如 530C2598-6EF4-4A56-9A7X-2FCA466FX2E2,用于标识数据库中的每个潜在选民。这些 RNC ID 将不同的数据集结合在一起,将数十个敏感的和个人识别的数据点组合在一起,从而使根据具体细节找到具体名字成为可能。

Vickery 和记者都试图在这些电子表格中找到自己的身份信息,确认文件中包含了准确敏感的个人信息。以下列出了 csv 类别:

共和党对数据库中提到的两家公司总共已支付了超过 500 万美元。

根据联邦选举委员会的报告,2015 年 1 月至 2016 年 11 月期间,共和党向 TargetPoint 支付了 420 万美元的数据服务费,并在当时给 Causeway 约 50 万美元。 并付给 Deep Root 98.3 万美元。

TargetPoint

TargetPoint 是政治界保守派的权威机构,过去曾协助 2008 年的总统竞选,2008 年麦凯恩/佩林竞选,以及全国共和党参议院的连任工作。

“target_point”文件比 Data Trust 存储库的内容更加具影响力,乍看之下似乎不太明显:以Alteryx数据库格式(.yxdb)保存的14个文件,这是一种专门用于大规模数据分析的文件格式。大多数文件最后更新于 2017 年 1 月下旬,其中几个标记为“联系人文件”,不同的日期表示更新时间。

这些“联系文件”电子表格中包含 1.98 亿美国选民的 RNC ID 以及相应的选民姓名和地址。

庞大的选民信息的存储库,将个人的隐私、背景和政治行为结合在一起。这样一个范围规模宏大的数据库收集了大量个人信息和政治倾向,加上可以在网上免费下载,构成了一个无保障的政治宝库。

事件影响

数据暴露选民信息

数据泄露包含了大约 61% 的美国人口的个人信息。除了家庭住址、出生日期和电话号码,还包括政治团体使用的高级情感分析,用来预测选民在诸如枪支所有权、干细胞研究和堕胎权等热点问题上的看法,以及可疑的宗教信仰和种族信息。

本次信息泄露引发了人们对信息隐私和安全问题的重大质疑。同时,在美国选举程序的完整性受到一系列针对州选民数据库的网络攻击的考验之际,人们担心网络风险可能会对民主和政府机构构成威胁。

这样一个庞大的国家数据库被创建并托管在网上,甚至缺乏最简单的防止公共访问保护,这十分令人不安。收集这些信息并无法实现安全存储,进一步使被日益强大的数据分析业务所瞄准的公民质疑私人企业和政治活动中的所承担的责任。

数据泄露问题并不罕见。这次 1.98 亿美国选民受到影响,不论政治信仰如何,他们的信息被暴露出来。被遗忘的数据库、第三方供应商的风险、不当的权限,以及共和党的竞选活动,造成了几乎前所未有的数据泄露。

无可争辩的是,2017 年人们越来越无法信任信息技术系统的完整性,尤其是在规模方面。随着对技术的依赖程度的增加,网络风险的日益增加;随着生活中越来越多的功能迁移到数字平台上,网络风险也日益严重。利用公开数据进行犯罪几乎是无限的,从在黑市上进行身份盗窃、诈骗和转售之外,数据建模和分析能力也应用于更有野心的领域——企业营销、垃圾邮件、高级政治目标。如果利益相关者能够遵守收集和存储数据的基本规则,就可以防止这些潜在的私人信息滥用。

ref:

https://www.upguard.com/breaches/the-rnc-files

http://gizmodo.com/gop-data-firm-accidentally-leaks-personal-details-of-ne-1796211612

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-06-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能计算时代

工业控制系统概述:SCADA,DCS和PLC的概述

工业控制系统(ICS)是一个通用术语,涵盖多种类型的控制系统,包括监控和数据采集(SCADA)系统,分布式控制系统(DCS),和其他较小的控制系统配置,如经常在...

54460
来自专栏腾讯数据中心

腾讯数据中心基础设备质量检测之电池巡检仪篇

上一篇《腾讯数据中心基础设备质量检测之电流传感器、智能电表篇》成功推送10000+粉丝,截至小编发稿已有260人次的转发+收藏,同时评论区也热闹非凡。小编截取部...

35470
来自专栏Crossin的编程教室

电脑小白如何不被“勒索”

最近上了各大头条的勒索病毒我想大家都有所耳闻。不幸中招的朋友,请允许我拍拍你的肩膀。设身处地地想一下,眼看就要毕业了,结果论文没了……换了谁都不能忍啊。可是你也...

32090
来自专栏Python专栏

GitHub宕机24小时,我们还能干嘛

不过我更喜欢下面这幅图,虽然我已经2年不用windows了,但是看到这个图还是很想笑啊,每次windows一个补丁,就能让你半天不用看屏幕了。

13920
来自专栏CSDN技术头条

黑帽大会2014:10个酷炫的黑客工具

【编者按】黑帽大会的规模逐年递增,这场全球最聪明的大脑聚集在一起,会擦出什么样的电光火石,本年度的黑帽大会吸引了近万人参加,这些技术男很符合《黑客帝国》中“基努...

26990
来自专栏钱曙光的专栏

一周极客热文:2014年最值得学习的编程语言

经过数据分析和研究Jobs Tractor的45000个开发人员招聘职位数据,我们得到了上图的结果: 自上一年,主要的变化如下:

22050
来自专栏安恒信息

斯诺登最新爆料:QQ、飞信也被美国国家安全局监控

爱德华·斯诺登在西南偏西(SXSW)大会上接受采访后,又泄露出了一批有关于美国国家安全局(NSA)监听计划的最新文档。而在这些文档中的一页中可以看到...

37380
来自专栏康怀帅的专栏

Mac OS X 背后的故事(上)

作者:王越 来源:《程序员》 作者王越,美国宾夕法尼亚大学计算机系研究生,中国著名 TeX 开发者,非著名 OpenFOAM 开发者。 Mac OS X 背后的...

65640
来自专栏安恒信息

细说QUANTUM:NSA最强大的互联网攻击工具

加州大学伯克利分校(UC Berkeley)及国际计算机科学中心(the International Computer Science Institute)的研...

28240
来自专栏PHP在线

PHP 开发者的 Docker 之旅

用 PHP 作为我们「Docker 开发大礼包」开篇是带着一些朝圣的心情的。这是一门堪称「古老」的语言,这也是一门争议最多的语言,这更是一门不断涅槃的语言。「P...

41190

扫码关注云+社区

领取腾讯云代金券