只需4组数据,还原你的购物模式

再也别乱扔信用卡小票了。在1月30日的《科学》杂志上,来自麻省理工学院媒体实验室、丹麦奥尔胡斯大学和新泽西罗格斯大学的几名科学家发表了一篇论文,证明了仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定持卡人的所有消费记录,准确率可达90%;甚至仅仅有较模糊的支付数据,也很有可能泄露消费历史。

研究者们取得了一个匿名信用卡消费数据集,其中包括了来自某个经合组织国家的110万人在1万个商家的消费记录。这份数据集很简单,只有用户ID、支付数额、精确到天的支付时间和精确到商家的地点,而没有明显的身份信息,没有电话号码,没有姓名,也没有住址。

但是即便如此,通过对消费空间、时间和消费能力的对比,他们还是能够将消费记录和某个用户ID对应起来。

左图表示了用户ID为7abc1a23的持卡人按照时间顺序排列的消费行为。每笔消费的金额被归到不同的区间。

这意味着,只要知道你的几次信用卡交易具体信息,就可以知道你的所有信用卡消费记录。这可能不是件新鲜事,毕竟信用卡数据早已用于个人信用评价、欺诈检测和购物模式分析了。实际上,信用卡公司可能比你还早就知道你的信用卡被盗用——每个人都有独特的购物模式。

但这项研究揭示了一种新的危险——我们往往认为在一大批匿名数据中,很难将特定用户与ID对应起来,但这项研究则证实并非如此。个人消费的独特性比我们以直觉得出的结论要高得多。

值得注意的是,女性用户比男性用户更容易识别,高收入用户也比中低收入用户更容易被识别。这份数据集还算全面,因此也可以认为在真实世界中,我们的消费记录也并不安全——这份数据集中,24%用户为女性,76%用户为男性;39%用户收入水平低于收入中值,35%用户收入水平在中值和2.5倍中值之间,还有22%高于2.5倍中值。

毕竟在美国,有60%的交易是通过信用卡来完成的,而用途各种各样,从购买日常用品到支付医疗费用等等不一而足。消费记录能够展现许多信息,而它现在看起来很容易获得。甚至,当支付信息更模糊——例如支付时间范围在半个月之内——时,也有较高的把握可以筛选出使用者的记录。

这篇论文的第一作者是麻省理工学院媒体实验室的伊芙-亚历山大·德蒙鸠依(Yves-AlexandredeMontjoye),他一直在研究人类行为数据和个人隐私的冲突。在2013年,他和同事们发表过一篇论文,证明了因为运动模式的可预见性,只需要知道同一部手机的四个位置点和相应时间,就可以以95%的准确率定位一个用户。[2]一年后,他的另一篇论文表明,通过移动手机通话记录,包括通话时间、地点、时长、联系频率等数据,可以以较高的准确率预测手机用户的性格特质。[3]为了避免网络对个人的侵犯,他还开发了一种叫做OpenPDS的服务,帮助人们保护那些自己不想泄露的个人数据——其中,PDS是PersonalDataStore的缩写。

他可能是在这个以方便为宗旨的信息世界中,为数不多的隐私捍卫战士。但他的努力也许像是堂吉诃德对风车发起的冲锋:在诸多收集行为数据成为标准行为的今天,人们的身份信息基本上昭然若揭。毕竟,就像同在研究网络隐私的普林斯顿大学副教授而阿尔文德·纳拉亚南(ArvindNarayanan)所说的那样,不泄露隐私是“在算法上不可能”的。(编辑:球藻怪)

参考文献:

Uniqueintheshoppingmall:OnthereidentifiabilityofcreditcardmetadataYves-AlexandredeMontjoye,LauraRadaelli,VivekKumarSingh,andAlex“Sandy”PentlandScience30January2015:536-539. deMontjoye,Yves-Alexandre,CésarA.Hidalgo,MichelVerleysen,andVincentD.Blondel.“UniqueintheCrowd:Theprivacyboundsofhumanmobility.”Scientificreports3(2013). deMontjoye,Yves-Alexandre,JakeKendall,andCameronF.Kerry.“EnablingHumanitarianUseofMobilePhoneData.”(2014).

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

机器学习美女博士亲身体验:读博与工作,如何抉择?

问题:我是一名对机器学习充满热情的本科学生,我觉得获得博士学位有点压力。是不是要先入行几年,然后再考虑回到学校读博士更有意义?

14120
来自专栏机器之心

观点 | 读博有风险,入坑需谨慎

Rachel Thomas 是致力于 AI 开放教育的 fast.ai 联合创始人之一,她在本文讨论了在考虑读博之前,如何结合学术界和产业界的视角看待整个行业以...

11110
来自专栏大数据文摘

技术趣闻:2014年十大奇异技术方案

18140
来自专栏AI科技大本营的专栏

一周AI看点 | 沙特授予机器人公民身份,美国信息产业理事会发布《人工智能政策原则》

本期一周AI看点包括行业热点、投融资、业界观点、技术前沿以及应用等方面。 行业热点 解读搜狗招股书:AI成为未来 搜狐仍掌握控制权 目前搜狗确定的六大未来战略则...

36640
来自专栏镁客网

镁客请讲 | 行者无疆张亮:用有限的硬件做极致的VR游戏

如果说任天堂没有办法走进中国市场的很大原因在于中国没有客厅文化,那么遍布街头的行者街机或许就是重新吸引游戏新生代的流量入口之一。

12510
来自专栏ATYUN订阅号

波士顿动力公司准备建立机器狗大军,预计每年生产1000个

根据Inverse的一份报告,波士顿动力公司正在准备建立机器狗大军,到2019年7月之后,公司准备每年生产1000个SpotMini模型。

10030
来自专栏大数据文摘

朱小黄:网络金融风险要害在平台

22240
来自专栏机器人网

机器人和自动化如何逐渐“控制”人类?

Nicholas Carr在它的新书《The Glass Cage: Automation and Us》中对人类未来做出了惨痛的沉思,而就在这本书出版前的一年...

37250
来自专栏大数据文摘

全球最有意思的20家传感器公司

22260
来自专栏大数据文摘

数据主义:如果把全人类及其进化史看作一个数据处理系统……

17870

扫码关注云+社区

领取腾讯云代金券