只需4组数据,还原你的购物模式

再也别乱扔信用卡小票了。在1月30日的《科学》杂志上,来自麻省理工学院媒体实验室、丹麦奥尔胡斯大学和新泽西罗格斯大学的几名科学家发表了一篇论文,证明了仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定持卡人的所有消费记录,准确率可达90%;甚至仅仅有较模糊的支付数据,也很有可能泄露消费历史。

研究者们取得了一个匿名信用卡消费数据集,其中包括了来自某个经合组织国家的110万人在1万个商家的消费记录。这份数据集很简单,只有用户ID、支付数额、精确到天的支付时间和精确到商家的地点,而没有明显的身份信息,没有电话号码,没有姓名,也没有住址。

但是即便如此,通过对消费空间、时间和消费能力的对比,他们还是能够将消费记录和某个用户ID对应起来。

左图表示了用户ID为7abc1a23的持卡人按照时间顺序排列的消费行为。每笔消费的金额被归到不同的区间。

这意味着,只要知道你的几次信用卡交易具体信息,就可以知道你的所有信用卡消费记录。这可能不是件新鲜事,毕竟信用卡数据早已用于个人信用评价、欺诈检测和购物模式分析了。实际上,信用卡公司可能比你还早就知道你的信用卡被盗用——每个人都有独特的购物模式。

但这项研究揭示了一种新的危险——我们往往认为在一大批匿名数据中,很难将特定用户与ID对应起来,但这项研究则证实并非如此。个人消费的独特性比我们以直觉得出的结论要高得多。

值得注意的是,女性用户比男性用户更容易识别,高收入用户也比中低收入用户更容易被识别。这份数据集还算全面,因此也可以认为在真实世界中,我们的消费记录也并不安全——这份数据集中,24%用户为女性,76%用户为男性;39%用户收入水平低于收入中值,35%用户收入水平在中值和2.5倍中值之间,还有22%高于2.5倍中值。

毕竟在美国,有60%的交易是通过信用卡来完成的,而用途各种各样,从购买日常用品到支付医疗费用等等不一而足。消费记录能够展现许多信息,而它现在看起来很容易获得。甚至,当支付信息更模糊——例如支付时间范围在半个月之内——时,也有较高的把握可以筛选出使用者的记录。

这篇论文的第一作者是麻省理工学院媒体实验室的伊芙-亚历山大·德蒙鸠依(Yves-AlexandredeMontjoye),他一直在研究人类行为数据和个人隐私的冲突。在2013年,他和同事们发表过一篇论文,证明了因为运动模式的可预见性,只需要知道同一部手机的四个位置点和相应时间,就可以以95%的准确率定位一个用户。[2]一年后,他的另一篇论文表明,通过移动手机通话记录,包括通话时间、地点、时长、联系频率等数据,可以以较高的准确率预测手机用户的性格特质。[3]为了避免网络对个人的侵犯,他还开发了一种叫做OpenPDS的服务,帮助人们保护那些自己不想泄露的个人数据——其中,PDS是PersonalDataStore的缩写。

他可能是在这个以方便为宗旨的信息世界中,为数不多的隐私捍卫战士。但他的努力也许像是堂吉诃德对风车发起的冲锋:在诸多收集行为数据成为标准行为的今天,人们的身份信息基本上昭然若揭。毕竟,就像同在研究网络隐私的普林斯顿大学副教授而阿尔文德·纳拉亚南(ArvindNarayanan)所说的那样,不泄露隐私是“在算法上不可能”的。(编辑:球藻怪)

参考文献:

Uniqueintheshoppingmall:OnthereidentifiabilityofcreditcardmetadataYves-AlexandredeMontjoye,LauraRadaelli,VivekKumarSingh,andAlex“Sandy”PentlandScience30January2015:536-539. deMontjoye,Yves-Alexandre,CésarA.Hidalgo,MichelVerleysen,andVincentD.Blondel.“UniqueintheCrowd:Theprivacyboundsofhumanmobility.”Scientificreports3(2013). deMontjoye,Yves-Alexandre,JakeKendall,andCameronF.Kerry.“EnablingHumanitarianUseofMobilePhoneData.”(2014).

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

舆情分析:大数据时代如何应对社会热点

正确回应社会热点舆情、推动国家治理能力和治理体系的现代化,已成为社会各阶层的共识。本文以近年来几个舆情案例的得失为例,研究新媒体环境下舆情应对的规律。 近年热点...

4527
来自专栏新智元

机器学习美女博士亲身体验:读博与工作,如何抉择?

问题:我是一名对机器学习充满热情的本科学生,我觉得获得博士学位有点压力。是不是要先入行几年,然后再考虑回到学校读博士更有意义?

1122
来自专栏大数据文摘

[译]投资银行如何利用大数据预测行情

2653
来自专栏大数据文摘

全球最有意思的20家传感器公司

1856
来自专栏大数据文摘

朱小黄:网络金融风险要害在平台

2074
来自专栏机器人网

谁是智能家居的未来:物联网or机器人?

高科技产业再次走到一个岔路口:对于未来的智能家居,我们需要一台中央计算机,告诉我们什么时候擦地板,什么时候清洁窗户和煮早餐?还是需要一台全能型机器人,帮助我们完...

2917
来自专栏AI科技大本营的专栏

一周AI看点 | 沙特授予机器人公民身份,美国信息产业理事会发布《人工智能政策原则》

本期一周AI看点包括行业热点、投融资、业界观点、技术前沿以及应用等方面。 行业热点 解读搜狗招股书:AI成为未来 搜狐仍掌握控制权 目前搜狗确定的六大未来战略则...

3444
来自专栏大数据文摘

技术趣闻:2014年十大奇异技术方案

1644
来自专栏机器之心

观点 | 读博有风险,入坑需谨慎

Rachel Thomas 是致力于 AI 开放教育的 fast.ai 联合创始人之一,她在本文讨论了在考虑读博之前,如何结合学术界和产业界的视角看待整个行业以...

921
来自专栏机器人网

百年经典:法约尔对未来工程师的建议

你们将幸福地想到自己终于是有用之才了,你们有理由希望通过劳动获得令人尊重的地位。   你们将来需要的素质并非完全是今天让你们名列前茅的那些东西。比如健康,行...

2684

扫码关注云+社区