前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >即使对数据作了匿名化处理,找出你是谁还是很容易

即使对数据作了匿名化处理,找出你是谁还是很容易

作者头像
大数据文摘
发布2019-08-08 18:02:44
6920
发布2019-08-08 18:02:44
举报
文章被收录于专栏:大数据文摘大数据文摘
大数据文摘出品

来源:technologyreview

编译:李雷、夏雅薇

数字时代的生活使我们不断留下各种数据痕迹,大部分都不是那么有趣,比如外卖订单、网购记录等,其中一些是涉及个人隐私的,如医疗诊断信息、个人性取向以及纳税记录。

各种公共机构保护个人身份信息的最常用方法是数据匿名化。这包括剥离明显的可识别信息(去标识),如姓名、电话号码、电子邮件地址等。数据会模糊处理,数据表中的某些数据会被整列删除(抑制),并且引入一定“噪声”。这些隐私政策确保我们不会被定位到个人。

然而,Nature Communications期刊发表的一项新研究表明,情况并非如此。

来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。你可以在这个链接中输入你的邮政编码、性别和出生日期来查看自己的得分。

链接:

https://cpg.doc.ic.ac.uk/individual-risk/

平均而言,在美国,使用这三个信息(邮编、性别、出生日期),有81%的概率可以在“匿名”数据集中准确地追踪到你。一个住在马萨诸塞州的人,如果你手里有与他相关的15个人口统计特征数据,那你有99.98%的概率可以在任何匿名数据库中找到他。

伦敦帝国理工学院的研究员,该项研究的作者之一Yves-Alexandre de Montjoye说:“你掌握的信息越多,识别错误的可能性就大大降低。”

这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括美国人口普查信息。研究人员将这些数据输入到该机器学习模型中,让其学习哪些数据组合近乎唯一,哪些组合不唯一,然后给出正确的识别概率。

这并非第一个研究从匿名数据库中识别个人的项目。在2007年的一篇论文中,只需少量的Netflix电影评分数据就可以像社保号码一样轻松识别一个人。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。de Montjoye说,数据集的不完整(泛化和抑制)并不能保护人们的隐私。

匿名识别并非都是坏事,今年早些时候,《纽约时报》的记者使用相同的识别技术曝光了特朗普从1985年到1994年的纳税申报表。但是,同样的方法也可能被那些想要进行身份欺诈或获取信息用于勒索的人所使用。

“问题在于我们认为数据在匿名化后是安全的,各种机构和公司也告诉我们这么做是安全的,但事实证明不是。”de Montjoye说。

英国数据隐私公司Privitar的研究负责人Charlie Cabot认为,要想真的高枕无忧,应该使用差分隐私(differential privacy)技术,这是一种复杂的数学模型。利用这项技术,公司间可以共享有关用户习惯的统计数据,但同时也可以保护个人身份信息。

这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。

相关报道:

https://www.technologyreview.com/s/613996/youre-very-easy-to-track-down-even-when-your-data-has-been-anonymized/

实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档