前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >个人信息「去标识化」就安全了吗?

个人信息「去标识化」就安全了吗?

作者头像
数说君
发布2022-08-25 18:41:09
7130
发布2022-08-25 18:41:09
举报
文章被收录于专栏:数说工作室数说工作室

内容提要:

一、去个人标识化的数据就安全吗?二、具体有哪些针对隐私数据的攻击方法?1)链接攻击2)同质性攻击3)背景知识攻击三、那么,到底怎么样的数据才是安全的?1)K-匿名2)L-多样性四、怎么规避数据攻击第一,当然是要做好数据安全的评审啦!第二,对有问题的数据,要建议进行泛化处理第三、从 差分隐私 到 隐私计算


一、去标识化的数据就安全吗?

有一份10W人的体检数据,包括了个人的身份证号、手机号个人标识信息,以及身高、体重、血压、心率等健康指标。

首先先明确一个概念:

  • 身份证号、手机号等可以唯一定位到一个人的,叫个人标识符
  • 性别、街道、年龄这样无法唯一定位到一个人的,叫准标识符
  • 身高、体重、血压、心率等,就是敏感属性了。

问:如果把数据中的身份证号、手机号这种个人标识信息去掉,或者脱敏处理,这份数据就安全了吗?

类似的还有投资者的股票交易数据、公民选举倾向、用户的打车数据等做脱敏处理。

答案为否。

因为隐私保护的——

  • 假设前提是:攻击者掌握了很多数据外的背景知识;
  • 要求是:攻击者不能够识别出一份数据中具体个人信息。

即使隐去了个人标识,攻击者仍然可以通过多个准标识符,或者其他属性,定位到一个人。

举个简单的例子,如果有一份你所在单位的员工的打车数据,即使去掉了个人标识,也能根据他的打车目的地,结合其它一些信息,定位到一个人。

“周一下午3点有人从公司打车到了上海虹桥站,这肯定是小王,他周一要去外地出差,走之前还跟我说来着,时间也吻合。”

“周四上午11点有人从南京西路打车到公司,这肯定是小张,他家就住那里,明明是周四早上迟到了,还跟领导说那天打卡机坏了,他打了卡但是没记录”

再比如,有一份“2021年冬奥会的运动员名单“数据,去掉了个人标识,仅仅保留年龄、参与项目这两个字段,依然也能推测出这里面很多数据的归属主题:

年龄

参与项目

45

体操

...

...

29

摔跤

就像这种连国籍字段都没有的数据,依然可以推测出其中的一些数据主体,比如第一个45岁的体操老将,只能是丘索维金娜;29岁的摔跤运动员,结合参赛表也很容易把名单圈定在那几个人范围内,猜中的概率大大增加。

有人说,不能结合这些背景知识,这属于“作弊”,在现实中,黑客就是根据这些背景知识、不同表的中的数据同质性等进行攻击,成功窃取个人隐私。

2006年,Netflix组织了一场推荐算法竞赛,使用的数据是“经过匿名化处理”的用户影评数据,仅仅保留了每个用户对电影评分和评分的时间戳。

但来自UT Austin的两位研究人员,借助了外部IMDB的用户影评数据,从这50万匿名化用户中定位出了2个用户,结果其中1个用户还投诉了Netflix公司,人为其泄露了其隐私,结果Netflix公司不得不取消了该项比赛。

二、具体有哪些针对数据隐私的攻击方法呢?

我们说的攻击,不是明目张胆的进行内网入侵、拖库,也不是通过社工进行诈骗,而是,就通过公开出来的信息,通过关联、分析等计算方法,结合一些背景知识,成功把一条数据定位到个人。

注意这里不是说可以找到ta的身份证号、手机号等这些个人标识的 具体号码,这里说的是 “定位到个人”是指——本来这条数据可能是很多人的,但经过关联之后,这条数据只可能是一个人的,甚至可以知道是哪个人。

具体有哪些攻击方法呢?

1)链接攻击

攻击者通过从别处获取的数据,和本次发布的数据进行链接,从而圈出唯一主体,推测出个人隐私数据。说白了就是不同的表之间,通过一些准标识符进行关联。

上面Netflix的例子就是通过关联分析,将Netflix的匿名数据与IMDB的数据进行关联、比较,从而定位出了2个用户,他们在Netflix的所有影评都一览无余。

根据美国卡内基梅隆大学的 Sweeney 的研究,如果跟其他数据集的信息组合在一起,87%的美国人可以仅用 5位邮政编码、性别、出生年月,就可以唯一的、重新标识出一个美国人。

这可不是什么野鸡研究,这个研究的结论出现在隐私计算领域大名鼎鼎的论文《k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY》里面,就是在这篇论文里面,Sweeney 提出了 “K-匿名” 的隐私保护方法,后面会介绍。

2)同质性攻击

通过挖掘出一个表中,某个准标识符在敏感属性上面的一些同质性,来获取个人隐私数据。

比较抽象,还是体检表为例,就算隐去了个人的标识符,但最终发布的数据中,如果 街道为 “南京南路”的 “肺部检查” 这个属性里面,都是“肺部结节 ”,这就出现了同质性。

体检者所住街道

体检者肺部检查

南京南路

肺部结节

南京南路

肺部结节

南京南路

肺部结节

南京南路

肺部结节

如果我认识的一个人,通过各种途径知道他在这个体检表中,又知道他住南京南路街道,那么我就可以推测出来这个人有“肺部结节”了。

3)背景知识攻击

通过结合背景知识,将看起来匿名的数据识别到具体一个人上。

比如有下面一份具体的体检表,

我认识的一个人,住在南京南路,32岁。但表中有两条数据满足条件,原本我无法定位到这个人。

但这个人是女性,而前列腺结节只能男性会有,所以结合这个背景知识,我可以将前列腺结节排除,从而识别出第一个数据是我认识的这个人,她有高血压。

序号

体检者街道

体检者年龄

手机号后四位

体检问题

1

南京南路

32

1234

高血压

2

南京南路

32

1234

前列腺结节

3

南京北路

42

1628

高血压

4

南京北路

42

1628

脂肪肝

5

南京北路

42

1628

肺部结节

三、那么,到底怎么样的数据才是安全的?

数据去掉了个人标识符就安全了吗?不是,至少还要满足如下条件,

1)K-匿名

简单说,就是一份数据中的 准标识符 的组合,在此份数据中出现次数要有K个(K越大越好,但至少要大于2),才无法定位到个人。

比如一份体检数据

序号

街道

年龄

手机号后四位

体检问题

1

南京南路

32

1234

高血压

2

南京南路

32

1234

前列腺结节

3

南京北路

42

1628

高血压

4

南京北路

42

1628

脂肪肝

5

南京北路

42

1628

肺部结节

无法通过三个准标识符{街道,年龄,手机号后四位}定位到一个人,因为

  • {南京南路,32,1234} 的有2个,满足 “k=2匿名”,就算我知道了其中有一个人是满足这三个条件,但我不知道谁是ta;
  • {南京北路,42,1628} 的有3个,满足 “k=3匿名”,我也不能知道我认识的那个人,是这三个人里面的谁。

2)L-多样性

L-多样性是为了避免“同质性攻击”,如在介绍“同质性攻击”里举的例子,如果 “南京南路”的 “肺部检查” 里面,都是“肺部结节 ”,那么就因为同质性而间接泄露个人隐私。

L-多样性 简单来说 指的是,某个准标识符的组合下,敏感属性具有L个多样性,而不是都是同一个。

在上面的表中,

  • {南京南路,32,1234} 这个组合下,“体检问题”这个敏感属性有2个多样性;
  • {南京北路,42,1628} 这个组合下,“体检问题”这个敏感属性有3个多样性,无法进行同质性攻击。
  • 另外,这三个准标识符,即使任一,或者两两组合,其敏感属性“体检问题”也不是同质的。

四、怎么规避数据攻击

在一个企业里面,如何规避针对数据里这种个人隐私的定位攻击呢?

第一,当然是要做好数据安全的评审啦!

企业里面安全管理的角色,除了要从应用缺陷/漏洞、数据脱敏、去标识化等角度去评估安全性,还应该根据以上的专业知识,去评估数据是否满足K-匿名、L-多样性,以及测试这份数据能否通过同质性、关联分析,以及结合其他背景知识,来还原出个人信息的主体。

第二,对有问题的数据,要建议进行泛化处理

如果一份数据无法满足K-匿名和L-多样性,即仅靠某几个准标识符的组合,就能够定位到一个人,那这份数据就无法发布出来、无法使用了吗?

也不是,这个时候可以对数据进行一些泛化处理,比如某数据中:

  • 年龄=32岁的人,“体检问题”这个敏感属性是同质的,都是“脂肪肝”;
  • 年龄=42岁的人,“体检问题”这个敏感属性也是同质的,都是“高血压”。

那么根据前面所说,如果我认识一个人,32岁,在这个数据里面,我就能知道ta肯定有脂肪肝。

这个时候,我们可以把年龄这个字段进行泛化,从精确数字,变成一个范围,比如30-50岁,那么这两个人就合并到一类里面了,就变成:

  • 年龄=30-50岁之间,“体检问题”这个敏感属性有2个多样性。

对不满足K-匿名的也可以采用类似操作。

但其实,L-多样性也是有局限的,比如有一份公民犯罪前科的数据,里面有一列敏感属性是“是否有刑事记录”(应该很敏感了),99.9%的人都会是“否”,所以在某些准标识符,或者组合下这个属性肯定会同质,这个想想也是正常的。

但如果此时为了追求L-多样性,人为进行泛化呢?可以思考一下会有什么后果,这反而会加大泄露个人的隐私.....

第三、从 差分隐私 到 隐私计算

简单来说,就是给输出或发布的数据注入一些随机噪声,使得个体的结果模糊化,但又不影响总体数据的一些统计性质,这样这些数据虽然定位不到个体,但仍然可以用来做一些统计分析,不影响结果。

在差分隐私的技术下,攻击者即使能够掌握除关于这份数据的所有背景知识,哪怕已经掌握了除某条数据之外的所有数据信息,这条数据的隐私也不会泄露

隐私怎么定义、噪音怎么注入,具体公式就不上了,后面应该还会有机会再进行介绍的,因为还会专门讲针对AI模型的攻击(比如模型萃取攻击、逆向攻击等),到时候放一起,先关注公众号

而差分隐私,已经是当下非常火的隐私计算的范畴了。

除差分隐私之外,隐私计算的基础算法还有 同态加密,动态脱敏,混淆电路等,它们是现在安全多方计算、联邦学习等这些隐私保护框架的理论基础。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
隐私计算
腾讯云隐私计算(Privacy Computing)是腾讯云推出的以联邦学习(FL)、安全多方计算(MPC)、可信执行环境(TEE)等技术为基础的平台,产品使原始合作多方数据不出本地即可完成联合建模、安全求交(PSI)、隐匿查询(PIR)、安全统计分析等功能。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档