前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >本体技术视点 | 差分隐私这种隐私保护手段,为何获得了技术巨头的青睐?(上)

本体技术视点 | 差分隐私这种隐私保护手段,为何获得了技术巨头的青睐?(上)

作者头像
本体Ontology
发布2020-11-24 13:58:04
7730
发布2020-11-24 13:58:04
举报
文章被收录于专栏:本体研究院本体研究院

在上期技术视点中,我们为大家带来了以太坊 Eth2的规范 v1.0,这一里程碑事件标志着 Eth2阶段主网即将正式开启。本期技术视点,我们将介绍差分隐私这一较为成熟的隐私保护手段,并分步解释其采用的随机化技术。

自2001年起,知名科技评论期刊《MIT Technology Review》每年都会发布全球十大突破性技术,关注技术的商业应用潜力以及技术对人类社会生活的重大影响,这也被认为是投资和技术应用领域的风向标。今年年初,2020年“全球十大突破性技术”亦如约而至,差分隐私数字货币都出现在了这份榜单上。

上个月,我国央行数字货币 DC/EP 在深圳落地,这将成为数字经济发展的重大推力。数字经济的发展也要求数据生态建设基础设施的逐步完善。在数据大规模协作的今天,数据在采集、存储、提取、挖掘、分析和展现等各个流程中都需要进行隐私保护,以防止个体信息泄漏,从而对个人造成不必要的伤害。

1

差分隐私保护

一般来说,隐私只针对个体用户,而不针对用户群体。隐私保护只需要保护个体用户的属性,而无需保护用户群体的属性。通过对公开的用户群体数据进行分析也无法推测出个体用户的信息。

在讨论隐私数据保护时,一般涉及到两种情况

  • 某公司为了学术研究和数据交流等需要,开放用户数据。其他机构或者个人可以向公开的数据库发起查询请求,返回的查询结果应保证用户隐私;
  • 某公司作为服务提供商,为了提高服务质量,主动收集用户数据。这些通过客户端收集的数据也需要保证用户隐私。

如何保护隐私是信息时代以来的一直讨论的热点。抹去用户唯一识别信息的做法曾被 Netflix 和 AOL 等公司采用来发布信息。事实证明,这种做法无助于隐私保护。人们可以通过背景信息的关联来取得隐私信息。

学术上,有很多隐私保护的方法被提出。例如,-anonymity、-diversity、-closeness、-differential privacy、加密、零知识证明等。其中,差分隐私技术是一种较为成熟的隐私保护手段。差分隐私的提出是为了应对差分攻击。举个例子来说,通过应用差分隐私保护技术。攻击者即使知道100个人的平均薪水和其中99人的平均薪水,他也不能通过对比(差分)这两个信息来获得另外1个人的薪水信息。

差分隐私保护技术主要通过加入随机性来完成。进一步说,对于只有相差一条记录的两个数据集来说,加入随机性,来使得查询他们获得结果相同的概率非常接近。这里,并不能保证概率相同。因为如果概率相同,那么数据就需要完成随机化,公开数据也将变得不可用。差分隐私采用的随机化技术,需要在隐私保护和数据可用性之间达成一个平衡。

2

RAPPOR

RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response),是 Google 推出的隐私保护统计平台。在这里,我们以 RAPPOR 为例,分析如何实现差分隐私。RAPPOR 的示例代码可以在 GitHub 上找到。

RAPPOR 分为两部分,客户端服务器端。客户端以用户真实的隐私数据为输入,经过两次随机化过程生成随机化响应,并把其发送给服务器端。服务器在收到大量客户端的随机化响应后,利用统计分析工具做统计分析。

2.1

客户端

假设用户的真实数据为,客户端使用一个哈希个数为,大小为的 bloom 过滤器。客户端的处理过程如下:

  • 映射。将映射到 bloom 过滤器中,得到;
  • 永久随机化。假设概率,对于0<i<k,设置
B'_i=\left\{ \begin{aligned} 1 && \text{以概率}0.5f\\ 0 && \text{以概率}0.5f \\ B_i && \text{以概率}1-f \end{aligned} \right.
  • 即时随机化。假设概率和,设置满足
\Pr(S_i=1)=\left\{ \begin{aligned} q && \text{如果}B'_i =1\\ p && \text{如果}B'_i =0 \end{aligned} \right.
  • 发送。客户端将(大小为)发送给服务器端

在某些场景下,可以简化客户端的过程来获得更高的效率

  1. One-time RAPPOR. 在一次性收集的场景中,不需要永久化的隐私保护。因此,可以去掉即时随机化过程;
  2. Basic RAPPOR. 如果被收集的字符串集合相对较小而且定义明确,那么可以省略 bloom 过滤器,而让每一个值映射到每个位上。例如,收集的是性别,那么可以定义“男”映射到第0位并置1,“女”映射到第1位并置1。即,用一个确定性的映射代替 bloom 过滤器。此时,h=1;
  3. Basic One-time RAPPOR. 上述两种的结合,采用一次性收集的方式,并采用确定性的映射方法。

未完待续...

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 本体研究院 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
区块链
云链聚未来,协同无边界。腾讯云区块链作为中国领先的区块链服务平台和技术提供商,致力于构建技术、数据、价值、产业互联互通的区块链基础设施,引领区块链底层技术及行业应用创新,助力传统产业转型升级,推动实体经济与数字经济深度融合。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档