上一期我们介绍了差分隐私这种隐私保护手段。在2020年“全球十大突破性技术”的评选中,差分隐私和数字货币都出现在了这份榜单上。简单来说,差分隐私技术是一种较为成熟的隐私保护手段,这一技术的提出是为了应对差分攻击。一个通俗易懂的例子是:通过应用差分隐私保护技术,攻击者即使知道100个人的平均薪水和其中99人的平均薪水,他也不能通过对比(差分)这两个信息来获得另外1个人的薪水信息。
图片来源于网络
差分隐私保护技术主要通过加入随机性来完成,所采用的随机化技术,需要在隐私保护和数据可用性之间达成一个平衡。
上期回顾:本体技术视点 | 差分隐私这种隐私保护手段,为何获得了技术巨头的青睐?(上)
本期我们将继续讨论 Google 的差分隐私技术 RAPPOR,从服务器端、参数选择方面继续探讨。
2.2
服务器端
在客户端提交的数据中,我们为了保护隐私使用了 bloom 过滤器和有目的随机化过程,因此服务器的分析过程需要复杂的统计技术。
为了更加方便地分析,在客户端开始收集数据前,服务器端设置个 cohort,每一个客户端被永久并随机地分配到一个 cohort 中。在向服务器发送数据时,每个客户端必须同时发送其所属的 cohort。每个 cohort 中的 bloom 过滤器使用的哈希函数集合是从个哈希函数中挑出的某个集合,以来减少碰撞的可能性。同时运行个 cohort 带来的冗余极大提高了 FPR(false positive rate)。
的选择必须认真考虑。如果太小,碰撞的可能性还是会很大;如果太大,由于每一个 cohort 的采样空间变小,它能提供的信息就不足够。
服务器采用以下方式来处理收集到的数据:
2.3
参数选择
永久随机化满足参数为的差分隐私特性。
对于即时随机化,首先可以看到,如果bloom过滤器的某位是,那么 在中该位是的概率 为;
反之,如果bloom过滤 器的某位是,那么在中该位是的概率 为。
永久随机化满足参数为的差 分隐私特性。
从上可以看到,,,,控制着隐私保护的隐私水平,而隐私水平可以根据数据收集构成中的坏境不同,来选择不同的值。在网络追踪分析中,的一个典型选值区间是。越小,代表了更强的隐私保护。因此,缩小和,都会提供更强的永久随机化隐私保护。可以看到,对于即时随机化的隐私保护水平来说,和都取0.5时,将提供最强的隐私保护,但同时看到数据可用性变得很低。
Bloom 过滤器的大小, cohort 的个数以及哈希函数个数必须提前指定。和的选择和隐私水平无关。他们的选择,以及的选择会影响服务器从客户端报告中提取分析结果的效率。从 google 的实验上看出,只有当改变哈希函数个数时,才体现出较为清晰的对 precision rate 和 recall rate 的影响(h=2时最佳)。当改变其他两个值时,没有明确体现出清晰的结论。
在选取 , 和的情况下,能确定采样值的个数上限 和总采样数 之间存在关系:。这个上限也只有在原始数据满足均匀分布,采用 Basic One-time RAPPOR 时才能在理论上达到。而采用原版的 RAPPOR 能确定采样值的个数会更少。
3
结语
差分隐私作为一种本地化数据隐私保护技术,可以很好地保护用户信息不被泄漏,充分保护个体信息安全性。
图片来源于网络
在数据协作方面,本体的去中心化身份机制 ONT ID 和去中心化数据框架 DDXF 支持自我主权身份和数据管理、流转和交换。在数据认证和隐私保护方面,本体也采用多种密码技术手段来达到数据在存储和流转方面的安全性。欢迎通过微信公众号后台或 contact@ont.io 联络我们。