我们可以教机器学习隐私吗?

机器学习需要使用大量数据来对模型进行训练,而我们一般都会将这些训练数据上传到亚马逊和Google等运营商所托管的机器学习云服务上,但这样将有可能把数据暴露给恶意攻击者。那我们是否能够把机器学习当作一种服务(机器学习即服务-MLaaS)来使用并保护我们的隐私呢?

机器学习可以算得上是当今计算机科学领域中最热门的学科之一了,而且很多云服务提供商也开始迅速扩展他们的机器学习服务(MLaaS)。

但是这些MLaaS都附带了一条警告信息:所有的模型训练数据都将暴露给服务操作人员。即使服务操作人员不会专门访问这些数据,某些带有其他动机的人也有可能访问到这些数据。

注:德克萨斯大学的Tyler Hunt以及其他研究人员近期发布了一篇标题为《Chiron:机器学习即服务与隐私保护》的研究论文,并在论文中阐述了一种能够在使用云MLaaS时保护隐私的系统架构,感兴趣的同学可以阅读了解一下。

隐私是双向的

虽然用户可能并不希望透露他们的模型训练数据,但服务提供商那边也有他们自己需要考虑的隐私问题。一般来说,他们并不会允许用户去查看他们MLaaS技术的底层实现算法。

而Chiron这种系统模型可以防止服务操作人员查看训练数据,无论现有的机器学习即服务平台是以怎样的模式运行的,Chiron都不会将训练算法和模型架构暴露给用户,并且只会给用户提供一种黑盒访问模式来访问训练模型。

Chiron使用的是因特尔的软件保护扩展(SGX),这是一种用来增强应用程序代码安全性的架构设计,但仅仅使用SGX还是不够的,Chiron还在Ryoan沙盒中使用了SGX平台,而这是一种分布式的安全保护沙盒,它可以防止不受信任的用户代码在恶意架构中运行。

威胁模型

Chiron的目标是保护云环境中用户的训练数据和训练模型(包括查询和输出数据),因此,我们首先假设整个平台都是不受信任的,包括其中的操作系统和相应的管理程序。攻击者可以是设备的管理员或者服务操作人员,也可以是已经成功入侵服务平台的恶意攻击者。当然了,攻击者还可以是恶意OS开发人员,因为他们可以直接记录下用户的输入/输出信息。

由于训练模型会通过特定的查询语句泄露训练数据,Chiron可以确保只有提供训练数据的用户才能访问训练完成后的模型。即使攻击者能够获取到云基础设施的完整访问权,他们也无法查询到模型并访问训练数据。

虽然现在从表面上看Chiron似乎已经覆盖的足够全面了,但MLaaS的底层硬件还是存在一些安全问题的。

限制因素

SGX本身并不是无懈可击的,因为英特尔的性能监控单元(PMU)允许不受信任的平台深入了解目标系统底层的运行机制以及正在进行的任务。当前的SGX允许拥有高级权限的软件修改内存页表,并查看相关代码以及页数据踪迹,而这将导致非常严重的后果。

由于Chiron的实现基于的是英特尔的SGX,所以它不能使用GPU配合工作,因为GPU暂时还不能很好地支持SGX的相关功能。因此,目前的Chiron实现得还不够完美,可能只有GPU供应商开始认真考虑安全问题时我们才能够更进一步。

性能

除了限制因素之外,Hunt等人还对Chiron的性能进行了测试,并且证明了Chiron可以在保护标准机器学习基础设施的情况下维持设备的正常性能。

总结

在我们这个现代化的海量数据世界里,存在着千千万万个安全漏洞,而攻击者可以用各种各样的方法来利用这些漏洞。没有任何一个系统是绝对安全的,但我们可以通过努力来尽量做得更好。毫无疑问,机器学习绝对会在我们将来的生活中扮演重要角色,如果机器学习能够保护好我们的隐私,那得多安逸?

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2018-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI-vell

音频加白噪-Python+librosa实现

换句话说就是,白噪的每一帧都是随机的值,如果要给一段音频加上白噪的话,给每一帧叠加一个随机大小的值就ok啦

1.3K110
来自专栏CVer

免费资源 | TensorFlow 新工具Seedbank:即用的预训练模型库

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

17040
来自专栏机器之心

资源 | TensorFlow推出新工具Seedbank:即刻使用的预训练模型库

发现并开始新的机器学习项目有点艰难。也许你有一个关于项目的模糊想法,正在寻找从何处入手。或者你正在寻找灵感,看看有哪些可能。

14310
来自专栏软件测试经验与教训

关于BUG率的计算和它的实际意义的思考

79970
来自专栏ATYUN订阅号

Facebook的安全主管谈论如何用机器学习保证用户数据安全

机器学习越来越多地用于改善组织的安全状况,但机器学习模型仍然难以识别上下文。Facebook的安全主管Aanchal Gupta表示,Facebook不仅要实现...

8610
来自专栏AI科技大本营的专栏

经验 | Pytorch还是Tensorflow?英伟达工程师帮你总结了

翻译 | AI科技大本营(rgznai100) 参与 | reason_W 本文作者Dominic Monn,是NVIDIA机器学习工程师。在本文中,作者讲述了...

44850
来自专栏目标检测和深度学习

github最热门的Python项目:深度学习占半壁江山

本篇文章为大家盘点了1月份最热门的Python 项目,本月最热门的开源项目中,深度学习相关的开源项目占据了半壁江山,让我们一起来看下吧! 1 FastPhoto...

336100
来自专栏宏伦工作室

豆瓣电影数据分析和可视化

57970
来自专栏机器人网

机器人速度与分离监控实例

在同一个协同空间内,机器人和操作人员是允许同时在空间内进行移动的。但为了保障操作人员的安全,需要通过安全技术检测人员和机器人之间的距离。

11820
来自专栏人工智能头条

Pytorch还是Tensorflow?英伟达工程师帮你总结了

8220

扫码关注云+社区

领取腾讯云代金券