论文 | 预测 API 从谷歌、亚马逊等大平台盗取机器学习算法

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

【新智元导读】Cornell Tech 研究人员发现,使用预测 API 通过反向工程,能够从谷歌、亚马逊等大平台“偷”机器学习算法,准确率超过99%。不仅如此,偷完算法后,还可以强制它生成训练用的数据样本。这意味着不仅能够从谷歌、微软偷走人工智能产品并且免费使用它们,大公司独有的数据也面临威胁。

无数金钱被投入去设计精密的人工智能算法,但只要有一扇小小的门开着,这些算法就可能被偷走。

AI 算法和源数据能被轻而易举地偷取

现在,有一项研究发现,只需使用 API 就能通过反向工程得到机器学习算法,准确率超过 99%。这意味着能够从微软、IBM 这些公司偷走人工智能产品,免费使用它们。只有单一机器学习 API的小公司可能会失去全部竞争优势。

而且,复制了算法之后,研究者还可以强制它生成潜在的私密数据样本。如果这个算法是基于用户数据的,那么所有这些用户信息都可能泄露。

“事后想来,原理其实很浅显。”该研究的共同作者同时也是 Cornell Tech 副教授的 Thomas Ristenpart 说,“这就像高中程度的练习题,只是把一系列高中水平的等式列出来,然后求解函数。”

虽然讲得这么简单,这种攻击当然比高中数学更复杂——需要根据几十到几万数量不等的数据来重建隐藏算法的工作模型。

Google,Amazon,Microsoft 这些公司允许开发者上传算法到云中,或使用云服务公司专有的AI算法,两者都通过 API。由于上传算法时数据需要在云服务器上停留,公司会对以这种方式使用专有算法收费,但不需交出代码。

试想一下,你打了个电话给机器学习API,就像给你的朋友发短讯寻求着装建议。

你发一句“这件衬衫跟这条裤子搭配怎么样?”,并附上一张照片。你的朋友可能回复你,“不错,我100%肯定。”

提问,然后你会得到回复,以及对方对回答的自信程度。多数API正是这样起作用的:发送特定的数据,然后收到包括了置信度值的答案。

现在,请想象你要一下子给你的朋友发几千条短讯,询问哪件衬衫搭配哪条裤子,要不要搭配围巾以及有多少种颜色。虽然你的朋友要疯掉了,不过你最后还是能得到他们明确的建议。这就是这种攻击的原理。研究者通过API,向AI算法提出数以千计的标准请求,然后把它对某个问题的观点综合起来。

研究者发现,算法的复杂度反映了偷走它的难度。简单的用于预测肿瘤是否恶性或败血症的死亡率之类问题的 yes-no 算法,只需41个请求就能偷到,用谷歌的支付系统,只需不到 0.1 美元。复杂的神经网络,比如用于识别手写文本的算法,平均需要108,200次请求,把偷到的和原始的算法对比测试,能达到98%的准确率。

论文中,原始训练数据(上)和从偷到的算法中恢复的数据(下)(Tramér et al.)

不过,这种攻击方式受限于某些因素:因为 API 每次使用都要付费,超过100,000次使用,这种方法就会非常昂贵,而且会引起服务提供方的怀疑。Ristenpart 说,深度神经网络很棘手,尤其当它是数个不同算法的组合时。

此外,研究人员偷到一个算法后,还得出了用于训练该算法的数据。他们袭击测试的是一个公开的人脸数据集,结果发现每张脸都能重建出来。这个算法能够记住每张脸的特征,甚至能生成每个人的肖像。

研究人员已经将这些袭击的可能性告诉了 Google 和 Amazon,后者表示“十分有趣”,会将这一发现转告给用户。

论文:使用预测 API 偷取机器学习模型

Florian Tramer、Fan Zhang、Ari Juels、Michael K. Reiter & Thomas Ristenpart

摘要

机器学习(ML)模型可能因为敏感的训练数据、商业价值或者安保方面的应用而被视为机密。现在,带有公共访问查询接口的机密 ML 模型部署得越来越多。ML-as-a-service(MLaaS,“预测分析”)系统就是这样一个例子:有些允许用户使用可能会涉及敏感信息的数据训练模型,并且向其他人按访问次数收费。

模型保密性和公共访问之间的矛盾促使我们对模型抽取袭击展开调查。在这样的袭击中,使用黑箱访问(black-box access)、并不了解一个 ML 模型参数的对手,想要复制(也即“偷取”)该 ML 模型。与经典的学习理论场景不同,MLaaS 服务可以接受部分特征向量作为输入,可以将预测的置信度值包含进来。通过这样的操作,我们对目标 ML 模型进行了简单、高效的袭击,用几近完美的保真度抽取了包括逻辑回归、神经网络、决策树等常见模型。我们在 BigML 和 Amazon Machine Learning 展示了这些袭击。此外,我们还证明从模型的输出中去掉置信度值等方法并不能排除模型遭受攻击的威胁。我们的结果表明,需要谨慎部署 ML 模型和开发新的应对模型抽取的方法。

研究人员袭击亚马逊机器学习云平台的测试结果

讨论

“提取”也属于一种学习。使用论文中描述的方法,能够生成一些不错的训练数据,但是服务提供方可以采取措施防止信息被窃取。

当然,使用这种方法,就算能够从谷歌那里偷到全部的数据,所需的访问次数以及金额也一定大到不现实。

不过,并不一定要偷来全部的数据。此外,就像研究者在论文里写的,“在谷歌云平台,一次抽取袭击花费不到 0.1 美元”,用这样的价格换取一个机器学习算法,也算颠覆算法经济模式了。

编译来源:

  1. http://qz.com/786219/stealing-an-ai-algorithm-and-its-underlying-data-is-a-high-school-level-exercise/
  2. https://news.ycombinator.com/item?id=12557782

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-09-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

AGI:我与世界的互动是不是如我所愿。动作条件CycleGAN好奇心探索 代码开源

Curiosity-driven Exploration by Self-supervised Prediction

1072
来自专栏CVer

免费资源 | 机器学习 新手快速入门

昨天正式开启了CVer免费赠书:送7本实体书(包邮) 活动,其中、有 4种赠书方式,Amusi也觉得赠的书不多,反而赠书方式多了,甚至觉得自己往营销方面跑了。因...

2582
来自专栏量子位

《黑镜》黑科技成真 | 解码脑电信号,AI重构脑中的画面

原作 TIM COLLINS Root 编译自 Dailymail 量子位 出品 | 公众号 QbitAI 上周五,一贯借黑科技刻画人性阴暗面的英剧《黑镜》刚出...

3309
来自专栏vue学习

读《学习之道》— 记忆技巧多多益善

不用文字而用思维图像来记忆事物,你能更加轻松达到专家水平,换句话说,学会用视觉化方法处理数学和科学概念是达到大师境界强有力的手段,同事运用其他记忆技巧也会大幅增...

952
来自专栏大数据文摘

Neurons字幕组 | 2分钟看AI通过2D照片设计出面部3D模型(附论文下载)

1822
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

3666
来自专栏ATYUN订阅号

Nvidia用合成数据集训练机器人拾取物体,胜过用真实数据训练的机器人

Nvidia的研究人员已经找到了一种方法,可以使用在虚拟环境中创建的数据来训练机器人在现实世界中拾取物体。用合成数据训练的卷积神经网络系统可以使用Baxter机...

1002
来自专栏企鹅号快讯

机器视觉技术原理解析及应用领域

01 简介 机器视觉是一项综合技术,包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术(图像增强和分析算法、图...

8936
来自专栏养码场

吆喝科技CTO的纯干货分享:直击A/BTesting和美团推荐技术关键点!

养码场的线上课程,以技术人员为核心的学习、交流、分享社群,全方位服务技术人和技术创业者。这里聚集了众多BAT/美团/京东/滴滴/360/小米/网易等知名互联网公...

1384
来自专栏PPV课数据科学社区

21个必知的数据科学面试题及答案

Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo 正则化是给模型添加一个调优参数的过程,来引导平滑以防止过拟合。(参考KDnugge...

3547

扫码关注云+社区

领取腾讯云代金券