【业界】机器学习算法的透明度是一把双刃剑,该如何应对?

欧盟的通用数据保护条例(GDPR)将于2018年5月25日生效,它重新定义了组织如何处理欧盟公民个人数据的收集和使用。

关于GDPR的争论,主要是因为这个立法在全球的影响,它引入的严厉罚款,或者更严格的“知情同意”规则作为处理个人数据的条件。

然而,GDPR给企业带来的一个挑战被忽视:公民的解释权。

除了法律细节外,GDPR规定:公民有权获得关于用于处理其个人数据的自动化系统的足够信息,以便能够作出明智的决定,决定是否退出此类数据处理。

解释权一直被忽视。除了对权利本身的低认识之外,新引入的隐私保护会给处理公民数据的公司带来巨大的商业风险。

GDPR引入或扩大的其他公民权利,如反对分析的权利,获得收集的个人数据的权利,或者被忘记的权利–如果全部遵守,这些可能非常昂贵的。但是许多公司发现自己无法提供个人数据处理结果的解释。更糟糕的是,他们往往无法弄清楚如何遵守GDPR规定的义务。

我们的黑箱已经决定

问题在于处理公民个人数据的系统通常依赖机器学习。而且,与标准的“if – then”算法不同,机器学习模型是一种“黑箱”——没有人知道内部发生了什么,也不知道输出背后的精确推理。

这种情况在依赖神经网络的方法中尤为明显。基于决策树的机器学习方法理论上可以决定学习路径。但存在着严重的约束,使得任何说明都非常困难。

让我们来看一个极其简单的例子。假设一家银行有一个机器学习系统来决定申请贷款的人的信用度。基于之前贷款的数据——包括他们的收入,被贴上“好”或“坏”的标签——系统会自行学习预测新的贷款申请是“好”或“坏”。

这一预测的原因基于,由成千上万个模拟神经元组成的复杂网络如何处理数据,以此来确定申请人是否能够负担得起自己的房子。学习过程由数十亿的步骤组成,很难回溯。不仅由于技术上的限制,也因为基础数学理论的基本限制,没有人能确切地说出为什么任何特定的数据样本被贴上“坏”的标签。

处于两难境地

机器学习已经成为处理大型数据集和对样本进行分组的一种选择方法。出于这个原因,对所有处理欧洲公民个人数据的人来说,解释的权利构成了根本性的挑战,而且是不合规的风险。

除非处理公民个人资料的公司完全理解基于机器学习模式做出决策的原因,否则他们会发现自己处于两难境地。他们必须防止他们的客户自动处理他们的个人数据(为了节省成本和保持业务运行),同时保留公司尊重客户的标准解释权的错觉,以及对有争议的结果可以进行人力审查(以便公司可以避免未能遵守GDPR所带来的巨额罚款)。

必要的基础研究

为了能够解释他们的自动化决策过程背后的原因,并赋予他们对客户解释的权利,公司必须彻底的改进,才能理解机器学习如何在我们的理解中取得根本性的改进。简单地说,机器学习过程必须变得透明——如果不是真正的透明,那么对于那些处于GDPR之下的公司来说,要变得合规,至少要少许多的黑箱。

机器学习的透明度是很棘手的问题,它具有不可预测性——如果你能深入研究它所基于的基础数学理论,它是不透明的。因此,解释权问题的解决需要改进机器学习的理论基础。

机器学习的科学家们已经把注意力转移到这个方向上;然而,我们可能需要数年时间才能看到任何GDPR都适用的结果。

透明度:需要还是威胁?

与营销人员和其他处理个人数据并且必须遵守隐私法规的人不同不,网络安全公司喜欢这种机器学习研究的转变。

分配更多的资源来理解模型(即为了透明)意味着更少的资源用于使模型更加准确和有效。

对于我们来说,使机器学习模式准确有效的恶意软件猎手是至关重要的,而机器学习模式的透明度是我们需要做的最后一件事。毕竟,我们不希望看到网络犯罪分子成功地微调他们的恶意代码以通过我们的保护。

但是,我们必须更好地了解机器学习模型是如何工作的。

毫无疑问,改进我们的机器学习模型并使它们更精密是非常重要的。但是,这方面最重要的措施是要有更多的保护层。

取消机器学习模型的工具的出现清楚地表明,纯粹依靠这些模型的保护措施是多么的脆弱。在我看来,测试组织应该开发更复杂的方法来测试安全解决方案的抵御能力,目的在于绕过安全产品的检测机制,以了解这些机构是如何工作的。需要这些高级测试来区分可靠的解决方案,而不是那些只在理想条件下工作的解决方案。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】机器学习正在五个方面重塑我们的世界

机器学习的技术越来越成熟,与大数据结合在一起为我们的世界带来了巨大的变化。对此,大数据专家Bernard Marr总结了机器学习在听、说、读、写、看五个方面如何...

2218
来自专栏人工智能快报

人工智能平台可有效预测网络攻击

现今使用的安全系统通常分为两类:基于人或机器的安全系统。所谓“分析师驱动的解决方案”(analyst-driven solutions)基于的是真人专家所建立的...

3235
来自专栏数据派THU

深鉴科技联合创始人汪玉:针对机器视觉的深度学习处理器(附视频、PPT下载)

本内容选自清华大学电子系副教授、深鉴科技联合创始人汪玉于2018年4月27日在清华大学主楼接待厅数据科学研究院举办的第二届“大数据在清华”高峰论坛所做题为《针对...

903
来自专栏大数据文摘

业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

650
来自专栏新智元

【亚马逊加盟对抗谷歌联盟ONNX】微软Facebook深度学习开源联盟再添盟友

编辑:弗格森 【新智元导读】 除了亚马逊以外,AMD、ARM、华为、 IBM、英特尔、Qualcomm都宣布将支持ONNX,形成强大的深度学习开源联盟,谷歌目...

3478
来自专栏机器之心

深度学习:远非人工智能的全部和未来

选自Linkedin 作者:Fabio Ciucci 机器之心编译 参与:黄小天、路雪 人工智能的这一波热潮毫无疑问是由深度学习引发的,自吴恩达等人 2011 ...

2538
来自专栏LiveEdu在线科技教育平台

10条建议分享:帮助你成为与硅谷工程师一样优秀的程序员

成为一名硅谷的工程师可能是很多中国程序员的梦想。硅谷被公认是目前世界上云集了最多优秀工程师和知名科技公司、创业公司的地方,吸引了全球无数投资者、创业者和工程师的...

1839
来自专栏AI科技评论

观点 | UC伯克利教授迈克尔·乔丹采访:人类对机器学习期待过高,机器学习的发展还应当更广阔

AI 科技评论按:2017年6月21日至22日,腾讯·云+未来峰会在深圳举行。在主题为“机器学习:创新视角,直面挑战”的演讲 - AI 科技评论后,AI 科技评...

2646
来自专栏AI科技评论

业界 | 更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

尽管深度学习已经在近期取得了一些进步,但在其在自动摄影方面依旧面临着一项极具挑战的难题:相机能够自动抓拍到精彩的瞬间吗?

673
来自专栏FD的专栏

什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

412

扫描关注云+社区