【业界】机器学习算法的透明度是一把双刃剑,该如何应对?

欧盟的通用数据保护条例(GDPR)将于2018年5月25日生效,它重新定义了组织如何处理欧盟公民个人数据的收集和使用。

关于GDPR的争论,主要是因为这个立法在全球的影响,它引入的严厉罚款,或者更严格的“知情同意”规则作为处理个人数据的条件。

然而,GDPR给企业带来的一个挑战被忽视:公民的解释权。

除了法律细节外,GDPR规定:公民有权获得关于用于处理其个人数据的自动化系统的足够信息,以便能够作出明智的决定,决定是否退出此类数据处理。

解释权一直被忽视。除了对权利本身的低认识之外,新引入的隐私保护会给处理公民数据的公司带来巨大的商业风险。

GDPR引入或扩大的其他公民权利,如反对分析的权利,获得收集的个人数据的权利,或者被忘记的权利–如果全部遵守,这些可能非常昂贵的。但是许多公司发现自己无法提供个人数据处理结果的解释。更糟糕的是,他们往往无法弄清楚如何遵守GDPR规定的义务。

我们的黑箱已经决定

问题在于处理公民个人数据的系统通常依赖机器学习。而且,与标准的“if – then”算法不同,机器学习模型是一种“黑箱”——没有人知道内部发生了什么,也不知道输出背后的精确推理。

这种情况在依赖神经网络的方法中尤为明显。基于决策树的机器学习方法理论上可以决定学习路径。但存在着严重的约束,使得任何说明都非常困难。

让我们来看一个极其简单的例子。假设一家银行有一个机器学习系统来决定申请贷款的人的信用度。基于之前贷款的数据——包括他们的收入,被贴上“好”或“坏”的标签——系统会自行学习预测新的贷款申请是“好”或“坏”。

这一预测的原因基于,由成千上万个模拟神经元组成的复杂网络如何处理数据,以此来确定申请人是否能够负担得起自己的房子。学习过程由数十亿的步骤组成,很难回溯。不仅由于技术上的限制,也因为基础数学理论的基本限制,没有人能确切地说出为什么任何特定的数据样本被贴上“坏”的标签。

处于两难境地

机器学习已经成为处理大型数据集和对样本进行分组的一种选择方法。出于这个原因,对所有处理欧洲公民个人数据的人来说,解释的权利构成了根本性的挑战,而且是不合规的风险。

除非处理公民个人资料的公司完全理解基于机器学习模式做出决策的原因,否则他们会发现自己处于两难境地。他们必须防止他们的客户自动处理他们的个人数据(为了节省成本和保持业务运行),同时保留公司尊重客户的标准解释权的错觉,以及对有争议的结果可以进行人力审查(以便公司可以避免未能遵守GDPR所带来的巨额罚款)。

必要的基础研究

为了能够解释他们的自动化决策过程背后的原因,并赋予他们对客户解释的权利,公司必须彻底的改进,才能理解机器学习如何在我们的理解中取得根本性的改进。简单地说,机器学习过程必须变得透明——如果不是真正的透明,那么对于那些处于GDPR之下的公司来说,要变得合规,至少要少许多的黑箱。

机器学习的透明度是很棘手的问题,它具有不可预测性——如果你能深入研究它所基于的基础数学理论,它是不透明的。因此,解释权问题的解决需要改进机器学习的理论基础。

机器学习的科学家们已经把注意力转移到这个方向上;然而,我们可能需要数年时间才能看到任何GDPR都适用的结果。

透明度:需要还是威胁?

与营销人员和其他处理个人数据并且必须遵守隐私法规的人不同不,网络安全公司喜欢这种机器学习研究的转变。

分配更多的资源来理解模型(即为了透明)意味着更少的资源用于使模型更加准确和有效。

对于我们来说,使机器学习模式准确有效的恶意软件猎手是至关重要的,而机器学习模式的透明度是我们需要做的最后一件事。毕竟,我们不希望看到网络犯罪分子成功地微调他们的恶意代码以通过我们的保护。

但是,我们必须更好地了解机器学习模型是如何工作的。

毫无疑问,改进我们的机器学习模型并使它们更精密是非常重要的。但是,这方面最重要的措施是要有更多的保护层。

取消机器学习模型的工具的出现清楚地表明,纯粹依靠这些模型的保护措施是多么的脆弱。在我看来,测试组织应该开发更复杂的方法来测试安全解决方案的抵御能力,目的在于绕过安全产品的检测机制,以了解这些机构是如何工作的。需要这些高级测试来区分可靠的解决方案,而不是那些只在理想条件下工作的解决方案。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

程序员转型AI,这里有最全的机器学习介绍+应用实例

编译 | AI科技大本营 参与 | 张子琦 编辑 | 明明 机器学习是人工智能的一个分支,已经成为当今最热门的趋势之一。据Gartner公司预测,到2020年,...

33815
来自专栏吉浦迅科技

黄仁勋:透过 GPU 加快人工智能运算速度是崭新的运算模型

Yann LeCun 邀请我出席本周在纽约大学举行的首届“人工智能的未来”学术研讨会,人工智能领域的多位重量级人士齐聚一堂,讨论这项技术的现况及未来发展。我在此...

3579
来自专栏PPV课数据科学社区

重磅 | Facebook机器学习应用负责人J.Candela:如何将人工智能技术应用于产品

Joaquin Quiñonero Candela是Facebook 机器学习应用团队的负责人。他曾在微软剑桥研究院工作,还是微软Bing团队的一员。Joaq...

3395
来自专栏企鹅号快讯

AI与自动驾驶

走进《公共交通资讯》,及时掌握公交领域的行业政策、管理理论、科技信息、专家观点和先进经验... 来源:慧眼看车 ? 近年来,有一个很热门的词----“AI” A...

19110
来自专栏机器之心

专访 | 京东集团副总裁裴健:将学界最优的方法应用在业界最真实的场景中

对于裴健教授来说,过去的一年是极为充实的一年。他在去年 7 月成为新一届 ACM SIGKDD 主席,任期两年,在今年 1 月,他又出任了京东集团副总裁,负责大...

442
来自专栏顾宇的研习笔记

记武汉2016年第一期学习力提升工作坊——MVP验证篇工作坊总体设计

当开始有了第一课的时候,剩下的课程我还没有准备好。只通过一些粗浅的想法形成了课程内容,主要根据学员的第一次的反馈来规划下一次课程的内容。并根据反馈对相应的课程进...

551
来自专栏人工智能头条

TalkingData张夏天:不要专职算法工程师,要数据科学家

1362
来自专栏新智元

北大黄铁军:强AI的“仿真主义”和神经计算机的“五原则”

【新智元导读】过去,大概有四种方法来实现某些人工智能:符号主义,联结主义,行为主义和统计学, 这四种方法在不同的角度抓住了智能的一些特点。北京大学计算机系主任黄...

3378
来自专栏ThoughtWorks

洗白“黑科技”深度学习|商业洞见

[摘要] 最近几年,深度学习备受关注。在2016年的每一项人工智能成就背后,几乎都能看到深度学习的影子。数据的获取、存储、计算能力的增强,以及算法的进步等因素合...

3326
来自专栏人工智能头条

【CSDN AI 周刊】第11期 | 周志华提出深度森林 引发持续热议

1273

扫码关注云+社区