专栏首页AI科技评论数据不能乱用,新的十年,企业为什么要使用数据共享新范式?

数据不能乱用,新的十年,企业为什么要使用数据共享新范式?

作者 | 蒋宝尚

编辑 | 贾 伟

欧洲的那本《通用数据保护条例》算是数据隐私保护领域的圣经了。

自2018年5月份实施以来,已经开出上亿美元的罚单。

据不完全统计,在近两年的时间内,因违法GDPR而被开出的罚单规模达到了1.26亿美元,其中最大的一张罚单是由法国政府对谷歌开出的5700万欧元的罚单。

那么如此严格的立法监管在保护我们隐私的同时,让我们损失了什么?

数据隐私保护并不是一蹴而就

在过去十几年中,我们的社会已经习惯了“免费”的网络服务。免费的搜索引擎,免费的电子邮件以及免费的网上视频观看。

当数据能够带来何种价值尚不明确时,这种交易似乎是划算的。

那时的用户们毫不犹豫的选择相信存储他们信息的公司,并尽情享受公司提供的无缝连接的在线体验。

但是随着人工智能的崛起和数据分析能力的大幅度的提升,一些公司可以将用户的“随机轨迹”转换成有价值的见解。

定向营销、基于位置的搜索、个性化促销逐渐成为数据应用的新战场。用户的各种数据不断整合,用户行为粒度不断细化,个人健康风险和选举选择变得更加预测.......

但是,数据作为“新石油”在推动增长和创新的同时,也在一定程度上侵犯了用户的隐私权。例如,当年的剑桥分析事件就是一个典型案例。

事件起因是一组学者收集了大量用户数据,并与剑桥分析公司分享了这些信息,剑桥分析公司是一家商业数据分析公司,据称这家公司在2016年总统选举中用这些方法影响选民。

现在也有事实证明,智能家居也在进一步危害了隐私。例如2019年的4月份,亚马逊智能音箱Echo也被曝出隐私问题;同年7月份,比利时广播公司(VRT)也曝出谷歌聘请的合同工收听人们与谷歌智能音箱的对话录音。

这些隐私问题都在意味着大众对免费数字服务的热情,逐渐转向了对大型科技公司及数据共享做法厌恶。因此数据监管一词应运而生,这也标志着人们对机构的信任度处于历史的最低水平。

大众对立法的呼声越来越高,那么立法是重新恢复秩序的正确方法么?

监管能否恢复信任?

欧美立法者最早接受了监管的挑战,2016年4月27 欧洲通过《通用数据保护条例》,并于2018年5月25日正式生效。

《条例》为欧盟公民带来了一套新的隐私权利。它规定,欧盟消费者将有权知道自己的哪些数据被社交媒体公司保存了下来,并有权要求删除这些数据。新规实施以后,违规公司最高可能面临全球年收入4%的巨额罚款。

但是健全的法律体系保护数据的隐私固然重要,可是也造成了一些意想不到的后果。隐私法规的问题在于:它限制了组织对数据的处理方式,限制各个领域的协作,对经济产生了不利影响,毕竟分工和协作才是人类进步的根源。

另一方面,个人信息保护相关法律的出台直接影响与数据产业相关的公司业务。例如由于于“通用数据保护条例”的提出,QQ国际版于2018年的5月20日后不再为欧洲用户提供服务,QQ国际版本退出了欧洲市场。

Google也因违反反垄断法,被欧盟要求课以史上最贵27亿美元罚金。当时谷歌CEO Sundar Pichai提出警示称:由于裁决,安卓可能不再免费,可能分配模式会变成像它的竞争对手苹果一样。

也就是说,相关数据安全保护措施的出台,使得有些服务我们没有办法享受到了。

所以,欧洲监管了,结果Google被罚,腾讯跑了。法律的出台必然会在某种程度上促进社会和行业的发展,遵守法律和提供更好的服务不是不可兼得的事情。

那么除了监管,还有别的方式来实现共赢么?

超越监管,新技术打破数据孤岛

当前出台的法规显然没有考虑到数字经济环境下的协作机会。

2018年5月美国国立卫生研究院(National Institutes Of Health)关于2型糖尿病的研究暂停。原因是这项研究包括芬兰的健康记录,根据GDPR,欧盟的法律不允许再向美国研究人员提供这些记录。

隐私得到了保护,合作者没有得到分享的数据,大规模数据集没有得到有效利用,医疗技术无法进步。最终付出代价的患者有可能等不到新技术的出现,从而丧失生命。

如果由于数据隐私法规而无法进行合作,从而阻碍我们进步,那么我们的未来是否会发生倒退?

会不会使得企业因为监管丧失知识交流的能力?

如果因为数据隐保护,合作、交流受到了限制。那么我们口中的效率、增长、科学发现以及重大科研创新都可能受到阻碍。

同态加密解决数据传输

幸好,上帝为我们关闭了一扇窗,就在另一个方向打开了一扇窗。同态加密(Homomorphic encryption)作为一种新的隐私增强技术出现了。这种技术可以使组织者无需信任就可以进行协作。

同态加密理论在 1978 年首次推出,被认为是密码学领域的圣杯之一,自其出生以来就像传奇一样遥不可及;直到2009年,IBM的研究人员Gentry才首次设计出一个真正的全同态加密体制,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使得对加密信息仍能进行深入和无限的分析,而不会影响其保密性。

翻译成“中文”就是:加密算法可以隔着加密层去进行运算。

经过这一突破,存储他人机密电子数据的服务提供商就能受用户委托来充分分析数据,不用频繁地与用户交互,也不必看到任何隐私数据。

即人们可以委托第三方对数据进行处理而不泄露信息。

具体而言,使用同态加密模型,可以保护隐私不受数据处理者身的影响:无法查看正在处理的个人详细信息,只能看到处理的最终结果。企业可以对他们收集的数据感到更加安全。特别是云计算可以从同态加密方案中受益,因为它们可以运行计算而无需访问原始未加密的数据。

在上述提到的糖尿病研究暂停的情况下,同态加密的使用可以缓解高度敏感数据共享的安全问题,并促进重大疾病方面取得宝贵进展。

在网络安全的世界中,可以将“攻击的数据”与相应的组织和政府共享,从而能够在保护数据的机密性的同时,不会违反数据保护法规。

联邦学习解决数据应用

同态加密的运算效率最近取得了重大提升,所以联邦学习就变成可以解决隐私,同时又可以解决小数据、数据孤岛问题的利器。

联邦学习的概念最初由谷歌在2016年提出,在中国,中国香港科技大学讲席教授、微众银行首席人工智能官(CAIO)杨强教授算是联邦学习研究第一人。

联邦学习可以让参与各方在不披露底层数据的前提下共建模型,之后利用整个数据联邦内的数据资源,提高每个成员的模型表现。

通俗来说,深度学习时代,每个AI企业的技术能力是单打独斗式的;而联邦学习的出现,更为紧密、安全地将各个AI企业联系在了一起,联邦中的每个成员都可以用最快的速度提升自身能力的同时汲取别人的长处,最终获得共同成长。

譬如A厂商有校园数据、B厂商有工厂数据、C厂商有社区数据,且这三家厂商都使用了联邦学习技术。

从业务层面出发,A、B、C这三家厂商便直接获得了两种能力:1、最快速地优化自身业务;2、最快速地拓展新业务。

最快速地优化自身业务表现在,平台每天会有若干个类似A厂商的企业向平台输入加密后的数据模型,而这些数据模型中有A厂商非常缺乏的其他数据信息,而A厂商便可根据这些数据去更新自己的算法模型。

最快速地拓展新业务表现在,A、B、C每家厂商都有各自构建好的模型,通过汇总去得到更大的数据模型,在不流通数据的情况下得到数据流通的最好效果,通过资源互补可以在最短时间内安全地获得对方的能力,去拓展新业务。

从隐私保护层面来看,通常智能摄像头产生的数据会被上传到后台服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型,服务商根据这个模型来为用户提供服务。

这是一种集中式的模型训练方法,这种方式很难保证数据隐私安全。

而联邦学习就不再是让数据发送到后台,而是在每个企业自己的服务器上进行训练,并加密上传训练模型,后台会综合成千上万的用户模型后再反馈给用户改进方案。

相较传统学习模式,联邦学习的优点是显而易见的:

1、在联邦学习的框架下,各参与者地位对等,能够实现公平合作; 2、数据保留在本地,避免数据泄露,满足用户隐私保护和数据安全的需求; 3、能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长; 4、建模效果与传统深度学习算法建模效果相差不大; 5、联邦学习是一个闭环的学习机制,模型效果取决于数据提供方的贡献。

在传统的方法下,用户只是人工智能的旁观者——使用,但没有参与;而在联邦学习场景下,每个人都是“驯龙高手”,每个人都是人工智能发展的参与者。

综上所述,现在是围绕信息共享进行范式转变的时候了。当可以不暴露而共享信息,不暴露就可以分析信息时,我们无需为了信任而忍痛放弃协作。

当在数据共享下的协作变的频繁,我们的想象力可以再次释放,那么一些重大问题的解决只是时间的问题。

参考来源:

https://www.weforum.org/agenda/2020/01/new-paradigm-data-sharing/

https://mp.weixin.qq.com/s/Gz6UgBhDIqxA25BSHHfQmA

https://mp.weixin.qq.com/s/HbLyjGFgqzP_P7LeVR1aPQ

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:蒋宝尚

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

    “如果我能获得更多的训练数据,我的模型精度就会大大提高”,“我们应该通过API获得更多的数据”,“源数据质量太差,我们无法使用”。

    AI科技评论
  • 数据科学中的强大思维

    如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢?

    AI科技评论
  • 业界 | 苹果确认收购了一家斯坦福血统的暗数据分析公司

    AI科技评论了解,苹果近日收购了一家数据挖掘和机器学习公司LATTICE(网址Lattice.io)。这家公司的前身是斯坦福大学计算机学院的研究项目DeepDi...

    AI科技评论
  • 传统行业更需要大数据

    浙江日报讯就在一个“Big Bang”的大爆炸声之后,“大数据”的话题在全球同步热传,从硅谷到杭州。一场关乎每个人生活、工作和思维的大变革正在发生,一场深刻的产...

    小莹莹
  • 十步法原则解决数据质量问题

    数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并...

    宜信技术学院
  • “数据质量”入门

    数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并...

    用户5548425
  • 【大咖周语录】大数据落地还有许多问题要思考

    “大数据”从暂露头角到炙手可热,从对“大数据”的一知半解到价值落地,我们一直在探索、在研究,虽然“大数据”价值落地在某些行业做的非常成功,但整个社会的“大数据”...

    数据猿
  • 大咖周语录 | 暴露你身份的是WiFi,破局供给侧改革的是产业化问题

    <数据猿导读> 对于大数据的概念以及大数据在各行业的应用,每个人心中都有不同的看法。小编每周都会整理大数据牛人们的精彩观点,让你在最短的时间获得最精的思想荟萃。...

    数据猿
  • 迁移至MySQL的数据流转流程优化

    数据流转在很多公司都有实践和落地的场景,如果说关系型数据库/NoSQL是在分,则在数据仓库体系中就是在合,数据分分合合,各取所需。一般来说,数据消费主要有两...

    jeanron100
  • 数据化和意义提炼将如何推动生活与商业?

    ? 我们已经毫无疑问地进入大数据时代,借助我们所有彼此互联的设备,计算机正实时捕捉并处理我们的所有细节。商家视之为“圣杯”,因为他们终于可以预测,哪些消费者将...

    机器学习AI算法工程

扫码关注云+社区

领取腾讯云代金券