麻省理工为大数据护航,保障私人隐私不受侵犯

在很多方面,“大数据”和“加密”是对立的,前者收集、存储和分析信息,以此来揭示对学者、法律实施和企业有用的规律;而后者的目标是窥探隐藏的数据。这个议题(tension)是本周的一个由白宫科技政策办公室和麻省理工共同举办的会议的核心,这次会议有来自学术界、政界和商界的许多专家人士出席,他们探讨了加密技术以及其它以隐私为导向的技术,可以保护大数据所涉及的信息。 麻省理工计算机科学与人工智能实验室(CSAIL)的Shafi Goldwasser教授在座谈小组中说到,加密功能是必须要走的路。她还补充道,其余的选择比如匿名的数据记录并非有效。如今,在社交网络和其它的公共网站上,可以免费获得大量关于个人的数据,任何一个想要做坏事的人都可以从任意数量的在线资源通过交叉引用来建立关于他们的目标的轮廓(profile)。 一名来自麻省理工学院CASIL的副教授在周一的“隐私增强技术”座谈小组中谈道,如果数据只是简单地被存储起来,那么加密就可以非常完美地工作。而当你真的需要处理和分析被存储起来的数据时,问题就出现了。然后他补充说,这也就是为什么现在需要一个实用性的处理加密数据的系统。 这种实际的努力通常是指所谓的“同态”加密,这使得它可以在不先对加密数据解密时而执行对加密数据的计算。20世纪70年代末,研究者一直强调完全同态加密是可能的,所谓的完全同态加密是指,在加密过程中,可以对信息以任意种方式进行切片或切块,而同时不显示实际的数据。这种系统可能对云计算特别有利,因其提供了一种分析信息的方法,这种方法对信息提供者来说有最小的隐私风险。 然而,实际上,计算机科学家在对加密数据进行更多语义操作上,还没有开发出方法。IBM声称,2009年计算机科学家Craig Gentry已经开发出一个实用的且完全同态的系统,但批评者说,这项技术在实际的云计算的应用中太过于复杂、速度缓慢且不实用。IBM已为Gentry的成果申请了专利且继续开发完善。目前正在努力开发中,如果没有完全同态的系统,那么可以用其它的创新的方法来处理加密数据。 其中一个这样的项目就是CryptDB,这个系统通过将请求数据的软件和存储加密数据的数据库之间的放置一个代理服务器,来保证对加密数据的分析。这个代理使用旨在比较和分析加密信息的算法,在某些情况下,代理需要去除不同的加密层来更好的分析数据,但是这种想法就是不会将数据完全的加密成为纯文本。尽管CryptDB 只能进行有限种类的查询,谷歌是该技术的一大支持者,并使用它在其基于云计算的、搜索大量数据集的BigQuery服务中提供加密查询。增加一个额外的设备,比如在搜索和检索过程中的代理服务器,通常会减慢速度,但是Zeldovich 和他的同事表示他们正在为解决这个问题而努力着。

麻省理工的小组成员还提出了不依赖于加密的安全措施,例如,有差异的隐私是一种替代的匿名数据。哈佛的Salil Vadhan 教授说,这种方法使用一个自动化的数据管理者,它可以在提供给数据请求者有用的信息的同时,保护数据集中个人隐私。正如2012年12月份的科学美国人网站上文章所指出的,差异化的私人数据发布算法允许研究人员提问关于有敏感信息数据库的任何问题,同时提供经过模糊化处理的答案,因此,实际上不会暴露任何私人数据,即使某人是排在数据库中的首位也不会被暴露。 另一种选择就是在收集、存储和分析数据的软件中直接为工程师们编写隐私政策的要求。麻省理工一位首要研究科学家Daniel Weitzner说,写入这样的“责任系统”可以自动的分析对数据的一个特定的运用是否违反了法律,他还补充说,通过类比,我们可以在全世界范围内以一个较高的公众信任度运行经济,我们这样做是因为我们一套有适用于一致方式的一致性的规则。 周一的会议起源于Pres,奥巴马在今年早些时候呼吁要对大数据对美国人民的生活以及与政府之间的关系进行全面的审查。奥巴马任命白宫顾问John Podesta 来领导这项审查过程,这项过程将会从现在开始持续几个月,并得出一个期望会影响关于大数据的政策、资金和研究的报告。

摘自:比特网

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

【数据说话】当下的Python就业前景如何

Python 现在是越来越火了。 IEEE 发布的 2017 年编程语言排行榜,Python 排第一。 ? 百度指数的搜索趋势,Python稳步上升。 ? (此...

42580
来自专栏数据科学与人工智能

【数据】即使不会爬虫技术,也能轻松获取的重要数据

小编邀请您,先思考: 1 对于具体的业务问题,如何做好数据准备? 很多做数据分析的同学,对数据的获取有一个误区,觉得在互联网上获取数据,必须通过爬虫进行爬取。殊...

59060
来自专栏理论坞

互联网术语大全(二)

Adsens:Google AdSense 是一种获取收入的快速简便的方法,适合于各种规模的网站发布商。它可以在网站的内容网页上展示相关性较高的 Google广...

11520
来自专栏黑白安全

Avast 回应:收集数据仅为改善 CCleaner 未来会提升透明度

自去年安全软件公司Avast宣布收购 Piriform 公司之后,包括 CCleaner 在内的多款热门应用也一并纳入 Avast 旗下。然而自收购以来问题不断...

9020
来自专栏大数据文摘

用脑电波代替密码的时代来临了吗?

18610
来自专栏BestSDK

VRTK将各种VR SDK/API整合:不会编程也可以开发VR

这个免费的开源Unity工具包旨在将各种VR API的单一工作流程结合在一起。它包含了你可能会在任何单个专有SDK中找到的相同库存预制和脚本机制,无论是被部署到...

45160
来自专栏华章科技

为不擅长编程的人准备的19个数据科学工具

编程是数据科学的重要组成部分。在所有方面中,一般认为一个理解编程逻辑、循环、功能的大脑更有可能成为一个成功的数据科学家。那么,一个从来没有在学校或学院里学过编程...

10920
来自专栏恰童鞋骚年

对技术的态度—CoolShell 陈皓

原文地址:http://coolshell.cn/articles/8088.html

14540
来自专栏用户3246163的专栏

[脑书笔记]《整体性学习》5-Study Less

这篇文章讲这本书的最后一部分:超越整体性学习,这本书前面两个部分主要再说Learn More,最后这部分是说Study Less的,还有当大家离开了课堂以后如何...

16210
来自专栏机器人网

应用LabVIEW和CompactRIO开发腿轮混合式移动机器人

"对于移动机器人的开发来说,其大小,重量及性能都非常重要,因此坚固的模块化CompactRIO系统非常适合用于开发。 LabVIEW和NI硬件之间定义良好的兼容...

39560

扫码关注云+社区

领取腾讯云代金券