走近科学:隐藏在图像数据库中的安全问题

本文原刊登于IEEE IT Professional杂志。

由于系统改造的代价之高,使用适于系统设计的网络安全措施则是最好的选择。而新科技和应用则带来更多安全与隐私的新挑战。此外,新技术的应用效果经常难以预测,例如本文介绍的图像数据库——一项越来越受欢迎的数据库科技。本文探索了图像数据库的价值以及调查了其中一些数据库的安全与隐私问题。

FreeBuf百科

NoSQL的出现

关系数据库管理系统(RDBMS) 是在E.F.Codd博士发表的论文《大规模共享数据银行的关系型模型》(Communications of the ACM杂志1970年6月刊)基础上设计出来的。它通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据。

目前许多企业的在线交易处理系统、内部财务系统、客户管理系统等大多采用了RDBMS。太字节级关系型数据库在大型企业集团中已是司空见惯。常用的数据库软件有Oracle、SQL Server等。

非关系型数据库

非关系型数据库(NoSQL = Not Only SQL)意即“不仅仅是SQL”,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。简单地讲,NOSQL数据库可以按照它们的数据模型分成4类:

键-值存储库(Key-Value-stores) BigTable实现(BigTable-implementations) 文档库(Document-stores) 图形数据库(Graph Database)

图像数据库(Graph Database)

图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见的一个例子,就是社会网络中人与人之间的关系。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。

网络(如一个电网、一个企业供应链或者整个生态系统)通常由大量共享多重关系弧的节点构成。图像数据库发挥它这强大的能力来表示网络的组成和链接。图像数据库在支持开发、知识管理甚至预测方面已逐步成熟起来。

在互联网世界,各种不同类型的网络越来越卓越,正如具备上网能力已经成为了现代社会必须。然而,图像数据库(像RDBMS)只是盒子里的另一个工具,可以利用好或者不好。因此,考虑新技术的大规模安全影响并不过早,至少应该从最高的水平开始。

图像探索(Graph Discovery)

因为处理属性和链接,图像数据库包括了海量仍隐藏着的信息。图形数据库最初并没有被视为一种有益于探索的工具,它需要一个特别设计的超级计算机家族才能实现图像发掘的全部威力。尽管它可以直接展示图像,并数量增加到数十亿,只有最为强大的机器才有能力在计算限制内快速遍历多路径。

像是紧密排列的蛋白质网络一样,图像也如此密集。在这里,图片细节查询能够压垮计算能力较弱的系统。而超级计算机则克服了时间与能力的限制。有些这样的设备运用了Hadoop分析工具。

为探索而创造的高端图形超级计算机确实为业界带来了巨大的希望。例如,它可以支持建立复杂的海洋与构成气候条件的大气之间的关系。当气候发生巨大变化时,会进一步发现非线性因素与结果变得越来越重要。同样,一台图形超级计算机能够加速发现西非的埃博拉传播情况,这会有助于防范疾病的传播。

图1:基本图形推理。这个简单的node-arc-node三位一体,常被成为三元组,是被用来详细描述构建描述各种各样复杂网络的基本工具。

图2:用于探索的图形数据库。这样的探索可以支持构建海洋与大气的关系,也可以用来加速发现埃博拉病毒在西非的传播。

探索:隐私与安全

图像探索被认为是一种解决复杂且相互关联问题的良好工具,然而却存在大量对于隐私和安全问题的担忧。举个例子,如果图像超级计算机未来成为我们社会或金融交易的监测工具,那么有针对性的广告与其他的蓄意利用将会侵犯个人隐私,个人的身份很可能被进一步曝光。

期望通过立法来阻止存在的全部威胁是很容易被人理解的,但是社会要付出怎样的代价呢?正如那些急于通过各种手段将销售产品的人将会通过大数据而获利,却忽略了一旦他们受到攻击要付出的个人代价又是什么呢?现实就是在这样一个高端开发仅仅是目前被建立的一个趋势的投影。

在这种社会经济研究学设计中,尤其是广泛涉及社会和商业事物关系的领域,安全要求应该是更高的。近来发生黑客针对信用卡发行方或者电影公司等企业的攻击事件造成了大规模的破坏,然而任何蓄谋的犯罪攻击、大数据泄露都能造成更具毁灭性的影响。

当由无数传感器、执行器和移动设备构成的“互联网+所有”(Internet of Anything,简称IoA)会进一步增加安全隐患,这一切似乎都为隐私泄露提供了极大的方便。

图像知识管理:隐私与安全

安全——特别是定制建筑设计——一定要将这一点考虑在内。如果Web共享被认为是一个生成大量典型三元组系统的合理方式,设计一个RDF(Resource Description Framework,一种用于描述Web资源的标记语言)数据储存的传送门将变得异常重要。同样,用户身份验证和检定都很重要。

尽管知识管理并不是探索运用的广泛,但是由于关联的数据库的特殊身份属性仍必须受到严格保护。前端规定必须同时保证图像数据库的防入侵及个人数据隐私的的安全。若数据库不能提供足够保护可能会被取消资格,因为备选图像数据库产品的接口仍易受攻击。

图像预测:隐私与安全

例如天气或者经济趋势,在涉及一个演变过程的动态环境中,预测未来行为的能力变得非常可能。

图像有助于提高预测的准确性,让我们可以有资格同时量化一个系统代表的网络。能够联系节点与弧(地址、时间、重量或者数量)的能力让我们基于相似的属性从而定性地评价图像。更重要的是,量化技术让我们在几乎所有的图像中评估内在指标。这也适用于许多领域,像是神经科学。

当前维护网络安全的最佳实践通常建议在研究其安全性和隐私性的漏洞时对系统进行快照,以获得证明系统“安全性”的证明。这种实践的缪误在于大多数系统都会受到不断变化的环境的影响,这些影响将改变系统的活动。所以,这只适用于证明快照拍摄那一瞬的安全。

鉴于数据库的日趋复杂性,为我们监控实时动态变化提供了有利条件。通过检测数据流异常节点或关系模式改变了我们使用定量方法,我们能够检测以及调查尽早地发现入侵和其他安全漏洞,迅速对任何监测到的犯罪作出反映。

总结

从预测的角度来看,数据完整性必须抢占先机。因此,由于预测的风险很高,数据来源变得至关重要。预测的结果将尽可能的与预测工具暗示的数据一致。错误数据会严重影响结果,安全也将变为空中楼阁。

良好的安全实践将带来最高级别的道德准则。尽管图像数据库蕴含着世界各种网络的巨大希望,它同时带来了潜在的安全风险还未被完全了解和鉴别。

与追求流行时尚不同,IT专业人士必须认真评估预期操作环境与执行必要交易时的潜在风险,以此达到安全和数据保护的基准线。如果安全与隐私问题围绕新的技术(例如日益流行的图像数据库)大量产生,那么在后期会成为一种新烧钱途径。因为不安全,所以很昂贵。

‍‍‍‍‍‍‍‍‍‍‍‍‍‍*参考来源:infoq,作者:George Hurlburt,转载请注明来自FreeBuf黑客与极客(FreeBuf.COM)

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2015-05-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习与数据挖掘实战

程序员到机器学习工程师的飞跃

“我是一名软件开发工程师,阅读过一些关于机器学习方面的书籍和博客文章,也学习过一些在线的关于机器学习的公开课。但是,我仍然不知道怎么应用到工程实践中……”

11520
来自专栏量子位

百度让AI像婴儿一样学语言,还能举一反三听老师指挥走迷宫

李杉 李林 编译整理 量子位 出品 | 公众号 QbitAI 把已经学会的技能用在新的任务上,对于人类来说是很简单的事,但这种“泛化”能力是机器所缺乏的。 百度...

34580
来自专栏IT派

谷歌文本转语音系统更新 可选择学习模型

据外媒报道,近日,谷歌更新了其云端文本转语音(Cloud Text-to-Speech)API。

20600
来自专栏深度学习与数据挖掘实战

干货|程序员到机器学习工程师飞跃的实战经验

“我是一名软件开发工程师,阅读过一些关于机器学习方面的书籍和博客文章,也学习过一些在线的关于机器学习的公开课。但是,我仍然不知道怎么应用到工程实践中……”

9610
来自专栏SDNLAB

ATT计划推出6万台dNOS支持的白盒设备以实现5G

26060
来自专栏深度学习与数据挖掘实战

干货|程序员到机器学习工程师飞跃的实战经验

“我是一名软件开发工程师,阅读过一些关于机器学习方面的书籍和博客文章,也学习过一些在线的关于机器学习的公开课。但是,我仍然不知道怎么应用到工程实践中……”

12920
来自专栏PPV课数据科学社区

【学习】干货收藏:如何进行大数据分析及处理?

众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。 那么越来越多的应用涉及...

1K60
来自专栏数据科学与人工智能

【数据科学家】数据大师Olivier Grisel给志向高远的数据科学家的指引

Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。O...

25880
来自专栏AI科技评论

开发 | Twitter客户支持数据集公布:来自大企业的超百万条推文与回复

AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的...

43850
来自专栏大数据文摘

Elon Musk揭OpenAI研究新突破, 可在VR中自我学习的机器人(附论文)

23650

扫码关注云+社区

领取腾讯云代金券