大数据的安全底线

当企业迈进大数据时代,信息安全面临多重挑战。数据大集中的安全隐患重重,而大数据不仅被用来找出潜在威胁,也被黑客用来实现更精准的打击。大数据来袭,企业不仅要学习如何挖掘数据价值,使其价值最大化,还要统筹安全部署,以免遭到更强有力的攻击,降低企业风险。 大数据会捅大娄子? 毫无疑问,企业正在拥抱大数据,并且将大数据挖掘和分析能力作为企业核心竞争力的关键。Gartner一个悲观的预测认为:到2015年,超过85%的财富500强企业将无法有效利用大数据带来的竞争优势。Garnter认为,大数据不仅是量多,还包括复杂性、多样性和数据传输速度等问题,“单单收集和分析数据是不够的,企业还必须具备实时提供数据的能力,以对企业的生产力、盈利能力或效率带来实质的影响,并制定出相应对策”。   对于大数据,企业还需要考虑如何应对数据泄露风险,并且建立相关预案,因为大数据对分析和计算性能要求提高的同时,还带来了更多安全风险。正如Gartner论断的那样:“大数据安全是一场必要的斗争。” 大数据来袭,你准备好了吗? 数据分析和业务紧密相关   Gartner的数据显示,近两年产生的数据量是过去互联网出现以来所有数据量的总和。而随着社交网络和移动设备的普及,企业80%的数据是非结构化或半结构化的,结构化数据仅有20%。同时,全球结构化数据增长速度约为32%,而非结构化数据的增速则高达63%。   大数据为传统安全防护带来不小的安全挑战。中国电子信息产业发展研究院信息安全研究所分析师王闯表示,大数据时代的安全与传统安全相比,变得更加复杂。“这体现在两方面:一方面,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录。这些数据的集中存储增加了数据泄露风险,而这些数据不被滥用,也成为人身安全的一部分。另一方面,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。”   “由于这些数据已经成为企业生存的根本,信息安全防护体系的建设越发重要了。但是面对海量的数据收集、存储、管理、分析和共享,传统意义上的网络与信息安全面临新的问题。”王闯认为,“企业要从网络安全、数据安全、灾难备份和安全管理等各个角度考虑,部署整体的安全解决方案,来保障企业数据安全。”   知易行难。当企业用数据挖掘和数据分析获取商业价值的时候,黑客也可以利用大数据分析向企业发起攻击。“黑客最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址……为发起攻击做准备。尤其当你的VPN账号被黑客获取时,黑客就可以获取你在单位的工作信息,进而入侵企业网络。”绿盟科技首席战略官赵粮表示,大数据分析让黑客的攻击更精准。   通常,那些对大数据分析有较高要求的企业,会面临更多的挑战,例如电子商务、金融、天气预报的分析预测、复杂网络计算和广域网感知等。启明星辰核心研究院资深研究员周涛告诉记者,任何一个会误导目标信息的提取和检索的攻击都是有效攻击,因为这些攻击对安全厂商的大数据安全分析产生误导,导致其分析偏离正确的检测方向。“这些攻击需要我们集合大量数据,进行关联分析才能够知道其攻击意图。大数据安全是跟大数据业务相对应的,传统时代的安全防护思路此时难以起效,并且成本过高。”在周涛的眼里,与传统安全相比,大数据安全的最大区别是,“安全厂商在思考安全问题的时候首先要进行业务分析,并且找出针对大数据的业务的威胁 ,然后提出有针对性的解决方案。” NoSQL并非万无一失   Hadoop作为一个分布式系统架构,可以用来应对海量数据的存储,而这样的数据量往往是以PB甚至ZB来计算。作为一个云化的平台,Hadoop自身也存在着云计算面临的安全风险。正如王闯所言,企业需要实施基于身份验证的安全访问机制。此外,由Hadoop派生的新数据集也同样面临着数据加密的问题,Hadoop对数据的聚合增加了数据泄露的风险。   谈到大数据的存储,就不能不谈NoSQL。它迎合了大数据的时代,更适合非结构化数据的存储和分析,有灵活、可扩展性强、降低复杂性等特点,因此被IT企业看好。但NoSQL并不像它看上去的那么美,其安全性一直在业界存有争议。而这也可能会成为NoSQL发展最大的桎梏。   NoSQL的出现主要是用来处理海量数据,所以它在设计时牺牲了一些SQL数据库的特性,例如数据库事务的一致性需求、数据库的写实时性和读实时性需求、多表关联查询的需求等。这些简化设计大大提高了NoSQL处理海量数据时的速度,也提高了可扩展性,但同时也带来了一些安全风险。 一方面,NoSQL内在安全机制不完善,导致安全风险。“例如NoSQL的代码没有在每个事务修改后要求一致性,用户可能无法看到最新的数据,因为事务没有立刻写入数据库,有可能同步发生的事务受到其他事务干扰。不是所有的用户一定会在同一时间查看同一个数据。”王闯表示,   “NoSQL数据库缺乏保密性和完整性的特质。例如NoSQL数据库缺少图式(schema),你不能在表、行或列上分隔权限并保持对数据的快速访问,它们很少有内建的安全机制。”   另一方面,NoSQL对来自不同系统、不同应用程序及不同活动的数据进行关联,人们担心隐私遭到侵犯。今年3月,谷歌修改其隐私保护政策,允许谷歌融合来自所有服务中的信息。对此王闯表示:“将不同应用的信息加以整合可能为企业带来更多价值,但是对员工而言,则可能会导致更多隐私被挖掘出来。”   “由于大家都刚刚接触NoSQL,因此他们所首先要解决的问题是使其正常运转,也就是说大家往往会满足于正常运转这一状态,至于安全性估计要到一段时间后才会被重视起来。”Imperva公司创始人兼CTO Amichai Shulman预计,由于大多数人对NoSQL缺乏足够的了解,用户在部署时很可能“捅出大娄子”。   “大数据的体现形式归根结底还是静态存储状态。静态存储的数据是大数据非常明显的一个挑战。”Websense中国区技术总监陈纲认为,数据大集中的后果是复杂多样的数据存储在一起,例如开发数据、客户资料和经营数据存储在一起,可能会出现违规地将某些生产数据放在经营数据存储位置的情况,造成企业安全管理不合规。此时,企业的安全措施需要从企业内部拓展到数据中心或者运营商。 2012年RSA大会上,RSA总裁Tom Heiser表示,RSA和EMC在身份认证和大数据上的优势会在未来凸显,“企业面对高持续性安全威胁的情况下,安全投入会持续增加。同时安全技术市场也将发生变化,基于传统安全的防病毒、防火墙和IPS的技术和解决方案会向以身份认证和大数据分析监控的技术方向转化。” APT攻击更嚣张   火焰病毒爆发备受关注。由于隐蔽性强,火焰病毒在潜藏了将近两年之后才被人们发现,高级持续性攻击(APT攻击)的厉害性也再次被人们所认识。   大数据为黑客发起攻击提供了更多机会。利用大数据,黑客可以扩大攻击的效果。这主要体现在三个方面:首先,黑客利用大数据发起僵尸网络攻击,可能会同时控制上百万台傀儡机并发起攻击,这个数量级是传统单点攻击不具备的。其次,黑客可以通过控制关键节点放大攻击效果。再次,大数据的价值低密度性,让安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全厂商的分析制造一些困难。正如启明星辰周涛所言,黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击,都会导致安全监测偏离应有的方向。   黑客利用大数据将攻击很好地隐藏起来,使传统的防护策略难以检测出来。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而APT攻击是一个实施过程,并不具有能够被实时检测出来的明显特征,无法被实时检测。同时,APT攻击代码隐藏在大量数据中,让其很难被发现。此外,攻击者还可以利用社交网络和零日漏洞进行攻击,抓住威胁特征库无法检测出来的时间段,发起攻击。   尽管大数据似乎让黑客的攻击更加得心应手,能够取得更大的收益,不过,事情总有两面性,智能分享平台和大数据分析应对APT攻击的方式,在安全厂商中的声音越来越多。在2012年Gartner安全和风险管理峰会上,Gartner公司副总裁Neil MacDonald预测,到2016年,40%的企业(以银行、保险、医药和国防行业为主)将积极地对至少10TB数据进行分析,以找出潜在危险的活动。Gartner还认为,由于APT攻击崛起,大数据分析成为很多企业信息安全部门迫切需要解决的问题。传统安全防御措施很难检测高级持续性攻击,因为这种攻击与之前的恶意软件模式完全不同。   既然APT攻击很难被检测到,企业必须先确定正常、非恶意活动是什么样子,才能尽早确定企业的网络和数据是否受到了攻击。Macdonald表示:“要成功做到这一点,企业需要更多的数据来建立一个基线标准,这也就是大数据的用武之地。”的确,大数据让检测过程变得自动化,效率更高。   “大数据对安全厂商而言,最重要的是你如何将事件的模式、攻击的模式、时间和空间上的特征,总结抽象出来一些模型,变成大数据工具可以帮你发现的一些模式。”赵粮认为,首先要搞清楚攻击是如何发起,会造成什么影响,然后根据分析结果建立安全模型。但他说这并不容易,“即使用自然语言讲起来都会存在很大不确定性,而要把它变成机器语言,安全厂商面临非常大的挑战”。赵粮表示,要建立合理的模型,安全厂商需要对非常多的数据进行关联分析,例如APT攻击建模不只是针对一个攻击包或者某一个威胁架构,而是需要针对大范围的数据,“包括一个区域或者一个行业的数据”。 不仅如此,为了精准地描述威胁特征,建模的过程可能耗费几个月甚至几年时间,企业需要耗费大量人力、物力、财力成本,才能达到目的。   “在这种情况下,传统的边界防护失效,安全厂商需要建立相应的大数据分析机制。”周涛认为,大数据分析是解决各种高端攻击的有效方法。其中一个典型的应用场景是,针对大数据潜伏时间长、难以被检测的问题,安全厂商不能只进行单点检测,而是针对一段时间内的数据进行关联检测。针对零日漏洞的攻击可能在当时无法发现,但是通过IPS的不断升级,检测能力不断提升,进行二次检测的时候能够检测出来。 大数据分析带来安全机遇   大数据技术是把双刃剑,结果取决于技术的使用者及其目的。   “大数据分析是一个工具,不仅可以提升企业正在做的东西,同时也可以做以前无法做的东西,比如大型企业的取证问题。”赵粮表示,“取证过程需要抓取所有的数据包和模式。在大数据之前,通过手工的方式需要耗费很长时间,因此企业很难做到。甚至一年前的数据很少有人能够找到。   但是在大数据时代,你每发现一个问题时候都可以向前回溯两三年甚至更长时间的数据,从而确认以前是否已经受到攻击,哪些部门曾受到攻击。”   绿盟科技规划经理刘淑玲在接受本报记者采访时表示,大数据分析帮助企业加强安全能力的同时,还可以建立信誉评估机制,对海量信息做关联分析还能准确感知国家信息安全态势。他认为国内一些行业也在尝试,但尚没有成功案例。   事实上,一些安全厂商已经在身体力行了。周涛向记者透露,启明星辰在大数据研究上重视宏观网络感知和微观威胁检测两方面:“首先是宏观安全状态感知,要在广域网分布式计算产生的大量检测设备的基础上,评估广域网的安全态势。如果有异常系统要报警,甚至还要预测异常的发展。”周涛说,在微观层面,“启明星辰更主要的是研究APT攻击。恶意代码的隐蔽性越来越好,攻击途径越来越多。黑客如何从微观领域获得大量数据来获取攻击信息,如何通过这种局部的攻击数据来构筑整个攻击场景”。   在安全态势感知上,启明星辰建立起一系列安全基本指标模型,“在海量数据采集的基础上,从原始数据中进行二次提取,并且建立一些指标,将其分为基础指标、应用层指标等多种类型,然后基于指标之间的关联分析、每个指标的变化状况,对宏观网络安全态势做出判断。”周涛透露,这项研究在一些城域网安全项目中已经得到成功应用。 分析模型与商业智能不同   在分析平台上,安全厂商和商业智能领域的数据分析一样,也采用在Hadoop架构,在其基础上构建分析模型。   但是在分析模型上,安全领域的数据挖掘跟商业智能领域的数据挖掘有很大差别。首先,安全厂商需要从不完整的部分数据中还原出全部的完整数据和场景。其次,数据挖掘在海量数据的基础上,进行精确识别和深度检查,进行二次分析,来识别真正的威胁。这与商业智能软件的分析有很大差别。   “商业智能分析软件使用的是精简的算法、关联分析预测等,在单点分析方面比较成功。与商业智能领域不同,当信息安全迈进大数据时代,数据量大幅上升,数据异构,不同厂商对同一个文件的报警不同,如果直接对其进行分析很难产生效果。另外,在商业智能领域,越是重复出现的信息越有用,但是在安全领域,经常出现的信息却被认为是安全文件。”周涛认为,这是安全厂商的数据挖掘与传统数据挖掘的最大不同。 只是技术发展一个阶段   尽管大数据火热,但在安全领域,并没有专门针对大数据安全的产品和解决方案出现。“就国内研发水平看,要推出针对大数据安全的解决方案,尚需时日。”赵粮表示,大数据分析是一件体系化的事情,有能力建设并运营这个平台的机构“少之又少”,因为平台建设需要耗费更多资源和财力,大多数企业难以承受。领导厂商可能会建立部分能力,用户可能会选择跟安全服务提供商联合,或者是在某种程度上的一些外包,来实现自己的既定目标。   此外赵粮称,专门针对大数据的解决方案和产品意义不大,因为不会出现一个像防火墙那样产品化的大数据分析产品,不会是用户只需要输入数据就能获得分析的结果。这种情况不会出现。赵粮表示:“归根结底,安全是人和人的对抗,所以永远无法用产品来搞定。”   对于当前一些SIEM厂商声称能够在大数据时代有效查找APT攻击,MacDonald也表示怀疑。他认为,目前的SIEM产品无法处理这么大的工作量,大多数SIEM产品提供接近实时数据,但只能处理规范化数据,还有些SIEM产品能够处理大量原始交易数据,但无法提供实时情报信息。   一个技术能够生存的前提是能够带来实实在在的价值,如果对它的投入产出达不到预期,企业对这项技术的关注度就会下降,人们就会从开始接受、正视现实,变成有点失望,最终彻底失望。“到现在为止,虽然人们给予大数据很多期望,但是没有一个产品、顾问或者使用者能够证实我用这个技术到底找出了哪些APT攻击,解决了什么样的业务问题。”赵粮称,“所以,大数据分析对解决安全问题能够起到多大的效果,谁也说不准。随着技术向前发展,大数据分析也只能在一两年之内起到安全防护作用。”

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

Apriori算法实例——322万知乎用户的关注话题关联分析

? 用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。数据采集数据怎么来的?当然不是知乎给的,是爬虫来...

36040
来自专栏云计算D1net

云服务安全隐患是企业选择云的最大障碍

根据云安全联盟的年度调查显示,虽然企业及其员工正在越来越多的使用云计算服务,但企业高管仍然担心业务数据存储在云计算中所涉及的安全隐患。 这个“云部署做法和重点调...

34190
来自专栏CSDN技术头条

微服务努力的成败不仅仅取决于技术细节

最近我研究了微服务的一些事,因为我已经感觉到这块话题正被引导到关联数据、REST以及其他超媒体数据讨论的部分。这意味着这条路上有无数的优胜者,它们坚持着告诉我该...

196100
来自专栏数据和云

航空业走向发展黄金期,P2P线下金融实现线上大迁徙

自2014年遭遇全球贸易条件恶化,导致经济在连续两年的时间一直处于增长缓慢的低迷时期,到2016年世界经济增长速度估计仅为2.2%,是2009年大衰退以来最低的...

29230

物联网(IoT)在企业应用中的三个例子

通过将物联网(IoT)设备集成到当前的IT基础设施中,企业能有良好的收益。而一旦通过设备捕获数据,并且分析和处理数据,才会发现物联网(IoT)的真正价值和影响。

41170
来自专栏FreeBuf

影子IT(shadow IT):彼之砒霜,我之蜜糖

首先,让我们先来看一组可怕的统计数据:IDC预测,至2018年,70%的基础设施硬件和软件支出将瞄准新系统,或传统系统的现代化,以支持企业数字化转型计划。这个令...

19400
来自专栏大数据挖掘DT机器学习

基于大数据的信息系统关键技术研究

信息技术、计算机技术和互联网技术的高速发展促进了人类社会各类数据的爆炸性增长如何对这些结构复杂的大数据[注]进行有效管理己经成为当前社会的热点问题之一。自201...

36640
来自专栏SDNLAB

LFN又添八个新成员,实现全球快速增长

旧金山 - 2018年7月31日 - Linux Foundation Networking Fund(LFN),致力于促进ONAP和OPNFV等开放式网络项目...

10120
来自专栏镁客网

微信小程序来了,张小龙颠覆社交后又将颠覆移动互联网

24360
来自专栏人称T客

报告|移动IM进入快车道,但“车技修行”之路仍漫漫

T客汇官网:tikehui 撰文 |移动信息化研究中心分析师 高柳 本文主要针对移动IM的应用情况进行研究,包括对企业实践过程中制定的保障策略进行梳理、企业...

35390

扫码关注云+社区

领取腾讯云代金券