机器学习来了,安全行业准备好了吗?

信息安全一直以来都是一个“猫捉老鼠”的游戏。好人建起防御的围墙,坏人想方设法通过或者绕过它。然而最近我们发现坏人似乎越来越容易绕过我们建立的高墙。想要阻止他们就需要提升我们自身的能力,也就意味着需要更广泛地使用机器学习。

FreeBuf 百科:机器学习

卡内基梅隆大学的教授Tom Mitchell在《Machine Learning》(《计算机科学丛书:机器学习》)序言中给出了一个定义:

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。

2010年9月,Drew Conway创建了一个漂亮的维恩图,他解释道:“机器学习就是黑客技能、数学和统计学知识的加和。”

目前机器学习尚未在IT安全领域中被广泛应用,这或许会让一些旁观者感到惊讶。尽管安全专家称,信用卡欺诈检测系统和网络设备制造商正在使用最先进的分析方法。这一方法几乎被用于所有大公司的自动化共同安全保障活动,用于发现你电脑中的恶意软件,或者曝光网络中依赖人为编写代码以及配置的恶意活动。

虽然在网络安全领域针对机器学习技术的运用已经有了一些广泛的学术研究,而目前我们看到的仅仅是安全工具这一领域的拓展。诸如Invincea、Cylance、Exabeam以及Argyle Data这样的初创安全公司,将机器学习技术运用于开发安全工具,实现了比当今主流安全软件供应商更加快速、准确的服务。

恶意软件数据挖掘

来自FairFax公司的研究人员Josh Saxe表示,现在是时候摆脱创建于上世纪90年代、基于签名和哈希算法的陈旧方法了:

据我所知,虽然反病毒公司的收入依然来自基于签名的检测方法,但他们已经开始涉足机器学习领域的研究。他们通过基于文件哈希值或者根据人类分析师提供的给定样本进行模式匹配的方式,进行恶意软件检测。”

然而,相比于发现一个新的恶意软件,这些公司更擅长成功检测已经发现过的恶意软件,这也是网络犯罪在当下得以大行其道的原因之一。由于基于签名的验证并不奏效,即使你安装了反病毒软件,其他人还是能够成功地入侵你的电脑。”

Saxe主导的一个运用机器学习技术建立更完善的恶意软件检测系统——Invincea项目是美国国防部高级研究计划局DARPA网络基因组计划(Cyber Genome project)的一部分,特别是使用机器学习去探测恶意软件,功能包括恶意软件如何工作的逆向工程、执行社交网络代码分析以及利用基于机器学习的系统快速获取恶意软件样本。

经验证实了我们使用机器学习开发的模式要比传统反病毒系统的表现更加优秀。机器学习系统能够从事人类分析师一直从事的工作,甚至完成得更为出色。当你将机器学习与大量训练数据结合,事实证明你可以打败基于签名系统的检测机制。”

Invincea使用深度学习的方法加速算法的训练。目前,Saxe拥有大约150万个良性或恶意软件样本,他通过使用Python工具在GPU上对样本进行的算法训练。随着数据库增加到3000万,他预计未来优势会呈线性增长。

Saxe说:

我们拥有更多训练数据,便可以更好的将其运用于训练恶意软件机器学习系统,机器学习系统具有更多优势后,便能在检测恶意软件时拥有更加表现。”

Invincea现在的规划是在2016年时实现将基于深度学习的能力添加到其开发的末端安全产品上。具体而言就是,机器学习技术将会作为一个特性被添加到安全产品Cynomix。

恶意软件使用者检测

从另一个视角看,机器学习同样有助于维护IT安全:检测恶意软件的内部使用者并确定受危害的账户。

正如主流反病毒产品依赖目录中的签名识别恶意软件,用户活动监视工具同样也依靠签名。目前基于签名的恶意软件检测表现糟糕,同样的情况也出现在用户活动监控方面。

Exabeam(一家提供用户行为分析工具的公司)首席数据科学家Derek Lin表示:

我们根据过去的经验发现,企业安保人员十分依赖使用签名验证的安全产品,例如IP地址黑名单。他们寻找的是已经发生的事情。可问题是基于签名的检测方式只能是事后诸葛。这段时间安全研究者持续将重心放在检测没有签名的恶意软件事件之中。”

事到如今,精明的网络罪犯通过略微的策略改变便可以击败基于签名的检测方式。因此如果检测系统遭到入侵,攻击者便可以轻易地获得系统中的黑名单。

相较于去年防守策略,基于Gartner提出的用户行为分析(UBA)概念,今年Exabeam采取了更为积极的方式。用户行为分析(或其相关概念:用户及实体行为分析)的想法可理解为不需要判断用户或者设备的好坏。你假设所有都是坏的,你的网络是被入侵的,继而你需要通过不断地监控和模仿所有的行为来发现坏因子。

Lin和他的团队使用多种监控与非监控机器学习算法来进行用户异常行为检测,来源包括很多,例如服务器日志、Active Directory条目以及VPN日志。

这些都是为了分析用户行为,而问题则是要如何做到这一点。Lin说:

对于网络中的每一个用户和实体,我们试图建立一个常规统计分析页面。然后在概念层寻找出现的偏差现象…我们使用基于行为的方法来寻找系统中的异常,并将其表面呈现给安全研究者。”

安全行业之机器学习未来

基于我们所经历过的重大安全事故及数据泄露事件,网络罪犯所采用攻击方法也可以为吾等良善之流所用。安全软件供应商Townsend Security创始人Patrick Townsend表示:

目前我们正逐步建成可以对检测的海量非结构化数据和检测模式进行高效处理的系统,我预想下一代安全产品会是基于感知计算(cognitive computing)的。就拿IBM超级电脑Watson来说,它在人机对战练习赛中险胜战胜了美国智力竞赛节目《危险边缘》(Jeopardy)的两位冠军选手。既然如此,它为什么不能解析全球发生的所有安全事件并让它们变得更有价值呢?我认为,将基于感知的计算技术运用于安全,我们仍处于初始时期。”

Invincea公司的Saxe期望:

一些公司没有意识到基于深度学习新方法下的产品化算法浪潮已经到来,对此我并不惊讶。目前我们所用机器学习模型的训练才实现不久,而在十年前,你是无法有效完成这一切的。”

*原文地址:datanami,明明知道编译,转载请注明来自FreeBuf黑客与极客(FreeBuf.COM)

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2015-11-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

4个步骤教你全面了解工业机器人基础知识

一篇文章4个表格教你看懂工业机器人基础知识,一个视频让你不再是机器人小白。看完本文,系统了解工业机器人! 机器人的分类 关于机器人如何分类,国际上没有制定统一...

28340
来自专栏MixLab科技+设计实验室

幼师虐童,用人工智能灭了她!

这应该是第二篇,站在技术的角度,解决社会问题的文章。 第一篇,查阅:如何技术地识别双十一的“骗”局 这次围绕的是人工智能,我们探索下解决方案: 1 背景 幼儿...

32250
来自专栏新智元

生成算法让机器人在真实世界中演化,全程无需人类介入(视频)

【新智元导读】挪威奥斯陆大学研究者让机器人使用“生成设计”算法和3D打印机,自我设计、发展和制造,全程无需人类输入。在生成设计中,具有创造力并且能够创造的机器设...

32560
来自专栏ATYUN订阅号

MIT RF-Pose项目:利用AI使设备可以透过墙壁感知人体动作

X光透视长期以来似乎只是一种天马行空的幻想,但在过去的十年中,麻省理工学院计算机科学与人工智能实验室(CSAIL)的Dina Katabi教授领导的研究小组不断...

11340
来自专栏PPV课数据科学社区

【观点】数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般...

29370
来自专栏量子位

通过图灵测试!Google掌舵人说“打电话AI”是一次非凡突破

今天凌晨,Google I/O 2018大会最后一日,前不久刚刚获得年度图灵奖的Alphabet新任董事长John Hennessy登上舞台。

12930
来自专栏VRPinea

“名侦探”VR,不遗漏任何一个犯罪细节

455100
来自专栏VRPinea

加州大学正研发新型全息技术,可欺骗大脑和改变记忆

17160
来自专栏知晓程序

他做的小程序,估计 99% 的人都理解错了 | 晓组织 #13

我叫 Noah,很小的时候就很想知道这个世界的本质是什么,它是如何运转的,直到今天,也是如此。

8520
来自专栏PPV课数据科学社区

到底穿T恤、正装还是道袍?数据挖掘师的定位

(图为:剑网3 玩家Cosplay) 文|周学春,一个在银行做挖掘的博士,微信公众号:比格堆塔 心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一...

31060

扫码关注云+社区

领取腾讯云代金券