【技巧】用于检测未知恶意软件的深度学习方法

目前,所有主要的反病毒供应商都在朝着机器学习方法靠拢,以求跟上不断变化的危险环境。这是个好消息。然而,随着每天有超过100万个新的恶意软件被释放,传统的机器学习方法可能无法胜任这项任务。现在一家名为Deep Instinct的公司希望通过深度学习,将恶意软件检测提升到一个新的水平。

在犹如“猫捉老鼠”的网络安全中,网络犯罪分子不断试图将其放到我们身上。如果他们可以通过我们的端点检测系统窃取新的恶意代码,他们就可以获得经济回报。

但事情是这样的:网络犯罪分子每次都不需要新的代码,他们可以使用一个旧的恶意软件,并进行一些细微的调整,让其可以通过安全软件检测。或者他们可以创建一个新的漏洞,这是WannaCry在5月份的攻击中所使用的技术,这个漏洞影响了全球35万个系统。

跟踪漏洞和黑客编写的漏洞代码是网络安全行业研究人员面临的一项重大任务。在一开始,基于签名的方法寻找代码片段,控制了恶意软件的检测。当网络犯罪分子意识到这种做法时,安全公司被迫采用更复杂的基于规则的方法。但坏人也很聪明。

恶意软件检测的下一个发展涉及机器学习。Symantec利用其“高级机器学习”(AML)来学习识别恶意软件的属性,而McAfee则倾向于采用“人机合作”方法来加强恶意软件的检测。Kaspersky Labs使用机器学习来加强软件中的恶意软件检测工作已经大约10年的时间了。

然而,新发布的恶意软件的数量仍在飙升。2015年,Symantec表示,它在去年发现了3.17亿条新的恶意软件,即每天有近100万件。根据Dark Reading的一篇报道,Kaspersky Labs在2016年表示,它每天检测大约32.3万个新的恶意软件文件,高于2011年的7万件。在最近的McAfee Labs威胁报告中,该供应商表示,其检测到的新样品数量为5760万份,约每天64万份。

每天产生的新恶意软件样本的确切数量并不重要。对于民众来说,重要的是有办法在坏人有机会对他们造成伤害之前检测到恶意软件。

深入

三年前,包括Guy Caspi和Eli David在内的一对以色列网络安全研究人员创立了Deep Instinct公司,并大胆计划利用新兴的深度学习技术来提高恶意软件检测能力。他们的想法是建立一个系统,可以在新的恶意软件正在生成时以惊人的速度扩展。

Deep Instinct公司产品管理总监Yaniv Shechtman表示,与传统机器学习相比,深度学习的可扩展性优势非常适合这项工作。

他说:“如果你每天都看数以亿计的文件,而且你需要处理这些数据,以深刻理解其是什么,如果它需要高度精确,那么传统的机器学习框架就不能满足这一要求。”

从零开始开发Deep Instinct的深度学习框架,我们用了两年多的时间。Shechtman表示:“我们没有使用TensorFlow Caffe或谷歌、Facebook或百度提供的任何第三方深度学习库。”“我们从零开始开发了自己的学习库,因为利用网络安全的深度学习远比用它进行语音识别或图像处理,甚至是自动驾驶汽车要复杂的多。”

在构建深度学习网络安全框架的过程中,获取训练数据并进行标记是最大的挑战。训练数据来自于公共存储库、第三方供应商,甚至是黑暗Web,它们必须被敲成类似的大小,以使神经工作能够正确地处理它们。当文件大小遍布地图时,这是一个挑战,从50KB的良性样本到100MB的恶意软件样本(幸运的是,数据科学家不需要提取特征,因为这部分是由神经网络自动处理的)。

Schectman说:“这是我们在公司头两年面临的挑战,”“但是,不仅开发框架是挑战,而且如何训练它同样是挑战。”

该公司发现,通过使用标准的基于CPU的服务器,训练他们的“深度大脑”(他们称之为深度学习引擎)可以接受的样本数量最多需要两个月的时间。因此,该公司与英伟达取得了联系,并建立了自己的GPU集群。结果,该公司将训练时间降低到了48小时。

现实世界的影响

该公司大约在6个月前开始销售其产品,如今,该公司的软件为20多名客户提供了大约7万个终端的保护。这些客户的矛头很尖,就像一个微小的Windows软件,重量在20MB到30MB之间。

这款软件利用从深度学习训练中收集到的信息,对新文件进行干扰。该软件在PC的CPU上受到了1%的攻击,并为文件访问请求增加了大约20到30毫秒的延迟时间,这还不足以引起真正的注意。

该公司声称,其深度学习方法比使用传统机器学习方法的竞争对手表现得更好。该公司表示,其威胁检测的准确性超过98%,而竞争对手的检测精度低于62.5%。它说,在一个有10万个文件的数据集上,它的误报率小于0.01%;相对而言,其竞争对手的误报率为2.5%-5%之间。

由于Deep Instinct的框架采用了深度学习技术来识别恶意软件,它基于大量类似于之前的恶意软件样本,该系统相当独立,只需每6到8个月重新训练一次。这意味着它的端点保护几乎总是最新的,需要每年更新一次或两次,而机器学习的竞争对手必须每天检查更新。

Schectman表示,这种方法使得Deep Instinct的软件代理能够检测到WannaCry和NotPetya cryptoworm,而以前从未检测到。他说:“他们被一个比实际袭击早了一年的深部大脑发现。”当然,那时我们已经有了新的版本。但是,如果你观察一段时间内的准确率,那么,你就会发现我们会比其他人更准确,即使是在一年前接受过训练。

英伟达的这一积极成果并没有引起人们的注意,它将Deep Instinct评为“最具颠覆性的创业公司”。英伟达去年还参与了由NCTP牵头的Deep Instinct的3200万美元B轮融资。

随着恶意软件的数量和质量以及APT的不断变化,网络安全公司将需要新的工具来保持最佳状态。传统的机器学习曾经被看作是保持领先于网络犯罪分子的必备工具,这可能还不够,特别是当越来越多的证据表明网络犯罪分子正在使用机器学习时。

Schectman说:“黑客正在变得越来越复杂,需要一种新技术的发展,以跟上引入的新恶意软件威胁的数量。我们的核心能力是检测未知。今天的大部分攻击都是未知的攻击,这也是他们面临的主要挑战。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DT数据侠

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

随着科技发展不断推动各行业的信息化进程,纽约标志性的出租车小黄车们却拖了后腿。在Uber、Lyft等共享出行平台的竞争下,小黄车也开始和Google合作,让自己...

755
来自专栏镁客网

研究团队利用光谱仪和肉的数据库,五分钟内就可以检测出“假肉” | 黑科技

1550
来自专栏镁客网

研究表明:狗的神经元数是猫的两倍,狗或比猫聪明 | 黑科技

1460
来自专栏人工智能快报

利用深度学习加速癌症研究

美国橡树岭国家实验室(ORNL)发布消息称,深度学习技术已被用于加速癌症研究。 尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每...

3496
来自专栏量子位

建模数据科学家的福音:MIT系特征自动构造工具今日发布

Root 编译整理自TechCrunch & Feature Labs 量子位 报道 | 公众号 QbitAI 建模数据科学家的活难度很大。 得洞察big da...

4215
来自专栏AI科技评论

周刊 | 苹果首份AI论文曝光,滴滴如何应用人工智能调度系统?

AI科技评论按:过去一周,是“中国人工智能元年”的最后一周。这周里,苹果揭开其首份AI论文的面纱;美国启动全球首个深度学习加持的“癌症先进计算解决方案的联合设计...

40312
来自专栏DT数据侠

当空间数据遇上机器学习,城市的颜值有了新的度量方法

每个人都生活在一定的空间,城市的各项公共服务设施也需要占据一定的空间。通过对这些空间数据的挖掘和分析,我们能够比以往更科学、更清晰地观察我们所在的城市。9月27...

770
来自专栏量子位

微软开源无人机训练模拟器AirSim,训练省钱啦

量子位 李林 | 编译自TechCrunch 微软今天开源了测试版的模拟器AirSim,可以用来训练自动无人机和其它自主移动设备。 视频内容 就是视频里展示的...

3798
来自专栏AI科技评论

视频 | 机器人:我不是药神,我只医生的小帮手 | ICRA 2018

这里是,雷锋字幕组编译的 ICRA 2018 系列,带你了解机器人与自动化领域的最新研究成果。

1273
来自专栏安恒信息

Black Hat 2018 | 人工智能与机器学习成焦点话题

美国当地时间8月8日,一年一度的Black Hat(黑帽子)大会在拉斯维加斯如期举行。不经意间,这项吸引全球顶级厂商、黑客的大会已走过了21个年头。21年前,当...

781

扫码关注云+社区