【技巧】用于检测未知恶意软件的深度学习方法

目前,所有主要的反病毒供应商都在朝着机器学习方法靠拢,以求跟上不断变化的危险环境。这是个好消息。然而,随着每天有超过100万个新的恶意软件被释放,传统的机器学习方法可能无法胜任这项任务。现在一家名为Deep Instinct的公司希望通过深度学习,将恶意软件检测提升到一个新的水平。

在犹如“猫捉老鼠”的网络安全中,网络犯罪分子不断试图将其放到我们身上。如果他们可以通过我们的端点检测系统窃取新的恶意代码,他们就可以获得经济回报。

但事情是这样的:网络犯罪分子每次都不需要新的代码,他们可以使用一个旧的恶意软件,并进行一些细微的调整,让其可以通过安全软件检测。或者他们可以创建一个新的漏洞,这是WannaCry在5月份的攻击中所使用的技术,这个漏洞影响了全球35万个系统。

跟踪漏洞和黑客编写的漏洞代码是网络安全行业研究人员面临的一项重大任务。在一开始,基于签名的方法寻找代码片段,控制了恶意软件的检测。当网络犯罪分子意识到这种做法时,安全公司被迫采用更复杂的基于规则的方法。但坏人也很聪明。

恶意软件检测的下一个发展涉及机器学习。Symantec利用其“高级机器学习”(AML)来学习识别恶意软件的属性,而McAfee则倾向于采用“人机合作”方法来加强恶意软件的检测。Kaspersky Labs使用机器学习来加强软件中的恶意软件检测工作已经大约10年的时间了。

然而,新发布的恶意软件的数量仍在飙升。2015年,Symantec表示,它在去年发现了3.17亿条新的恶意软件,即每天有近100万件。根据Dark Reading的一篇报道,Kaspersky Labs在2016年表示,它每天检测大约32.3万个新的恶意软件文件,高于2011年的7万件。在最近的McAfee Labs威胁报告中,该供应商表示,其检测到的新样品数量为5760万份,约每天64万份。

每天产生的新恶意软件样本的确切数量并不重要。对于民众来说,重要的是有办法在坏人有机会对他们造成伤害之前检测到恶意软件。

深入

三年前,包括Guy Caspi和Eli David在内的一对以色列网络安全研究人员创立了Deep Instinct公司,并大胆计划利用新兴的深度学习技术来提高恶意软件检测能力。他们的想法是建立一个系统,可以在新的恶意软件正在生成时以惊人的速度扩展。

Deep Instinct公司产品管理总监Yaniv Shechtman表示,与传统机器学习相比,深度学习的可扩展性优势非常适合这项工作。

他说:“如果你每天都看数以亿计的文件,而且你需要处理这些数据,以深刻理解其是什么,如果它需要高度精确,那么传统的机器学习框架就不能满足这一要求。”

从零开始开发Deep Instinct的深度学习框架,我们用了两年多的时间。Shechtman表示:“我们没有使用TensorFlow Caffe或谷歌、Facebook或百度提供的任何第三方深度学习库。”“我们从零开始开发了自己的学习库,因为利用网络安全的深度学习远比用它进行语音识别或图像处理,甚至是自动驾驶汽车要复杂的多。”

在构建深度学习网络安全框架的过程中,获取训练数据并进行标记是最大的挑战。训练数据来自于公共存储库、第三方供应商,甚至是黑暗Web,它们必须被敲成类似的大小,以使神经工作能够正确地处理它们。当文件大小遍布地图时,这是一个挑战,从50KB的良性样本到100MB的恶意软件样本(幸运的是,数据科学家不需要提取特征,因为这部分是由神经网络自动处理的)。

Schectman说:“这是我们在公司头两年面临的挑战,”“但是,不仅开发框架是挑战,而且如何训练它同样是挑战。”

该公司发现,通过使用标准的基于CPU的服务器,训练他们的“深度大脑”(他们称之为深度学习引擎)可以接受的样本数量最多需要两个月的时间。因此,该公司与英伟达取得了联系,并建立了自己的GPU集群。结果,该公司将训练时间降低到了48小时。

现实世界的影响

该公司大约在6个月前开始销售其产品,如今,该公司的软件为20多名客户提供了大约7万个终端的保护。这些客户的矛头很尖,就像一个微小的Windows软件,重量在20MB到30MB之间。

这款软件利用从深度学习训练中收集到的信息,对新文件进行干扰。该软件在PC的CPU上受到了1%的攻击,并为文件访问请求增加了大约20到30毫秒的延迟时间,这还不足以引起真正的注意。

该公司声称,其深度学习方法比使用传统机器学习方法的竞争对手表现得更好。该公司表示,其威胁检测的准确性超过98%,而竞争对手的检测精度低于62.5%。它说,在一个有10万个文件的数据集上,它的误报率小于0.01%;相对而言,其竞争对手的误报率为2.5%-5%之间。

由于Deep Instinct的框架采用了深度学习技术来识别恶意软件,它基于大量类似于之前的恶意软件样本,该系统相当独立,只需每6到8个月重新训练一次。这意味着它的端点保护几乎总是最新的,需要每年更新一次或两次,而机器学习的竞争对手必须每天检查更新。

Schectman表示,这种方法使得Deep Instinct的软件代理能够检测到WannaCry和NotPetya cryptoworm,而以前从未检测到。他说:“他们被一个比实际袭击早了一年的深部大脑发现。”当然,那时我们已经有了新的版本。但是,如果你观察一段时间内的准确率,那么,你就会发现我们会比其他人更准确,即使是在一年前接受过训练。

英伟达的这一积极成果并没有引起人们的注意,它将Deep Instinct评为“最具颠覆性的创业公司”。英伟达去年还参与了由NCTP牵头的Deep Instinct的3200万美元B轮融资。

随着恶意软件的数量和质量以及APT的不断变化,网络安全公司将需要新的工具来保持最佳状态。传统的机器学习曾经被看作是保持领先于网络犯罪分子的必备工具,这可能还不够,特别是当越来越多的证据表明网络犯罪分子正在使用机器学习时。

Schectman说:“黑客正在变得越来越复杂,需要一种新技术的发展,以跟上引入的新恶意软件威胁的数量。我们的核心能力是检测未知。今天的大部分攻击都是未知的攻击,这也是他们面临的主要挑战。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

关于机器学习在网络安全中的五大误解

机器学习已经渗透到了人类活动的所有领域,它不仅在语音识别、手势识别、手写识别和图像识别上起着关键的作用,这些领域如果没有机器学习在现代医学、银行、生物信息和存在...

1775
来自专栏IT派

麻省博士的机器学习经验干货分享

我的一个朋友最近正要开始人工智能的研究,他问及我在 AI 领域近两年的研究中有哪些经验教训。本文就将介绍这两年来我所学到的经验。其内容涵盖日常生活到 AI 领域...

461
来自专栏人工智能的秘密

深度学习让人脸识别准确率不断提升

  人脸识别、图像分类、语音识别是最早的深度学习取得突破的主要几个技术方向。在2014年前后,多家技术公司纷纷宣布其利用深度学习在LFW上取得的最新成果,此为深...

2299
来自专栏腾讯云安全的专栏

AI in WAF | 腾讯云网站管家 WAF AI 引擎实践

13.4K0
来自专栏大数据文摘

关于机器学习在网络安全中的五大误解

2212
来自专栏机器之心

想要入坑机器学习?这是MIT在读博士的AI心得

选自mit.edu 作者:Tom Silver 机器之心编译 随着人工智能技术的火热,越来越多的年轻学者正准备投身其中,开启自己的研究之路。和所有其他学科一样,...

2606
来自专栏机器学习算法与Python学习

一份MIT博士的学习心得,送你入坑机器学习?(可下载PDF)

1216
来自专栏数据猿

2017年十本必读的大数据&人工智能领域书籍,你都读过吗?

【数据猿导读】年关将至,回顾2017,小编记得自己曾在年初的时候给自己定下一个小目标——就是读30本书。然而随着春节的临近,小目标却成了遥不可及的梦。不知道在过...

60413
来自专栏AI科技评论

深度|Facebook首创全新深度学习移动平台,“视频版”的Prisma是如何实现的?

AI科技评论按:“风格特效转换” 在Prisma出现之后就已被熟知,这是利用神经表征分离再组合图片的内容和风格,最后实现可用来描绘艺术图像。但是,就像我们所体...

3427
来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

2199

扫码关注云+社区