前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >换了马甲也能认出“你” | 有了这个数据集,AI有望揪出变种勒索软件

换了马甲也能认出“你” | 有了这个数据集,AI有望揪出变种勒索软件

作者头像
量子位
发布2018-07-24 13:38:08
8020
发布2018-07-24 13:38:08
举报
文章被收录于专栏:量子位
Root 发自 凹非寺 量子位 出品 | 公众号 QbitAI

去年5月,恶意勒索软件WannaCry大面积爆发,全球不少国家机构、企业、个人终端电脑中招,电脑文件被锁。

要想恢复重要资料,就必须向黑客支付300到600美元等值的比特币。

尽管微软早在去年3月14号就发布了针对该勒索软件所利用的漏洞的补丁,但不久又出来个Wannacry 2.0变种版本,导致更多电脑陷入魔爪。

由于勒索软件和僵尸网络不断“换马甲”,传统网络安全公司只能疲于奔命,被动地一一应付。考虑到AI强大的学习能力,擅长“以暴制暴”的黑客型网络安全公司Endgame想借助AI之力,帮助他们及时地识别出变种的恶意软件。

可是有个问题:目前缺少可供训练的数据集。

像图像识别或自然语言处理领域,都已经有庞大的开源的数据集来训练算法。但帮助AI识别勒索软件的数据集,还没有。

谁适合来做这件事呢?想来想去,拥有丰富防御黑客经验的Endgame决定自己上。

网络安全公司Endgame

其实,网络安全方面的数据从来都不缺。但因为数据总会涉及到个人的隐私,以及网络金融密码等信息,所以网络安全领域一直缺乏合适的数据集。

上周,Endgame宣布开源Ember(Endgame Malware BEnchmark for Research)数据集,其中含有杀毒软件VirusTotal 2017年检测到的110万个便携可执行文件(PE文件)的sha256哈希值,供研究恶意软件。

为了避免泄露个人隐私,Endgame特地没有在Ember里放这些PE文件本身。但这个数据集包含元数据(metadata),也就是PE文件里提取出的特征,以及基于这些特征训练得出的基准模型。

有了开源的基准数据集之后,研究人员就可以量化AI技术的学习效果了。

关于数据

这110万个样本里,有90万个是用于训练的,剩下的拿来测试。

训练的样本里,恶意软件、无害软件、未标注软件的样本数相等,都是30万。测试样本里的恶意软件和无害软件等比。

每个样本都包含了PE文件的sha256哈希值,文件初次浏览月份,标注, 以及从文件提取出的特征。

从下图可以看出,训练数据和测试数据的比例。

横坐标指代训练/测试时间段,这个信息对于随时识别“换脸”的恶意软件来说非常重要。这个数据集的目标,就是能识别出没有见过的恶意软件。

不过,公开这个数据集,Endgame要冒很大的风险。毕竟一旦公开之后,黑客也能接触到。训练样本被篡改后,识别模型就完蛋了。

除了数据,Endgame还在GitHub上建了一个储存库,方便大家使用这些数据。Ember库定义了基准模型的训练工作环境,大家也可以拿这些数据反复地训练模型。

Endgame还提供Jupyter notebook(https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb),上面有模型表现的信息。代码里还特地有一段是定义特征的提取过程,详细介绍了如何从PE文件里算出特征。

有了这些资源,任何一个人都能下载到基准模型,然后用库重新分类新的PE文件。

关于模型

Ember基准模型,是一个梯度提升决策树(GBDT)。在默认模型参数的基础上,用LightGBM训练的。该模型在测试集的表现可以看下图。

对比二值分类器,一个比较好的方法是模型评估指标AUC。

Ember模型的测试成绩达到了0.9991123分。用同一个GBDT算法,也还有很多简单的办法提高这个分数,比方说优化模型的参数,进一步筛选特征,或者再提取出更好的特征。

Ember相当于一个测量参照,看模型训练的效果有没有不断靠近理想目标。

OMT

虽然挺好用的,但Endgame建议不要用Ember模型作为抗病毒的引擎。这只是个研究阶段的成果,和Endgame旗下成熟的产品MalwareScore还不一样。

Ember模型还没有更多地优化,也没有持续地更新数据,理论上来说没有现有的大部分防毒软件表现那么好。

Endgame模型的目的,是提供对比数据,也给未来的研究提供一个支撑点。

最后,Ember数据库的传送门: https://github.com/endgameinc/ember

Endgame原文 https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset

论文: https://arxiv.org/abs/1804.04637

网上盛传的WannaCry的“进阶版”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 网络安全公司Endgame
  • 关于数据
  • 关于模型
  • OMT
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档