专栏首页绿盟科技研究通讯模型又不适用了? --论安全应用的概念漂移样本检测

模型又不适用了? --论安全应用的概念漂移样本检测

引言

机器学习被越来越多地应用到安全场景中,如:恶意邮件检测、入侵检测、WAF等,但是其现实效果饱受诟病,鲁棒性问题往往无法解决,如:A环境下训练的模型换到B环境中不适用,T时刻训练的模型在T1时刻不适用,这导致更换环境时需要标注大量样本,并且模型要定期更新。这种现象在机器学习领域被称之为“概念漂移”,指的是一个模型要去预测的一个目标变量随着时间的推移发生改变的现象,这种现象在安全领域这种高度动态的场景中尤其明显。本文介绍一种检测概念漂移样本、并对结果提供可解释性的方法,该方法来自2021年Usenix Seurity的一篇论文[1]。

一、背景

在安全场景下部署机器学习算法的一个重大阻碍就是“概念漂移”现象,只要是在“封闭世界”中学习到的模型,应用到“开放世界”中都会遇到类似的问题,该现象在安全中尤其明显,如恶意软件检测,在封闭训练集上有良好性能的分类器,当输入一个新的家族样本或者变种后,会被分类器强行分到一个已知家族分类中,而显然该样本不属于任何一个分类,类似的情况在入侵检测、WebShell检测、网站指纹等领域同样会出现,出现这种问题的核心是训练数据与测试数据的分布不一致,而所有的机器学习模型都是基于样本的“独立同分布”假设的,这种分布的不一致性往往也是导致机器学习模型不适用的根本原因。

为了克服上述问题,工业界往往通过增加训练集样本,重新训练模型来让模型“看到”更多的样本,甚至通过引入黑白名单的方式来控制误报和漏报,然而该方式往往是治标不治本,新的样本总是在源源不断地出现,会另原有模型不断产生误报和漏报,会引入大量的人力成本进行进一步分析、打标签、更新模型。那么有没有一种方法能有效地识别这种新样本呢?举个例子,当我们训练了一个能够区分正常流量、蚁剑、冰蝎的WebShell分类器,当哥斯拉的流量过来时,能否判断出它不属于这3种流量中的任何一种?该问题即“概念漂移”样本检测问题。

本文介绍一种最新的概念漂移样本检测技术CADE,CADE在检测出概念漂移样本的同时对结果进行解释,即哪些特征是做出该判断的重要特征。该方法已开源(https://github.com/whyisyoung/CADE)

二、相关概念介绍

>>>>

概念漂移

概念漂移是机器学习领域的概念,当测试集数据和训练集数据分布发生不一致时,真正的决策边界会发生变化,从而导致概念漂移现象的发生,该现象会随着时间的推移而愈发明显。不论是有监督学习模型还是无监督学习都会受到该现象的影响,有监督学习在上一小节已经举例,对于无监督学习,模型往往基于正常数据做训练,若新数据偏离训练数据过多,则被判定为异常,然而该方式是建立在训练数据覆盖了所有的正常数据的前提下,现实情况通常无法满足,因此当新的正常数据来的时候往往也被判定为异常。总之,不论是有监督学习模型还是无监督学习模型,概念漂移始终是模型落地的一大障碍。

概念漂移一般有以下两种情况:

  1. 出现了新的分类。在模型线上部署时,由于线下测试不会覆盖所有样本,往往会出现新的分类。
  2. 已有分类进化。当模型更换环境时,已有分类的数据分布可能会发生变化,如正常流量在各个业务场景中都是不一样的;同一个家族内的恶意软件会出现新的变种。

>>>>

概念漂移问题样本检测

在测试集中,与训练集样本中分布不一致的样本为概念漂移样本,一般做法是通过置信度来判定是否为概念漂移样本。一般分类器会给定一个样本对应分类的概率,我们称该概率为置信度,以一个WebShell分类器为例,有正常流量、蚁剑、冰蝎这三个分类,当蚁剑的流量过来,分类器给出分类概率为[0.1,0.8,0.1],那么判定结果为蚁剑,而当哥斯拉的流量过来,由于训练集中不包含该样本,分类器给出分类概率为[0.4,0.3,0.3],正常流量的概率最大,分类器判定结果是正常流量,显然分类错误,若此时设置一个概率下限0.5,规定没有达到0.5通通认为是新的分类,则意味着检测出了该概念漂移样本。但是这只是理想情况,很多情况下,新的分类样本在已知分类中被赋予很高的概率,导致无法检测。

三、CADE原理

如图1所示,CADE由两部分构成,概念漂移样本检测模块和解释模块,对于检测模块,核心是距离的定义,该距离用于衡量新样本与已知样本之间的距离,距离越大意味着越有可能是漂移样本,对于解释模块,为了衡量哪些特征最能区分漂移样本和训练数据,同样需要设计一个合适的距离函数进行衡量。我们将分别介绍这两个模块。

图1.CADE原理图

3.1概念漂移样本检测

该模块监控新数据找出其中偏离训练集分布的样本,主要用了一种名为“对比学习”的方法,通过对比学习,可以学习到样本在低维空间的向量表示,用该向量对样本之间的距离进行比较。其原理如图2所示,原始样本的特征是个高维向量,使用这些高维向量无法对样本进行有效区分,对比学习的目的在于通过一种方法学习这些高维向量的低维向量表示,使得得到的低维向量对样本有比较好的区分度。这个模型的训练过程是在训练集数据上进行的,当新数据进来时,若其与任何一个分类的距离都比较远,则认为该样本是漂移样本。

图2,对比学习原理

模型整体设计上使用AutoEncoder的思路,得到低维向量表示,同时通过在目标函数中增加对比误差,使得同一类别的样本之间的距离尽量近,不同类别之间样本的距离尽量远。目标函数的公式如下所示,

该目标函数由两部分组成,第一部分为基本AutoEncoder损失函数(RMSE,均方根误差)的计算方式,是训练集中的一个样本,维度是q,AutoEncoder模型中,编码器部分表示为f,解码器部分表示为h,其中f的参数为,h的参数为,编码器将输入向量映射为一个低维向量, 是解码器的输出,通过计算,计算的是重构误差。

第二部分为对比误差,其中为输入样本()之间的关系,若两个样本属于同一类,则,否则,是的简写,是两个变量隐空间和的欧式距离,ℷ是控制两者权重的超参。该部分的意图在于:若和是同一类别,则最小化两者在隐空间中的距离,若两者属于不同类别,则最大化该距离,上限为m,只要在该半径以内的距离都可以纳入计算范围,设置一个上限m可以保证计算可控,计算结果不受异常点影响。

经过对比学习之后,编码器f可以将样本映射到一个低维空间,在这个低维空间中,同类样本之间距离更紧,不同类之前距离更远(如图2所示),在该隐空间内距离函数可以有效找到偏离这些类的新样本。

3.2解释概念漂移样本

该解释模块旨在识别出概念漂移样本的最重要的几个特征,该问题是深度学习模型的可解释性问题,目前已经有较多的研究工作,该类方法往往通过改变特征值来观察样本的分类是否能够穿越决策边界来确定对应特征的影响力,但是由于样本空间的稀疏性,样本很难穿越决策边界,本文采用基于距离的解释方法,如图3所示,改变特征的目标不是为了穿越决策边界,而是使得样本尽量靠近于最近分类中心的距离,通过这种方式,解释性效果可以大大提高,具体的方法可详见原文[1]。

图3,基于决策边界和基于距离的解释方法原理图

3.3实验结果

作者在文中使用了两个数据集进行了实验,如图4所示一个是恶意软件数据集[2],其中包含7个恶意软件家族,共计3000多个样本,另一个是入侵检测数据集[3],包含4种类型流量的Flow数据,依据上述方法,在训练时保留一类样本,这类样本用于概念漂移样本的测试,如图5所示,可以看到CADE有比较好的效果,F1值均可以达到0.96,图6对样本的隐空间利用t-SNE可视化出来了,可以看到CADE有非常好的聚类效果,其中在最后一张图中,FakeDoc作为漂移样本,不在训练集当中,可以看到,CADE不仅仅把FakeDoc很好地与其他样本分别出来了,所有的FakeDoc都聚到一个类当中,这也表明CADE不仅仅可以用于检测漂移样本,对样本的聚类也有比较好的效果。

图4,实验数据集,恶意软件数据集Drebin和入侵检测数据集IDS2018

图5,CADE在两个数据上的检测效果

图6,在恶意软件数据集Drebin的T-SNE的可视化效果

四、总结

机器学习模型在安全应用中总是会因为概念漂移样本而失效,概念漂移样本无法避免,模型换个使用环境,样本进化等因素都会产生概念漂移样本,为了使模型继续发挥效果,概念漂移样本的检测必不可少,基于检测结果,使用者可以对模型的适用情况做出基本判断,有利于标记新样本、模型更新等后续操作,本文介绍了概念漂移样本检测领域的最新研究工作CADE,该方法在两个公开数据集上的F1值都能达到0.96,且对检测结果提供可解释性,在任何使用机器学习的场景中均可使用,值得安全从业者付诸检验、应用。

参考文献:

[1] Yang, Limin, et al. "CADE: Detecting and ExplainingConcept Drift Samples for Security Applications."

[2] Daniel Arp, Michael Spreitzenbarth,Malte Hubner, Hugo Gascon, Konrad Rieck, and CERT Siemens. Drebin: Effectiveand explainable detection of android malware in your pocket. In Proc. of NDSS,2014.

[3] Iman Sharafaldin, Arash HabibiLashkari, and Ali A Ghorbani. Toward generating a new intrusion detectiondataset and intrusion traffic characterization. In Prof. of ICISSP, 2018.


关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。

内容编辑:天枢实验室 童明凯 责任编辑: 王星凯

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

本文分享自微信公众号 - 绿盟科技研究通讯(nsfocus_research),作者:天枢实验室

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 洞见AI对抗,从频域视角看模型泛化能力

    在机器学习应用中,泛化能力是衡量机器学习模型性能的一个重要指标。其受到多种因素的影响,包括模型结构,参数,训练数据集,训练方法等。本文以全连接神经网络为例,通过...

    绿盟科技研究通讯
  • AI新威胁:神经网络后门攻击

    人工智能是如今备受关注的领域,随着人工智能技术的快速发展,基于深度学习模型的应用已经进入了我们的生活。伴随着神经网络的发展和应用的普及,深度学习模型的安全问题也...

    绿盟科技研究通讯
  • 原创 | ICS网络符合CMMC模型的几个注意点

    2020年初,美国国防部发布了网络安全成熟度模型(CMMC)。2020 年六月后,开始在建议征求书(RFP) 和资讯征求书(RFI) 中纳入CMMC相关要求,并...

    绿盟科技研究通讯
  • 机器学习中样本比例不平衡的处理方法

    原创干货文章第一时间送达! 推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法 在机器学习中,常常会遇到样本比例不平衡的问题,如对...

    企鹅号小编
  • DBSCAN聚类算法详解

    Density-Based Spatial Clustering of Applications with Noise

    生信修炼手册
  • 非均衡样本处理的心法

      身处大数据时代,对模型和风控工作者来说无异于福音。但与此同时,数据呈现长尾分布,不均衡分布导致训练困难,效果不佳。具体到风控场景中,负样本的占比要远远小于正...

    微众信科
  • 【小白学AI】八种应对样本不均衡的策略

    分类(classification)问题是数据挖掘领域中非常重要的一类问题,目前有琳琅满目的方法来完成分类。然而在真实的应用环境中,分类器(classifier...

    机器学习炼丹术
  • 机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西?

    为什么有了Accuracy还要提出Precision的概念呢?因为前者在测试样本集的正负样本数不均衡的时候,比如正样本数为1,负样本数为99时,模型只要每次都将...

    程序员一一涤生
  • 机器学习常用性能度量中的Precision、Recall、ROC、F score等都是些什么东西?

    为什么有了Accuracy还要提出Precision的概念呢?因为前者在测试样本集的正负样本数不均衡的时候,比如正样本数为1,负样本数为99时,模型只要每次都将...

    程序员一一涤生
  • 广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题

    摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决...

    guichen1013

扫码关注云+社区

领取腾讯云代金券