专栏首页绿盟科技研究通讯关于AutoML应用于网络威胁的思考

关于AutoML应用于网络威胁的思考

一、前言

威胁检测是网络安全领域一个重要方向。如今在网络安全公司中已经开展了很多利用机器学习、深度学习方法进行威胁检测的研究。不少安全研究人员利用专家知识结合机器学习将网络中的威胁通过模型算法检测出来。但是这个过程不仅仅需要巨大的算力,而且需要引入过多的人力才能够找到适合场景的模型算法,后期甚至花大量时间进行参数优化。花费大量精力来进行模型和算法的选择以及训练对于需求不断增长的业务场景来说往往是不够的,因此一种自动化进行机器学习的研究方向应运而生。

自动机器学习(AutoML)是最近几年兴起的一个将机器学习应用过程自动化的研究方向,并在产业界得到了越来越多的应用。目前AutoML的研究主要包括两个方向,一个是基于传统机器学习技术自动化建立一个端到端的模型方法,另一个是基于神经网络模型探索神经网络架构搜索算法(NAS)。基于传统机器学习技术进行自动化建模的AutoML方法主要是基于传统的机器学习模型算法,利用数据进行自动化特征工程,自动化建模,最后通过自动化调参搭建出一个完整的pipeline。而NAS神经网络架构搜索算法是AutoML的另一种研究方式,区别于传统的机器学习模型,NAS神经网络模型可以通过不同的神经网络结构进行定义(例如CNN、RNN等),因此在不同的业务场景中所使用的最佳神经网络架构可能是不一样的,因此在NAS神经网络架构搜索算法中可以通过先构建出单元网络结构,然后堆叠单元网络链式的形成整个网络,或者是采用分级层次的结构通过堆叠若干低级结构单元进而生成高级结构单元。AutoML的研究过程可以总结为下图所示。

图1 - AutoML流程

二、AutoML核心过程

采用传统机器学习模型进行AutoML构建的过程中,首先利用准备的数据作为输入,分别通过特征工程、模型构建以及参数优化三个阶段的处理之后,最终得到用于测试效果的算法模型,这个过程如下图所示。

图2 – 传统机器学习流程

在整个过程中三个重要的阶段可以被看作是传统机器学习模型算法自动化的核心过程。首先自动化特征工程主要是自动化特征选取以及自动化特征生成,在自动化特征选取阶段会对众多特征进行最佳特征组合选择,而自动化特征生成阶段会利用已知的特征进行自动化特征的交叉组合构成新的特征应用在后续的模型构建阶段;而模型构建阶段会选择合适的模型进行建模,这个过程和参数优化阶段相辅相成,利用合适的模型以及最优化的超参数进行自动化的模型选择以及参数调整。

图3 – 模型自动化

NAS作为AutoML方向的研究热点,主要是希望设计出最好的神经网络结构,希望通过自动化的方式找到最适合的神经网络架构。实现NAS的过程主要包括通过搜索空间确定网络结构,这个过程中结合搜索策略进行结构的优化。这个优化的过程和传统机器学习自动化过程中的参数优化是类似的,统称为优化算法。完成搜索空间和搜索策略之后,最后对模型算法进行评估。

搜索空间主要包括四种方式,主要如下:

  • entire-structure搜索空间方式:entire-structure是利用预先设计的search space进行网络结构选择,然后设计出一个网络结构,不同的神经网络层之间可以直接或者跳跃连接。该方法局限性比较高,需要人工设定好网络结构以及神经元数量
  • cell-based structure搜索空间方式:cell-based structure通过搜索得到一个最优的cell,然后堆叠这个cell得到最佳的网络结果。这种方式解决了entire-structure搜索空间方式在迁移性和扩展性方面不够好的问题。
  • Hierarchical结构搜索空间方式:分层的Hierarchical结构是利用低层次的cell来构成高层次的cell,只需要预先设定好低层次的cell结构即可,有效的解决了网络结构单一的问题。
  • Morphism搜索空间方式:Morphism搜索空间方式主要是基于已知的模型进行扩展,可以将模型在深度或者宽度上进行扩充变成更宽或者更深的网络结构。

图4 – 搜索空间分类

搜索策略的主要方法包括基于梯度的优化方法,基于强化学习的方法,随机搜索方法以及遗传进化算法等。基于梯度下降的优化算法主要是希望减少搜索过程的时间,无论是超参数的搜索还是网络结构的搜索都需要占用大量的计算和时间开销,因此基于梯度下降算法进行搜索可以更快的找到合适的结构和参数。相似的随机搜索方式是采用随机的选择网络结合和超参数进行优化,迭代实现网络结构和参数的最佳搜索,这种搜索优化策略进一步降低了时间开销。常见的网格搜索方式是一种比较鲁棒但是时间开销很大的方式,在优化网络结构和参数的过程中很难做到在网格上进行全量搜索,因此不是一种理想的实践方式。

图5 – 搜索策略分类

基于强化学习的搜索策略是一种将控制器和奖励网络应用在网络结构搜索的方式。控制器的动作是选择神经网络结构,对应的奖励网络会基于神经网络结构对数据进行效果评估,通过在奖励网络中迭代学习得到最佳的神经网络结构。

图6 – 强化学习过程

目前网络安全威胁检测领域已经部署了一些基于机器学习以及深度学习的模型算法,网络威胁检测面临数据量大、场景变化多、攻击者手法复杂的特点,因此每次安全研究专家针对单一数据集、单一攻击场景进行建模并训练检测模型,会占用一定人力和时间成本;如果针对每个不同的攻击场景都建立一套独立的模型方案,在升级算法和运营期间都会很耗时,难以支撑实时响应的需求。因此基于AutoML建立一套应用于网络威胁检测的模型算法,在面对不同的场景变化时,可以做到自动化适配不同的算法和网络结构,通过空间搜索结合模型自动化达到快速搭建检测模型并实时响应不同的攻击场景需求,能够助力网安产品提升专业竞争力。

三、总结与展望

近些年AutoML已经开始逐渐应用到计算机视觉、广告、网络安全等领域中,在后续的研究方向上除了关于NAS等热点问题的研究之外,AutoML的灵活性、鲁棒性以及可解释性都是需要进一步探索,当前无论是基于传统机器学习算法的AutoML还是通过NAS探索出的深度神经网络都还缺乏灵活性,搜索空间有时需要人为设定,需要参考现成的神经网络结构进行学习,距离完全的自动化还有一定距离,此外由于自动化特征工程以及自动化神经网络结构的解释性比较差,现在通过AutoML学习出来的算法模型依然是一个黑盒模型,很难解释其特征工程进行特征选择和特征生成的逻辑以及神经网络结构搭建的逻辑。AutoML在未来应用在产品的过程中,还需要对灵活性以及可解释性进行进一步的研究探讨。

关于伏影实验室

伏影实验室专注于安全威胁与监测技术研究。 研究目标包括僵尸网络威胁,DDoS对抗,WEB对抗,流行服务系统脆弱利用威胁、身份认证威胁,数字资产威胁,黑色产业威胁及新兴威胁。通过掌控现网威胁来识别风险,缓解威胁伤害,为威胁对抗提供决策支撑。

内容编辑:张胜军 责任编辑:王星凯

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

本文分享自微信公众号 - 绿盟科技研究通讯(nsfocus_research),作者:伏影实验室

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 另一个角度看神经网络回归-频域分析

    神经网络模型被广泛应用在回归问题中。神经网络模型的回归精度与训练数据的分布有关。本文从训练数据的频域的角度来对该问题进行分析

    绿盟科技研究通讯
  • Graph Mining:审视世界的眼睛

    注:本文内容是是笔者尝试从多年的安全分析经验中抽取图相关的内容总结和外延而来,不求全面深入,但求分享切身体会。

    绿盟科技研究通讯
  • 【RSA2019创新沙盒】ShiftLeft:面向软件开发生命周期的持续性安全防护

    ShiftLeft公司,成立于2016年,总部位于美国加利福尼亚州圣克拉拉市。该公司致力于将应用的静态防护和运行时防护与应用开发自动化工作流相结合以提升软件开发...

    绿盟科技研究通讯
  • 内置降维、聚类等算法,时间序列数据分析Python库Deeptime

    很多开发者都使用 Python 作为他们的主要开发语言,其中一个原因是 Python 拥有一个强大的标准库。通过各种库函数,开发者可以快速地进行代码编写。本文将...

    机器之心
  • HTML5 性能监控API - 计时

    计时API可以测量两个预定义标记之间的性能,仅需要分别定义测量的开始和结束标记 例如 var start = performance.now(); ... ...

    dys
  • 利用人工智能丰富数字地图

    麻省理工学院和卡塔尔计算研究所的研究人员发明了一种新的模型,可以利用卫星图像来标记数字地图中的道路特征,这可能有助于改善GPS导航。向司机展示更多有关路线的详细...

    AiTechYun
  • 【AI脑洞】深度学习支撑的机器人要竞选市长?

    简要回顾一下新闻内容,AI机器人真的参与了竞选,并做足功课,颇有要大干一场的架势。

    用户1386409
  • HTTP协议冷知识大全

    HTTP协议是纯文本协议,没有任何加密措施。通过HTTP协议传输的数据都可以在网络上被完全监听。如果用户登陆时将用户名和密码直接明文通过HTTP协议传输过去了,...

    老钱
  • 如何在CentOs 6.4 上使用uWSGI+Nginx部署Flask Web服务器

    Armin Ronacher的Flask是过去几年中为Python创建的Web应用程序框架领域中发生过的最伟大的事情之一。

    藕丝空间
  • 一日一技:手动rotate MongoDB的日志

    默认情况下,MongoDB的日志始终会写到同一个文件中。在Linux系统下,这个日志文件为 /var/log/mongodb/mongodb.log。随着时间的...

    青南

扫码关注云+社区

领取腾讯云代金券