前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >XAIGen:自动化攻击特征提取的项目开源啦

XAIGen:自动化攻击特征提取的项目开源啦

作者头像
绿盟科技研究通讯
发布2021-01-12 11:03:27
1.6K0
发布2021-01-12 11:03:27
举报

随着网络空间攻击面的拓展、攻防对抗的升级,传统安全专家驱动的安全研究与安全运营,在大规模安全关联数据接入的背景下难以为继,网络安全产业对安全专家资源的需求与供给出现巨大剪刀差,安全智能化势在必行,平台与技术的自动化水平亟需全面升级。

然而,现阶段统计机器学习、深度学习模型驱动的模型与算法,在具有高度动态性、复杂性的网络安全数据分析任务中,面临着数据难标注、黑盒难解释、性能易衰减、对抗高风险等多方面挑战。因此,依赖专家经验知识来提取的攻击特征规则库,目前仍然是防守方的关键战略资源,极大的保证了对大部分已知攻击的识别与检测。

在此,“攻击特征”是指泛化的、能够支撑各类攻击检测引擎进行攻击定位、匹配的关键指纹、行为模式、意图模式等,文本类、统计类、时序类、结构类等类型和维度特征。这些攻击特征的提取过度依赖专家经验与知识,极大的限制了相关场景检测的时效性、覆盖度。因此,探索通过数据科学的手段,以算法和算力来补充专家与经验的稀缺性,自动化的挖掘蕴含在大规模数据中的规律,提取具有高区分性、低误报率的攻击特征规则,具有切实的安全研究和实践价值。

基于以上驱动力,我们通过无监督学习、可解释人工智能(eXplainable AI, XAI)、字符序列相似性分析等方法,来实现自动化的攻击特征提取工具——XAIGen。目前,XAIGen项目已经开源,项目地址为https://github.com/oasiszrz/XAIGen,希望通过开源社区来共同打造更成熟的自动化攻击特征提取工具。

本文将介绍XAIGen项目的背景、技术框架、验证和未来规划等方面的内容,后续将为读者带来XAIGen项目算法详解和场景应用,敬请期待。

一、XAIGen概况

1直觉:授人以鱼不如授人以渔

在很多离线网络安全数据集上,通过高容量的机器学习或深度学习方法,能够取得可观的分类准确性。同时,随着可解释人工智能技术的研究深入,模型设计者和使用者得以通过技术在一定程度上了解黑盒模型习得的数据规律与知识,并能够审查其分类决策的依据[1][2]。

自然地,从攻击特征提取的任务目标出发,模型透明度的提升为我们提供了全新的机会。不止于获得模型给出的分类结果,回答“是什么”的问题,我们还能够撬开某个审视过大规模样本的模型的嘴巴,让它回答“为什么”的问题——来生成传统安全中最直观的各种特征规则。

以图1为例,针对明文的Webshell恶意流量的检测,专家一般会提取载荷中的关键词,例如函数方法名、变量名、HTTP方法名等,形成基于关键词特征的检测规则。与之相对的,通过有标签的、基于文本分析模型的学习方法,可训练得到在离线数据集上高分类准确性的机器学习分类模型,能够有效区分Webshell流量与正常业务流量的内容载荷。进而,结合经典的Post-hoc可解释人工智能方法LIME(Local Interpretable Model-Agnostic Explanations),能够把对分类决策产生重要影响的“关键词”呈现出来,而这些关键词,是与安全专家的经验直觉是一致的。

图1 XAIGen攻击特征抽取示例

这无疑带给我们重要的启示:尽管在安全知识、安全语义的理解上与安全业务分析场景的需求有差距,但在数据规律的挖掘、高区分性特征的定位上面,数据驱动的模型能够弥补人的数据视野、分析精力的不足,辅助人进行关键特征的提取。

2架构:区分同质与异质载荷

基于以上实例探索,针对可读文本类型的攻击特征提取任务,例如应用层DDoS流量、Webshell流量、恶意邮件等检测分析场景,我们提出了XAIGen的核心处理框架,如图2所示。

图2 XAIGen处理框架

当待分析的攻击数据集合输入特征提取模块,首先对该攻击载荷进行采样,采样是为提升在大规模流量情况下的处理效率,降低处理延迟。进一步,根据采样攻击载荷,进行字节级别的相似性聚类,以将攻击载荷中的同质载荷识别出来:同质载荷指包含同质载荷内容的样本集合,在聚类过程中将形成聚类簇,例如仅相关参数频繁变动的大量扫描载荷。对每个聚类簇,使用基于LCS(Long Common Sequence)的算法提取扫描规则;对未归类到任何聚类簇内的非扫描流量,使用LIME等模型推断方法,生成推断规则。进而,通过循环匹配,对所有规则进行压缩和去重的精炼。最后,使用生成的规则对采样得到的攻击载荷集合和指定的正常载荷集合进行检测并得出预测标签,以评估所提取规则的分类性能,对于漏报的恶意载荷集合循环执行上述提取操作,以生成针对该类漏报恶意载荷的新规则。

通过识别并提取同质载荷中的公共字节序列形成规则,能够有效屏蔽掉大规模同质攻击载荷对规则提取处理性能的影响;同时能够降低模型推断中随机性的影响,提升规则的整体鲁棒性,降低规则集的规模,提升检测阶段的处理性能。

3效果:数据驱动的攻击特征分类性能

在企业收集的Webshell数据集(Webshell),和公开数据集,包括Youtube垃圾评论数据集(Spam)、CSIC攻击模拟数据集(CSIC)上进行了实验。相关实验基于预训练的、有监督MLP(Multi-Layer Perceptrons)模型,并记录了所提取规则匹配命中的TPR(True Positive Rate)、FPR(False Positive Rate)指标,及对应模型的分类性能、扫描规则命中的比例,如图3所示[3]。

图3 XAIGen文本类攻击特征提取在数据集上表现

可见,规则提取的效果是跟数据集紧密相关的。XAIGen在Webshell数据集上表现出最高的分类性能,所提取规则具有较高准确率和较低的误报率,结果说明了算法能够有效提取分类模型的“知识”。XAIGen在Spam数据集上性能有所下降,CSIC数据上的表现最差。

攻击特征提取的有效性由多方面因素决定,包括检测模型的准确性、推断模型的准确性等等。尽管分类器只采用关键词特征,但其能够通过多层次的特征组合和非线性函数取得分类性能的提升。然而,基于载荷字符串进行关键词特征规则提取,本质上是一种关键词的局部线性组合模式,这种线性模式本身无法获得分类器的非线性部分性能。因此,当数据中的恶意与正常样本无法仅仅通过关键词的线性组合实现划分,所提取规则的召回率就会大幅下降。Webshell数据集在收集过程中,大部分流量是采用已知规则进行采集的,其中部分规则同样采用了关键词匹配的模式,这一定程度上增强了恶意流量样本数据与正常样本的关键词特征区分性,并促使算法在该数据集上取得了最理想的效果。

二、XAIGen规划

目前,XAIGen项目仍处于初级阶段,在功能实现、技术拓展性等方面有不少TODO项,包括:

  • 支持更多的XAI解释方法。目前主要支持LIME,后续将集成包括SHAP等其他Post-hoc的模型推断方法,及内在可解释的方法,例如注意力机制等;
  • 支持更多维度的特征提取。目前主要支持文本类攻击特征的提取,后续将支持包括统计特征、序列特征、结构特征等多维度攻击特征规则的提取,以适应指纹、攻击模式、团伙行为模式等场景的特征提取任务;
  • 支持多分类任务和无监督任务。目前支持二分类有监督模型的攻击特征提取,后续将支持多分类的模型,进而支持对无标签数据的特征规则提取。
  • 支持更安全鲁邦的模型加载方法。目前项目内置了基本的模型生成方法。为支持更复杂、更高精度外部模型的输入,需要提升模型读取(例如使用pickle模型)的安全性,降低漏洞利用等方面的安全风险。
  • 支持更多对安全日志数据的预处理。目前项目将输入文本数据作为普通文本数据处理,后续将支持更多的协议解析、去混淆等细粒度预处理功能。
  • 提升整体处理性能。针对相似性聚类、规则提取、规则精炼等步骤,优化算法与实现,提升效率。
  • 提升规则的鲁棒性与泛化性能。针对各类型维度攻击特征,研究实现规则泛化方法,以充分凝练知识、压缩规则规模。

三、总结

随着攻防对抗的升级,攻击面的拓展,采集数据爆炸式增长,传统完全依赖专家的网络安全运营模式逐渐失效,安全运营技术、平台亟需智能化、自动化升级。在这个背景下,面向安全运营的核心需求,2020年我们发布了《AISecOps智能安全运营技术白皮书》,从技术内涵、运营指标、数据分类、技术框架、技术成熟度等角度,全面总结并提出了AISecOps技术体系,梳理介绍了十六大基础性、前瞻性技术,并进一步展望了AISecOps技术的未来发展趋势,期望通过打造性能稳定、安全鲁邦、透明可解释、可运营的可信任安全智能技术栈,来支撑安全运营业务的快速发展[4]。

XAIGen项目通过数据驱动的方法,尝试搭建数据规律与安全语义转化的桥梁,是AISecOps智能安全运营技术研究的重要基础工作之一。不限于攻击特征提取,XAIGen项目的目标正是研究安全场景下的模型决策解释与知识抽取方法这一基础能力,来提升安全研究与安全运营场景中,各类识别、检测等任务的特征提取工作的自动化水平,例如数据分类场景中的敏感数据匹配规则提取,物联网资产分析任务中的指纹提取等等。

欢迎志同道合的伙伴加入XAIGen的项目研究当中来,共同构建AISecOps智能安全运营技术生态,提升网络安全数据科学基础能力的研究水平。更多AISecOps技术介绍,欢迎下载《AISecOps智能安全运营技术白皮书》。

为了获取更多内容,点“阅读原文”获取《AISecOps智能安全运营技术白皮书》完整版

参考文献:

[1] 《XAI系列一:可信任安全智能与可解释性》

[2] 《XAI系列二:模型可解释性技术概览》

[3] Runzi Zhang, Mingkai Tong, Lei Chen, et al. CMIRGen: Automatic SignatureGeneration Algorithm for Malicious Network Traffic. TrustCom 2020.

[4] 《AISecOps智能安全运营技术白皮书》

关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。

内容编辑:天枢实验室 张润滋 责任编辑:王星凯

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 绿盟科技研究通讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档