安全边界日益模糊,为应对高级持续性威胁,提升各类终端系统的“透明度”尤为关键——通过高效的数据采集与分析技术,以识别、溯源、预测内外部攻击者的细粒度系统级行为及关联其上下文。然而当我们尝试用放大镜观测细粒度的系统行为时,数据质量、分析技术、性能开销、验证理论等多层次的问题接踵而至。
美国国防高级研究计划局(DefenseAdvanced Research Projects Agency, DARPA)运营了多个重量级的网络空间安全研究项目,召集了诸多美国顶级研究机构参与,可谓是集中力量办大事。其中,透明计算(Transparent Computing, TC)项目正是期望通过基于终端数据的采集与分析增强终端上系统细粒度行为的可视能力,以实现企业级网络空间APT检测、取证等关键任务。站在巨人的肩膀上,从该项目的一系列攻防对抗模拟实战中,能够一窥美国顶级终端攻防能力的交锋。左右互搏,攻防相长,是AISecOps智能安全运营技术迭代的必由之路。作为终端溯源数据挖掘与威胁狩猎系列文章第二篇,本文将概括DAPRA TC项目的基本情况,分析总结其红蓝对抗演练的技术能力特点。期望能够为读者带来全新的视角与思考。
一、DARPA TC项目概述
1.1项目目标
现代操作系统的功能逻辑越来越复杂,计算系统的低透明度成为精细化记录、分析、预测系统级别行为的重要限制,而封闭的系统黑盒为具有高隐蔽性、高对抗性的APT攻击者提供了绝佳的潜伏场所。为了打开系统行为黑盒,实现在较低开销下提供系统各层级软件模块行为可见性,DAPRA组织了Transparent Computing项目[1]。该项目的目标技术及系统需实现:
基于以上能力的实现,TC项目旨在完成细粒度系统级行为的关联,实现在大规模行为中识别异常与恶意意图,发现潜在的APT或其他高级威胁,并提供完整的溯源分析与相关损失评估。同时,TC项目能够实现网络推理能力与企业规模网络监控和管控系统的整合,以增强关键节点的安全策略有效性。
1.2项目技术领域划分
从2016年10月到2019年5月,DARPA TC项目共组织了5次较大规模的红蓝对抗交战演习(Engagement)。在每次对抗中,TC总共划分为5个技术域(Technical Areas, TAs)。分别是:
TA1-Tagging and Tracking,负责研发低开销的系统行为采集技术与系统,以支持后续的分析任务,采集系统需支持Linux、Windows、BSD、Android等多类型操作系统;
TA2-Detection and Policy Enforcement,负责提供满足实时或取证需求的攻击的检测、关联、溯源技术与系统;
TA3-Architecture,负责整体的系统架构设计,为TA1/TA2团队提供协作的基础设施,包括网络、存储等环节;
TA4-Scenario Development,负责统筹设计攻击场景,以覆盖更多的APT类型;
TA5.1-Adversarial Challenge Team (ACT),负责APT攻击行为模拟。值得注意的是,每个技术分组内,有多个不同的团队参与。例如TA1,包括CADETS(Causal Adaptive Distributed and EfficientTracing System)、ClearScope(针对安卓移动终端)、THEIA(Tagging and Tracking of Multi-Level Host Eventsfor Transparent Computing and Information Assurance)等系统实现。TA2则包括来自UIUC、Stony Brook等高校,以及IBM、NEC等企业的安全分析团队。可以说,TC项目为一场长周期、多轮次、多高水平团队参与的大规模攻防演练提供了统一的平台。
二、DARPA TC功守道
2.1 攻——精细丰富的APT场景模拟
未知攻焉知防,每一轮长达几周的攻防对抗中,为创建逼真的网络攻防环境,在持续的背景良性数据中,由TA4设计、TA5.1模拟了长周期、多种类、跨多平台的APT攻击行为。以Engagement 3为例,主要包含两类攻击者,Nation State攻击者主要目标是靶标企业中的知识产权和个人数据;Common Threat攻击者主要目标是盗取PII(Personally Identifiable Information)数据以获取经济价值。以下记录了Engagement3中的部分攻击类型的相关标签[2],这部分数据包含了3类操作系统,每种操作系统覆盖三类攻击场景,整个时间跨度超过20天。这些攻击场景,能够覆盖典型APT攻击者的7步攻击链,并包含丰富的具体攻击方法,例如反射加载(Reflective Loading),webshell,无文件攻击等等。
更具体的,下表列举了Engagement 3/4中几个典型的攻击场景[4]:
在大规模的事件数据汇总中,攻击数据的规模占比可能低于0.001%,因此这些模拟生成的攻击行为检测,具有足够的隐蔽性和低频性。
此外,TA5.1实现了包括Carbanak、Uroburos、DustySky、OceanLotus、njRAT、HawkEye、DeputyDog等多种恶意软件在攻防平台中的投放。DARPA TC的攻击模拟展现了参与团队在APT技战术的深厚积累,感兴趣的读者,可以深入阅读相关论文和资料。整体上来看,攻方的技战术设计有如下特点,覆盖攻击模拟的广度与深度:
2.2守——打开行为“黑箱”
TA1~3技术领域团队负责从系统构建、数据采集、数据分析的防守环节。TC项目的重点在于检测、识别和溯源,因此并未看到执行实时阻断等响应环节实现。在数据采集上,相关团队利用包括Auditd,Dtrace,ETW等不同平台的系统行为采集机制,实现了各自的采集、标记系统。其中,最核心的数据就是不同类型终端的溯源数据(Provenance),有效的溯源数据挖掘方法,能够支撑威胁狩猎的多种任务场景。Provenance能够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源数据图(Provenance Graph,简称溯源图)。
基于大规模溯源数据图识别APT攻击行为,面临溯源依赖图爆炸、威胁大海捞针、性能拓展性差等多方面的技术挑战。为突破这些技术难题,在溯源图分析方法上,TA2团队主要分为两大流派,分别是启发式策略派和数据分析派。启发式策略派主要通过数据、行为标签化及启发式传播规则,实现关键信息流的建模,典型技术方法包括HOLMES,MORSE等;数据分析派,则强调数据挖掘方法,通过统计与机器学习,从异常入手甄别真实威胁与误报,典型技术方法包括NODOZE,HERCULE等。总体来说,各种分析方法能够针对TC中的不同攻击场景实现较高的检出、还原准确率,但笔者尚未看到任何一种方法能够放之四海皆准,一统天下。可以预见的是,多维度的检测分析引擎的融合,并打通人-机协同的闭环反馈,是在大规模终端数据涌入分析场景下的必由之路。终端侧的安全运营与分析,需要兼顾处理效率、数据隐私、分析准确性等多维度因素,才能有效促成终端分析能力的落地。
三、总结
DARPA Transparent Computing项目搭建的红蓝对抗演练舞台,吸引了美国终端攻防领域的顶级团队参与,也促成了终端威胁分析领域学术研究与工业技术的快速演进。从组织架构,到攻击方技战术实施,再到防守方多维采集、分析方案,有许多值得借鉴的实现。终端侧的网络攻防,已成为高级威胁对抗领域的主战场。高效采集与精细的分析齐飞,来打开终端系统的计算黑盒,方能因敌变化取胜。
本文为AISecOps终端溯源数据挖掘与威胁狩猎系列第二篇(详见第一篇《Provenance Mining:终端溯源数据挖掘与威胁狩猎》),简要介绍了DARPA的TC项目,重点概括总结了其红蓝对抗攻防演练特点。更多智能安全运营相关文章,欢迎点击阅读AISecOps系列相关文章。
能力框架篇:
数据建模篇:
算法分析篇:
《Provenance Mining:终端溯源数据挖掘与威胁狩猎》
参考文献:
[1] https://www.darpa.mil/program/transparent-computing
[2] Milajerdi S M, Gjomemo R, Eshete B, et al.Holmes: real-time apt detection through correlation of suspicious informationflows[C]. 2019 IEEE Symposium on Security and Privacy (SP), 2019: 1137-1152.
[3] Hossain M N, Sheikhi S, Sekar R. CombatingDependence Explosion in Forensic Analysis Using Alternative Tag PropagationSemantics[J].
[4] Pei K, Gu Z, Saltaformaggio B, et al. Hercule:Attack story reconstruction via community discovery on correlated log graph[C].Proceedings of the 32Nd Annual Conference on Computer Security Applications,2016: 583-595.
[5] Hassan W U, Guo S, Li D, et al. NoDoze:Combatting Threat Alert Fatigue with Automated Provenance Triage[C]. NDSS,2019.
关于天枢实验室
天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。
内容编辑:天枢实验室 张润滋 责任编辑: 王星凯
往期回顾
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。