移动互联网勒索病毒研究报告——威胁场景的还原

一、移动安全管理现状

2017年5月,勒索病毒像颗长熟的脓疮,借着移动互联网的“东风”在全球大范围的爆发。勒索病毒给网络用户特别是移动端设备严重依赖人群带来了恶劣影响。尽管各安全厂商对勒索病毒响应及时,但是不得不承认在这场网络安全战中,我们损失惨重。

这场网络攻防战使得安全厂商心有余悸,甚至要求我们重新思考传统的应用安全管理方法是否能够经得起下一次的病毒攻击?我们知道,在网络高速发展、万物互联的大环境下,网络安全很大程度上是数据安全。

对于网络安全攻防战,其本质在于信息的不对称性,无论是攻还是防,只要率先掌握了更全面的数据信息就能拥有网络安全的主动权。移动互联网作为这个时代的“弄潮儿”,它的每一场技术革新改变的不仅是信息传输的便捷性,同时还隐藏着数以万计的安全漏洞。仅仅靠对应用进行检测、加固或者监测是远远不能取胜的。对于移动应用安全管理,我们需要建立全面响应机制,不仅包括舆情监察和公开的威胁情报,还要求能够做到对威胁攻击场景的还原。

二、移动互联网威胁信息管理平台

传统的应用安全管理平台以威胁识别为主且数据处理能力有限,处于被动应急响应,威胁信息之间的关联分析维度较低,主要依赖于人工分析,威胁对抗能力不足。在威胁主动防御战中,我们需要一个高度具备驱动力的数据流转和响应驱动体系,平台反馈的威胁信息在时效性、数据关联复杂性以及威胁信息构成多样性上具有高度要求,不仅仅是一个威胁感知平台,更是一个基于大数据技术的威胁信息分析平台。

下面我们从威胁信息的数据来源、数据处理以及如何实现威胁信息挖掘三个角度介绍一个具有大数据智能分析能力的移动互联网威胁信息管理平台。

2.1 应用信息采集:全渠道覆盖

我们通过对300多个应用渠道的应用数据进行实时采集,实现对全网移动应用数据的基本覆盖。包括手机厂商应用商店、运营商应用商店、第三方应用商店、手机论坛、下载网站、网盘等。

样本采集覆盖渠道

在完成应用信息获取以及清洗之后,我们对数据进行进一步处理,在分布式文件服务器的支撑下,对获取的数据进行存储,包括应用的文件信息、运行信息、网络信息、代码特征等数据。基于分布式处理技术,实现数据的实时查询与分析。通过对全渠道应用的增量采集,使应用信息库保持持续更新,应用信息达到全网覆盖,数据质量高,具备高度可用性。

2.2 数据标签化处理

仅对已有的数据进行简单整合后加上可视化的呈现方法展现,这并不足以体现出数据的全部价值,对于大数据量的应用信息我们采用数据标签化的处理方式。

在警匪类电影中,我们通常会看到破案者在分析案件过程会在白板上标记从已知线索中拆解出的小标签,利用标签之间的联系梳理案件线索,找出犯罪嫌疑人并最终锁定罪犯。这其中就体现了数据标签化处理的思想。我们对所存储的应用信息建立应用画像,给应用从多维度“贴”上不同类型标签,建立应用“线索”关系图谱。同时,通过漏洞检测引擎、病毒检测引擎、内容违规检测引擎的多维度分析实现对已知威胁、疑似威胁信息的识别。

数据标签化——多维分析线索图示

数据标签化的处理可以使得应用与应用之间更好的关联起来,对威胁场景还原、威胁行为溯源起到支撑作用。

2.3 威胁信息挖掘:TBS病毒挖掘模型

在数据标签处理的基础上,我们已经实现对已知威胁的识别具备安全管理平台的功能。为了提升威胁信息的深度挖掘能力和对威胁事件的应急响应能力,在此基础上,我们提出并引入了TBS病毒挖掘模型(简称TBS模型;Target-Behavior-Source,缩写:TBS)。TBS病毒挖掘模型基于已有的应用数据标签,从恶意程序的攻击目的、传播方式和恶意行为三个方面的特征建立多层挖掘模型,实现从威胁识别到威胁感知、威胁溯源的体系升级。

2.3.1 TBS病毒挖掘模型的依据

恶意程序的三个重要特征为目的性、传播性和破坏性,这三者也是判断一个程序是否为恶意应用的主要依据。其中,目的性是恶意代码的基本特征,也是法律上判断恶意程序的标准;传播性是恶意程序达到攻击目的的重要手段;破坏性体现了恶意程序的攻击行为,例如破坏软硬件系统、窃取用户数据等。不同的恶意应用,在攻击目的、传播方式和恶意行为这三个方面也会有所区别。

恶意程序基本特征

移动端恶意应用与PC端应用相比具有不同的特点。例如,移动恶意应用的来源主要为第三方应用市场、网站以及公开的论坛等,通过社交软件、网盘、恶意网站等方式传播,获取用户的个人数据或勒索用户个人财产是其主要的攻击目的,因此,所利用的攻击行为与PC端存在显著差异。我们在传统恶意程序特征的基础上进行调整和细化,衍生出针对移动端恶意应用的三类特征作为TBS病毒挖掘模型的三个主要依据,分别为:攻击目标、威胁行为、传播源。

攻击目标(Target):与恶意攻击的目标和目标用户等相关的信息,例如恶意应用的目标用户、伪装方式等信息。

威胁行为(Behavior):与具体恶意破坏行为相关的特征,例如恶意扣费、信息窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为等。

传播源(Source):与移动端恶意应用的传播方式、传播来源相关的信息,例如相关的社交账号信息、网址、开发者信息等。

移动端恶意程序特征衍生关系

2.3.2 TBS病毒挖掘模型单层结构

如前文所述,TBS病毒挖掘模型在应用数据标签的基础上,将恶意程序样本特征作为病毒挖掘依据,实现多层迭代式搜索挖掘。每层搜索过程分别检测与样本集合特征相匹配的应用。当某个应用有两种以上特征符合病毒样本特征,则认为该应用为相关恶意应用。而符合一个病毒特征的视为潜在恶意应用。下一层的迭代搜索以对应的上一层获得的恶意应用为基础。

TBS病毒挖掘模型顶层示意图

上图描述了TBS模型基本的病毒挖掘过程。将移动应用从传播源、攻击目标以及威胁行为三个特征匹配的结果作为三个集合,根据集合之间的关系,每层挖掘得到的病毒样本结果分为7个部分。

具有两种或两种以上病毒样本特征的应用均具有较高的恶意性,我们将这些样本作为捕获的新增病毒样本,并且在下一层的挖掘过程中作为分析病毒特征的依据。主要包括以下4个部分:

1) 新增同质病毒样本

三个集合交集处的应用与原始样本具有相同的传播源、攻击目标以及威胁行为特征(即具有同质性),可以认为这些样本的恶意性程度很高。我们称这些新增的样本为同质病毒样本。

2) 威胁行为变异型病毒

若应用的传播源和攻击目标特征与原始病毒样本匹配,而在威胁行为方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为威胁行为变异型病毒。

3) 攻击目标变异型病毒

若应用的威胁行为和传播源特征与原始病毒样本匹配,而在攻击目标方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为攻击目标变异型病毒。

4) 传播源变异型病毒

若应用的威胁行为和攻击目标特征与原始病毒样本匹配,而在传播源方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为传播源变异型病毒。

仅匹配了一种特征的应用程序被标记为潜在恶意应用,包括:传播源衍生潜在恶意应用、攻击目标衍生潜在恶意应用以及威胁行为衍生潜在恶意应用3个部分。

1) 传播源衍生潜在恶意应用

若被扫描应用具有原始病毒样本的传播源特征,则该应用具有一定的潜在恶意性,我们将此类应用称为传播源衍生潜在恶意应用。

2) 攻击目标衍生潜在恶意应用

若被扫描应用具有原始病毒样本的攻击目标特征,则该应用具有一定的潜在恶意性,我们将此类应用称为攻击目标衍生潜在恶意应用。

3) 威胁行为衍生潜在恶意应用

若被扫描应用具有原始病毒样本的威胁行为特征,则该应用同样具有一定的潜在恶意性,我们将此类应用称为威胁行为衍生潜在恶意应用。

2.3.3 TBS病毒挖掘模型多层迭代过程

在单层病毒挖掘模型的基础上,进行多层迭代搜索,通过已经获得的病毒样本得到更多的病毒和潜在恶意应用,使我们能够获得更完备的恶意应用样本库,为分析威胁态势提供可靠依据。

TBS病毒挖掘模型层级迭代过程

TBS模型第n层的病毒挖掘以n-1层获得的病毒样本为基础,并且根据第n-1层的获得的样本所属的来源集合进行扩张:

威胁行为变异型病毒:对该集合,在威胁行为特征上进行扩充,即:搜索与该集合样本具有相同威胁行为的应用样本。

攻击目标变异型病毒:在攻击目标特征上进行扩充,即:搜索与该集合样本具有相同攻击目标的应用样本。

传播源变异型病毒:在传播源特征上进行样本扩充,即:搜索与该集合样本具有相同传播源特征的应用样本。

通过这种样本扩充方式,能够在维持模型可靠性的同时挖掘出更多的变种病毒样本,并且尽可能避免了重复的搜索。

与单层模型相同,迭代获得的样本根据所属的集合分为同质病毒样本、威胁行为变异型病毒、攻击目标变异型病毒、传播源变异型病毒、传播源衍生潜在恶意应用、攻击目标衍生潜在恶意应用、威胁行为衍生潜在恶意应用7类。并且根据样本所匹配的病毒特征的个数,分别作为新增病毒样本和新增潜在恶意应用。

2.3.4 TBS病毒挖掘模型效果验证

此前,我们针对勒索病毒进行了全网的态势分析,基于TBS病毒挖掘模型我们对勒索型恶意应用进行了全网搜寻,通过三层的检测过程,共检测到5万余勒索类病毒样本和30万余潜在的恶意应用。下图展示了经过TBS模型各层检测过程捕获的样本数量,包括病毒样本和潜在的恶意应用。图中,每层对应的样本数量为累积值(例如Level 1的样本数量为第一轮检测所获得的数量,Level 2的样本量为前两轮获取和病毒样本去重后结果,以此类推)。

TBS模型每层捕获样本数量

下面,我们结合获得的病毒样本的数量和增长局势的情况来看TBS病毒挖掘模型的实际挖掘效果。

1) TBS模型具有较强的病毒样本挖掘能力

TBS模型具有较高的病毒挖掘能力经过第一层的基于TBS模型的检测,我们从200余个病毒样本的原始样本集出发,获取到51151个恶意应用和潜在恶意应用247332个。从比例来看,第一层检测捕获的病毒样本数量是原始样本个数的两百余倍、捕获的潜在恶意应用数量原始样本个数的一千余倍。这表明,TBS模型具有较高的病毒样本挖掘能力,能够通过有限个数的原始病毒样本迅速地挖掘出大量相关病毒样本和潜在恶意程序样本,从而能够有效地评估和预测病毒威胁态势。

2) TBS模型具有较准确的病毒识别能力

TBS模型具有较准确的病毒样本识别能力TBS模型是通过应用特征多次迭代进行挖掘,因此,如果模型所基于的检测特征不够准确、缺乏代表性,会导致每次迭代引入大量无关的(非恶意)样本,使得检测结果不可信。从实际数据来看,前三层检测过程所获取的新增病毒数依次为50935个、2943个、1218个。

换言之,对于TBS模型每层检测到的病毒样本数量,其增长趋势是逐层减缓并收敛的。这表明TBS模型所选择的三个方面特征能够捕捉到病毒程序的特性,与我们对TBS模型捕获的样本进行抽样核验的结论相符。因此可以认为,我们此次获取的样本具有较高的覆盖率和可信性,并且能够反映勒索类病毒的分布和数量趋势。

三、价值落地:从威胁识别到威胁感知和溯源

平台搭建的最终目的是对威胁数据的有效利用,输出具有时效性强、数据关联复杂度高的威胁信息。高覆盖率和高可信度的样本数据的价值也从威胁识别提升到威胁感知和溯源。

3.1 多维度感知,源头可溯

要想洞悉整个威胁场景,要求我们对威胁信息的分析维度要足够全面,在此前发布的勒索病毒研究报告中,我们在自动化感知的病毒数据基础上,结合专业的威胁分析,针对勒索病毒从伪装类型、传播源、威胁行为三个维度上展开分析,在威胁地域、时间、攻击者特征等方面得出重要结论 ,并以此追踪到较大的犯罪团伙—彼岸花技术团队。针对攻击场景的威胁信息能够更直观的反映出攻击目的,为相关部门采取防护行动提供参考。我们已经具备在获悉部分条件的情况下,还原整个威胁场景的能力。

多维度威胁溯源分析示意图

3.2 多角度告警,隐患可防

在利用数据关联性分析还原威胁事件的前提下,我们对威胁趋势进行预判,从攻击手段、攻击地域、攻击目的等不同角度分析威胁趋势,针对攻击者本身以及攻击事件向移动网络用户个人、企业发出告警信号并提供专业、全面的防护措施方案,形成具有决策性的威胁情报。

当然,威胁情报驱动安全威胁信息管理平台要想实现大范围的威胁告警需要和企业、公安部门、监管部门、应用商店以及各安全厂商等建立联动机制,保证威胁信息时效性的前提下采取网络威胁的应急措施,在遭受攻击之前排查隐患、修复漏洞,切实的保护网络数据安全和个人财产安全。

四、总结

穷源溯流,网络安全威胁的来源主要包含技术风险、网络安全管理环节薄弱以及人为攻击三个因素,机器学习、物联网技术的快速发展为移动安全管理提供了更多的思路,这要求安全厂商和病毒研究人员不断攻克难关,从技术方面规避威胁;尽管目前移动安全管理处于初步阶段,但是随着国家相关政策的支持,尤其是《网络安全法》的出台,网络安全管理机制逐渐完善,公安部、监管部门、网络运营者、安全厂商等各方面的力量逐渐汇聚在一起,政企联合、警企联动的防御体系逐渐形成,安全团队逐渐扩大,共同维护网络安全;最后,提高用户网络安全意识尤为重要,网络用户的用网习惯数据一旦被窃取,很容易造成网络攻击事件的发生。

无论是病毒查杀还是威胁防御,我们在与网络攻击者的博弈中,既要保证自身的数据安全,也要善于利用对方的威胁数据。数据在网络威胁事件中虽然不占绝对位置,但是从数据中拆解出的信息却有着重要作用。移动互联网威胁信息平台的搭建实现了威胁场景还原、威胁来源追踪、未知威胁感知等能力。在保证威胁信息时效性的基础上,实现了利用威胁信息驱动安全管理的主动防御机制。

本文来自企鹅号 - 安全牛媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

腾讯报告谷歌TensorFlow首个安全风险,谷歌确认并致谢

作者:胡祥杰 【新智元导读】 TensorFlow爆出发布以来首个自身安全风险,据悉,腾讯安全平台部预研团队已向谷歌报告这一风险并获得致谢。 谷歌面向机器学习和...

3965
来自专栏数据结构与算法

洛谷P4174 [NOI2006]最大获利

题目描述 新的技术正冲击着手机通讯市场,对于各大运营商来说,这既是机遇,更是挑战。THU 集团旗下的 CS&T 通讯公司在新一代通讯技术血战的前夜,需要做太多的...

30310
来自专栏全栈数据化营销

数据分析挖掘:影响信用因素是什么?银行如何通过模型做到快速审批的?

在之前曾经写过一篇叫做“数据分析:未来,你可能发生信用卡逾期吗?”,是分析什么样的人容易发生信用卡逾期行为呢?哪些因素会影响逾期行为的严重程度?

33612
来自专栏数据科学与人工智能

【数据挖掘】客户价值分析

使用RFM方法(最近购买日Recency, 各期购买频率Frequency, 各期平均单次购买金额Monetary)能够科学地预测老客户(有交易客户)今后的购买...

22810
来自专栏数据结构与算法

奖金

【问题描述】   由于无敌的凡凡在2005年世界英俊帅气男总决选中胜出,Yali Company总经理Mr.Z心情好,决定给每位员工发奖金。公司决定以每个人本年...

3438
来自专栏数说工作室

【温故】量化投资之资本资产定价模型(CAPM)

最近股灾,有人说,这将开启中国对冲基金的黄金时代,有人说,单炒股已经是死路,宏观对冲、大类资产配置才能立于不败之地,这是宏观对冲基金最好的时代,还有人说,量化投...

32710
来自专栏数说工作室

量化投资之资本资产定价模型(CAPM)

量化投资之资本资产定价模型 (CAPM) 目录 一、前言 二、CAPM模型 1. 切点组合、分离定理与市场组合 2. 资本市场线 ...

39912
来自专栏Python中文社区

用Python做证券指数的三种策略分析

这两天恰好看到一本比较有趣的书,《FOF组合基金》。讲的是Fund of Fund,讲的是组合基金的理论,架构和实践。可以说是有既有理论高度,又有实践的策略。 ...

8977
来自专栏CDA数据分析师

实战 | 客户细分:如何找到最有价值的TA?

本文由CDA作者库成员麻赛原创,并授权发布 原文来自公众号麻大湿讲数据(ID:madashi_data)。 ? 客户是最宝贵的资源,没有客户资源就没有生存和发展...

1896
来自专栏文渊之博

大数据脱敏

大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信...

714

扫码关注云+社区