专栏首页安全速报腾讯安全威胁情报中心“明炉亮灶”工程:​自动化恶意域名检测揭秘

腾讯安全威胁情报中心“明炉亮灶”工程:​自动化恶意域名检测揭秘

00 导语

构建恶意域名检测引擎,对海量域名进行自动化检测并识别出恶意域名,让威胁情报的检测和运营变得更智能、更高效,以缓解威胁情报分析师分面对海量威胁数据的分析压力。

01 应用背景

随着互联网体量的急剧增大,基于网络访问的各种网络攻击、木马、蠕虫等威胁潜藏在海量的网络事件中,这让专注情报分析的威胁情报分析师不堪重负,而如果能通过自动化的威胁感知和检测技术,实现从海量数据中自动发现和检测威胁,将能够有效减轻威胁情报分析师运营负担,并极大增强威胁情报检测和运营的效率。

其中,恶意域名情报是威胁情报的重要组成部分,包括恶意域名检测(Malicious Domains Detection)[1]、域名生成算法识别(DGA Recognition)[2]等。相比于一般的文本、图像等算法任务,安全领域的恶意域名检测受困于缺乏可靠的评测数据,当前并没有出现突破性且可复现的学术进展。

得益于腾讯安全在网络安全领域海量数据积累和众多网络安全领域专家,使得恶意域名检测的自动化实现,有了充实的数据和专家知识基础。

本文所述的恶意域名检测引擎 (Malicious Domain Detection Engine, MDDE) ,实现了对恶意域名的自动检测,并为威胁情报智能化检测和运营提高了效率。

02 概述

人工判定域名黑白灰对专家能力和经验要求比较高,如下图是腾讯高级威胁追溯系统-安图,对一个可疑域名的展示结果:

腾讯高级威胁追溯系统 产品界面

威胁情报分析专家通过对域名各种上下文进行追溯,如可疑软件访问、知识图谱关联、关联威胁事件来判定一个域名是否是恶意域名。这样,在面对大量域名时,既耗时又需要足够的专家人力,MDDE应运而生。

MDDE核心功能是判断一个域名是否为恶意。MDDE的核心组件是基于监督学习得到的三分类机器学习模型MDDE-core,它将一个域名判定为黑白灰三种类型。此外,针对具体的业务和任务(开源情报评估、白名单生产等),引擎提供基于不同策略的接口,MDDE整体架构如下。

MDDE整体架构

引擎的构建,主要分为四个部分:MDDE-core建模、基于腾讯安全大脑的域名样本实时向量化、域名威胁检测和反馈优化。下面逐一进行介绍。

03 MDDE-core建模

MDDE-core是检测域名黑白灰属性的三分类机器学习模型,本文会对建模过程中,有价值的细节进行详述。

MDDE-core

3.1 数据收集与抽样

MDDE-core是一个三分类模型,在标注数据的获取阶段,需要获取黑白灰三类域名标注数据。

白域名数据,是从自有域名白名单情报中抽样获取的。这里简单介绍一下,域名白名单情报的构建。在威胁情报知识体系的构建中,白域名是高广且提供合法正常互联网服务的站点,如 qq.com。现有域名白名单情报的构建是通过在Alexa top1m、Umbrella top1m等数据上经过分析挖掘等得到的,这里很重要的一点就是,如Alexa top1m这样的名单中,依然存在恶意站点,如piz7ohhujogi[.]com[7]。所以,公开的高广域名依然需要进一步挖掘。

黑灰域名标注数据来源于安全分析专家对可疑域名数据的人工鉴定。通过对安全事件、威胁访问等数据进行规则挖掘,得到了大量潜在恶意的域名,安全专家通过对这些恶意域名进行溯源、分析,来判定这些域名是否为恶意域名,在MDDE-core的建模过程中,选取了这些人工鉴定的恶意域名作为黑,非恶意的域名作为灰。

同时,通过对恶意域名的结构进行分析发现,一些属于同一二级域名的子域名往往从事一些相似的威胁活动,为了避免同类型域名数据的冗余导致模型过拟合,在黑域名标注数据的构建中,在同一二级域名上,随机抽取固定量的子域名作为黑域名。

通过以上收集与抽样,构建的黑白灰标注数据,基本覆盖了预测场景中的待测域名类型。

3.2 原始特征数据获取

机器学习任务的上限是特征,特征的基础便是数据类型的丰富度。受益于腾讯海量安全数据的积累,恶意域名的溯源和分析有了充足的背景知识和数据集成平台,这为MDDE-core的构建提供了两个维度的准备,一是丰富的样本特征,如DNS、URL等数据,让威胁鉴定有了充足的上下文,一是充分覆盖了各个领域、各种类型的域名,让威胁难逃检测之网。

这里所涉及到的具体数据由训练所用特征决定,通过在数据平台对原始数据进行收集、整合,MDDE-core实际特征构造所涉及的实时数据量,已达数千亿级别。

3.3 特征与建模

MDDE-core实际建模所使用的到的特征,总共有四种类型:域名字符特征、样本关联特征、域名属性特征、网络访问特征。具体建模特征如下表。

建模特征

域名字符特征

这一类特征源于DGA的识别,目前,由DGA构造的域名一般为恶意域名。此外,根据具体黑域名特点,构造了如子域名是否为数字这样的特征。

每种特征的具体含义如下:

  • 域名字符熵,域名字符串的字符熵做特征值;
  • 域名字符长度;
  • 域名级别,从3级域名起始到6级域名为止,6级以上映射为同一值,并做dummy variable转换;
  • 域名数字数量,数字字符数量及占比;
  • 特殊字符数量及占比;
  • 字符类型变换次数,数字序列、字母蓄力、特殊字符序列转换次数;
  • 最长非顶级域名长度及占比;
  • 数字子域名数量及占比,如 f(22.1867.jp)=2;
  • 成词子域名数量及占比,如f(red.com)=1;
  • 是否是邮箱前缀,f(mail.qq.com)=1;
  • 黑灰白顶级域名,统计训练数据 黑:(白+灰)顶级域名的分布,得到纯黑顶级域名集、纯白顶级域名集、偏白顶级域名集、偏黑顶级域名集、相近顶级域名集,判断每个与的顶级域名属于哪个集合,OOV作为相近顶级域名集;

样本关联特征

这里的样本指代软件样本,一个黑域名往往与一个黑样本存在密切通信,详情如下:

  • 黑白灰样本访问域名,访问域名的黑白灰软件样本的数量及占比;
  • 传播黑白灰样本,黑白灰样本从域名传播的数量及占比;
  • 黑白灰样本包含域名,包含域名的黑白灰样本数量及占比;
  • 互联网访问,互联网访问域名的数据及占比。

域名属性特征:

  • 黑白URL数量及占比;
  • 黑白IP,黑白IP数量及占比;
  • 注册国别,是否为东欧等;
  • whois保护,是否开启whois保护;
  • 备案,是否有备案信息;
  • 注册邮箱关联,注册邮箱关联域名的数量;
  • 注册者关联,注册者关联域名数量;
  • 注册电话关联,注册电话关联域名数量;
  • cname,cname数量。

网络访问特征

构造以天为单位的域名访问量两周序列,计算最大值、最小值、方差。

以上便是经过充分的特征分析实验后,实际用于建模的特征。最终特征集的确立,基于特征选择、变换等方式经过了反复的迭代实验而得到。如下图是部分特征与类别的皮尔逊相关系数,从中可以看出,是否开启whois保护和其黑url比例是类别的两个强关联特征。

域名访问量

同样的,下图是从黑白灰三类域名下载的黑软件样本数量与下载的所有样本数量的比值,可以看出,从黑域名下载的黑样本比例明显高于灰白域名。

黑软件样本数量与所有下载数量对比

模型的选择中,考虑到数据倾斜的影响,在对比了多种模型的验证结果后,使用kNN(sklearn)、random forest(sklearn)和gradient boosting(microsoft)进行hard vote的建模策略。最终测试结果中,三类别准确率为0.92933,详细结果如下。

准确率对比

由上表可以看出,黑白域名的精确和召回偏高,而灰域名的F1为0.86796,呈现出的特点是两头高,中间低的特点,这为MDDE的后处理策略,提供了思路。

04 实时域名向量化

在第3节中,建模用的域名会在数据平台上获取相关特征的原始数据,然后传输到关系数据库,再通过开发机进行试验编码,但在实际的安全分析和运维中,需要对当时遇到的域名进行实时的评估分析,但从集群平台到本地,或者输入域名到集群,在集群上搭建域名检测流程,都会有比较强的滞后。

为了能够对域名进行快速的分析评估,MDDE基于腾讯安全大脑实现了域名样本的实时向量化。

腾讯安全大脑基于S2Graph构建的图数据库,已支持超200亿节点、1600亿边的安全知识图谱。安全大脑提供的图计算和图查询功能,让MDDE实现了对域名的实时检测。

基于S2Graph构建

此外,即使拥有海量域名相关的数据,但依然会存在现有部分特征数据没有覆盖到某些待测域名,因为对于一个域名特征向量,会通过以下规则来判定样本是否稀疏: Not Sparse if md5_visit > 0 & cnt_resolved > 0 & user_visit >0 last week 即当过去一周,该域名被样本访问、被解析且被浏览过时,认为样本特征不稀疏,可以输入MDDE-core进行检测。

05 域名威胁检测

在获得有效的域名特征向量后,MDDE-core会对域名进行威胁检测,并对不同的检测结果,结合相关上下文,通过网页分类、头部分析、专家规则、数据挖掘来进行不同层面和维度的判定。

域名威胁检测

5.1 IOC检测

域名IOC主要来源于MDDE-core检测为黑的域名。MDDE-core判为黑的域名进一步通过网页分类模型来判定其是否为正常网页、过期域名,若是正常网页,则判定为失陷域名,否则视为有效恶意域名,而过期的域名不会作为有效的情报。

此外,MDDE-core判定为灰的低危域名中,依然存在着有价值的情报,这部分域名IOC主要来源于MDDE-core判灰的头部数据中,这部分头部数据经过了专家规则扫描过滤,再通过人工运营来判定黑白。

5.2 白名单生产

对于检测为白的域名,MDDE会进一步基于规则来判定其是否可以加入白名单情报。首先,会获得该域名的广度,只有域名有足够的广度,才能加入白名单,其次,网页分类模型判定其是否为一个正常网页、或过期域名,只有当具有一定广度的正常网页,才能作为域名白名单情报。

5.3 情报标签

网页分类模型严格来说是基于规则和模型的网页分类器组件,它对网页源码建模,主要识别网页是否为以下两组类型:过期、正常网页和非正常网页;色情、赌博、矿池。两组类别组内互斥。色情、赌博、矿池可用于丰富情报标签。这其中包含网页分类知识库的挖掘构建,如域名注册站点的挖掘。

5.4 开源情报评估

在威胁情报的生产过程中,开源情报的评估入库是非常重要的一项内容。当有大批量的开源恶意域名需要评估时,MDDE可以对情报进行评估报告,评估可疑域名集的威胁指数:高、中、低。通过评估报告,为开源情报的处理提供有效建议。

06 结果反馈与迭代

MDDE的整个开发过程是迭代反复的,通过专家经验、统计分析、误报分析来评估整个MDDE的性能,从而扩充建模特征、优化专家规则、调整处理流程等,在此基础上,积累高质量的标注数据,从而让域名的检测更快更轻更智能。

反馈

07 总结

作为目前整个威胁情报检测和运营体系流程中的精小一环,恶意域名检测引擎的实现,极大的简化了威胁情报中恶意域名的发现、检测和评估,提高了情报检测、运营的效率。但需要注意的是,即使现有特征数据的多样性在业界无出其右,但对于恶意域名检测这样一个难度较高的机器学习任务而言,依然需要更全备的数据信息和知识,才有可能实现域名检测的真正智能化、自动化。

致谢 由衷感谢腾讯威胁情报开源项目组对本文的支持。

参考 [1] Zhauniarovich Y, Khalil I, Yu T, et al. A survey on malicious domains detection through DNS data analysis[J]. ACM Computing Surveys (CSUR), 2018, 51(4): 1-36. [2] Woodbridge J, Anderson H S, Ahuja A, et al. Predicting domain generation algorithms with long short-term memory networks[J]. arXiv preprint arXiv:1611.00791, 2016. [3] Fu Y, Yu L, Hambolu O, et al. Stealthy domain generation algorithms[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(6): 1430-1443. [4] Manadhata P K, Yadav S, Rao P, et al. Detecting malicious domains via graph inference[C]//European Symposium on Research in Computer Security. Springer, Cham, 2014: 1-18. [5] https://www.aqniu.com/news-views/28754.html

原文链接:https://mp.weixin.qq.com/s/QV8ErKHow3b-AMp6HMzKQg

相关文章

  • 腾讯安全月报丨0误报通过赛可达认证、DDoS威胁报告发布、CASB方案上线……

    1月,《IDC特殊研究:中国智慧城市安全运营中心市场洞察》发布,综合呈现了相关建设现状、实践成果、未来趋势及进阶建议。腾讯智慧城市安全运营中心凭借产品技术实力、...

    腾讯安全
  • 腾讯安全威胁情报中心“明厨亮灶”工程:图分析技术在恶意域名挖掘和家族识别中的应用

    目前各个安全厂商都开始积极地挖掘情报数据的价值,研究威胁情报分析与共享技术。越来越多的安全厂商开始提供威胁情报服务,众多企业的安全应急响应中心也开始接收威胁情报...

    腾讯安全
  • 在FIT 2019上,我们的这块“盾牌”和“镜子”获奖了

    在昨天举办的 FreeBuf 互联网安全创新大会( FIT 2019)上, WitAwards 2018年度互联网安全年度评选结果揭晓——腾讯云“数盾”全流程...

    腾讯云安全
  • 网络安全黑暗森林法则 | 2015中国互联网安全大会(ISC)深度回顾

    2015中国互联网安全大会(ISC)于9月29日至30日在北京国家会议中心举办。作为亚太地区信息安全领域最大规模、最专业的年度会议,此次展会吸引了2.5万人次现...

    FB客服
  • 网络安全黑暗森林法则:2015 ISC 深度回顾

    2015中国互联网安全大会(ISC)于9月29日至30日在北京国家会议中心举办。作为亚太地区信息安全领域最大规模、最专业的年度会议,此次展会吸引了2.5万人次现...

    逸鹏
  • 3389批量端口爆破攻击出现新蠕虫

    新型BuleHero挖矿蠕虫变种利用端口爆破攻击 腾讯安全率先捕获近日,腾讯安全御见威胁情报中心再次监测到一款全新变种的BuleHero挖矿蠕虫。结合对该病毒发...

    it妹
  • 重磅:2019上半年云安全趋势报告发布(附下载链接)

    腾讯安全与互联网安全新媒体FreeBuf联合出品《2019年上半年云安全趋势报告》。同时,报告基于腾讯安全对于国内云安全状况的分析,给出了可行的安全建议。 2...

    腾讯云安全
  • 精彩速览 | 2018威胁情报&APT攻击技术与趋势高峰论坛(附PPT下载)

    五月的最后一天,伴着淅淅沥沥的小雨,由国内知名互联网安全新媒体FreeBuf 主办的2018威胁情报&APT攻击技术与趋势高峰论坛在上海证大美爵酒店盛大召开。本...

    FB客服
  • 一文透析腾讯安全威胁情报能力

    “信息化时代进程的加快,使得网络安全建设成为国家与企业发展重要支柱。诸如网络入侵、黑客攻击等网络犯罪分子或者敌对势力的非法入侵,严重威胁电信、能源、交通、金融以...

    腾讯安全
  • 腾讯云防火墙全新升级,“三道墙”助力企业云安全防控更高效

    在云的时代,伴随更多企业客户转向公有云,基于云原生的防火墙技术逐步取代传统防火墙,成为守护企业云端安全的关键基础设施。近日,腾讯安全战略级新品——SaaS化云防...

    腾讯安全
  • 国际顶级行业研究机构发布:腾讯安全位居威胁情报服务市场领导者象限

    北京时间11月30日,《IDC MarketScape:中国威胁情报安全服务(TISS)市场,2018厂商评估》报告正式发布,腾讯凭借腾讯云覆盖“云管端”的智...

    腾讯云安全
  • 案例会说话︱全景解析腾讯云安全:从八大领域输出全链路智慧安全能力

    腾讯云安全
  • 全景解析腾讯云安全:从八大领域输出全链路智慧安全能力

    近日,在广州举办的2018腾讯“云+未来”峰会圆满落幕。这场聚焦云计算行业的盛会吸引了众多业界重量级嘉宾,多场论坛探讨就云计算的发展现状、技术突破、安全未来等话...

    鹅厂优文
  • FireEye红队工具遭盗取,腾讯安全已检测到数百个符合规则的利用样本

    12月8日,美国网络安全公司 FireEye 官方博客发布公告称“本公司遭到某政府黑客入侵,FireEye 用于检测客户安全防御能力的红队工具(Red Team...

    腾讯安全
  • 技术干货|威胁情报如何在SOC场景中发挥最大价值

    数字化转型是当下企业面临的重要课题。在数字化转型过程中,每个企业都无法回避来自网络攻击的困扰。面对五花八门的安全风险,根据经验构建防御策略、部署产品的传统方式已...

    腾讯安全
  • 腾讯主机安全捕获YAPI远程代码执行0day漏洞在野利用,该攻击正扩散,可使用防火墙阻截

    腾讯主机安全(云镜)捕获YAPI远程代码执行0day漏洞在野利用,该攻击正在扩散。受YAPI远程代码执行0day漏洞影响,从7月第1周开始,未部署任何安全防护系...

    腾讯安全
  • 通报:Confluence远程代码执行漏洞(CVE-2021-26084)被黑产大规模利用

    8月26日,Atlassian官方发布公告,披露了一个Atlassian Confluence 远程代码执行漏洞(CVE-2021-26084),攻击者利用漏洞...

    腾讯安全
  • FreeBuf 2018年企业安全月报(一月刊)

    去年年底,FreeBuf研究院发布了《2017企业安全威胁统一应对指南》,帮助企业了解 2017 年安全行业的威胁动态和企业能够实际采取的应对方案,有助于帮助企...

    FB客服
  • 木马围城:比特币爆涨刺激挖矿木马一拥而上围猎肉鸡资源

    云主机是企业数字化转型的重要基础设施,承载着重要的数据和服务价值,也逐渐成为了黑客的重点攻击对象。随着虚拟机、云主机、容器等技术的普遍应用,传统安全边界逐渐模糊...

    Kendiv

扫码关注云+社区

领取腾讯云代金券