【安全】机器学习的网络罪犯

AiTechYun

发布于 2018-03-06 10:53:50

7580

发布于 2018-03-06 10:53:50

文章被收录于专栏：ATYUN订阅号

机器学习正遭受来自网络安全方面的困扰。而最近的调查结果显示了网络犯罪分子如何利用机器学习来使攻击变得更好、更快。

本文的目的是对恶意网络空间中机器学习部署或现实方法的信息进行系统化。它的目的是帮助信息安全团队成员为即将发生的威胁做准备。

网络罪犯的任务

所有网络罪犯可以通过从初始信息收集到系统妥协的机器学习辅助任务，可以分为以下几类:

– 收集信息—准备攻击;

– 假冒—试图模仿一个知己;

– 未经授权的访问—绕过对某些资源或用户帐户的访问权限;

– 攻击—执行实际的攻击，如恶意软件或DDoS;

– 自动化—自动化开发和后期开发。

利用机器学习进行信息收集

信息收集是每个网络攻击的第一步，无论是针对一个受害者还是针对多个受害者。你收集的信息越好，成功前景就越大。

在准备过程中，黑客可以使用分类算法将潜在的受害者描述为属于合适的群体。想象一下，在收集了数千封电子邮件之后，您只会将恶意软件发送给那些更有可能点击链接的人，从而降低安全团队参与的可能性。举一个简单的例子：你可以将那些在社交网站上写关于IT主题的用户与那些关注食物和猫的用户分开。作为攻击者，我会选择后者。从k -均值和随机森林到神经网络的各种聚类和分类方法都可以使用。

关于目标攻击的信息收集，只有一个受害者和复杂的基础设施，任务是尽可能多地获得关于这个基础设施的信息。其目的是自动化所有显而易见的检查，包括关于网络的信息收集。虽然现有的网络扫描仪和嗅探器等工具可以分析传统网络，但是基于SDN的新一代网络太复杂了。这就是机器学习可以帮助对手的地方。一个鲜为人知但有趣的概念是，了解你的敌人(KYE)攻击，允许收集关于目标SDN网络配置的隐形情报，这是将机器学习应用于信息收集任务的一个相关示例。黑客可以收集的信息范围从安全工具的配置和网络虚拟化参数到一般的网络策略(如QoS)等。通过分析一个网络设备的规则被推入网络的条件和规则的类型，攻击者可以推断出关于网络配置的敏感信息。

在探测阶段，攻击者会试图触发特定交换机上流量规则的安装。探测流量的具体特征取决于黑客感兴趣的信息。

在下一个阶段，攻击者分析探测阶段产生的探测流量与安装的相应流量规则之间的相关性。从这个分析中，他或她可以推断网络策略针对特定类型的网络流量执行。例如，攻击者可以通过在探测阶段使用网络扫描工具来筛选网络流量来实现防御策略。如果手动完成，可能需要数周的时间才能收集数据，而您仍然需要具有预配置参数的算法，例如需要多少个特定数据包才能做出决定，因为数量取决于各种因素。在机器学习的帮助下，黑客可以自动化这个过程。

这是两个示例，但通常情况下，需要大量时间的信息收集任务也可以自动化。例如，可以通过添加一种遗传算法、LSTMs或GANs来生成更类似于现有目录的目录名，从而改进用于扫描可用目录和文件的工具DirBuster。

利用机器学习来假冒

网络罪犯利用伪装以各种方式攻击受害者，取决于沟通渠道和需要。攻击者在发送电子邮件或使用社会工程后，能够说服受害者使用链接或恶意软件。因此，即使是电话也被认为是冒充的手段。

电子垃圾邮件是机器学习使用的安全领域之一，估计将成为网络罪犯应用的第一个领域。他们不用手动生成垃圾短信，而是“教”一个神经网络来创建一个看起来像真正的电子邮件的垃圾邮件。

然而，在处理电子邮件的时候，很难像你冒充的人那样行事。问题在于，如果你在邮件中要求员工更改密码或以公司管理员的名义下载更新，那么你就不能像管理员那样，用同样的方式来写。除非你看到一堆他或她的邮件，否则你无法复制这个风格。即使这样，这个问题也可以通过网络钓鱼来解决。

社交媒体网络钓鱼比电子邮件网络钓鱼的最大优势是公开性和便于访问个人信息。您可以通过阅读他或她的帖子来观看和了解用户的行为。这个想法在最近一个名为“社会工程数据科学化”的研究中得到证实。

该研究是在Twitter上用E2E自动标枪进行的。这项研究展示了SNAP_R，它是一种可以显著增加网络钓鱼运动的自动化工具。传统的自动钓鱼攻击可以提供5-14％的准确度，而手动钓鱼的钓鱼攻击则有45％。他们的方法恰到好处，准确率达到30％，在某些情况下达到66％，与自动化相同。他们使用Markov模型根据用户先前的推文生成tweet，并将结果与当前的神经网络(特别是LSTM)进行比较。LSTM提供更高的准确度，但需要更多的时间来训练。

在人工智能的新时代，企业不仅创造了虚假的文字，还创造了虚假的声音或视频。Lyrebird是一家专门从事媒体和视频的初创公司，它可以模仿声音，可以制造出一个和你一模一样的机器人。随着越来越多的数据和不断发展的网络，黑客可以呈现更好的结果。由于我们不知道Lyrebird是如何工作的，黑客可能无法使用这个服务来满足他们自己的需要，因此他们可以发现更多的开放平台，比如Google的WaveNet，则可以做同样的事情。

利用机器学习进入未经授权的访问

下一步是获得对用户帐户的未授权访问。想象一下，网络罪犯需要未经授权的访问用户的会话。最明显的方法是在账户上妥协。对于大规模的黑客攻击，最恼人的事情之一是忽视captcha。许多计算机程序可以解决简单的captcha测试，但最复杂的部分是对象分割。有大量的研究论文中描述了captcha的绕开方法。2012年6月27日，Claudia Cruz，Fernando Uceda和Leobardo Reyes发表了首批机器学习的例子。他们使用支持向量机（SVM）方法打破系统在reCAPTCHA图像上的运行，精确度为82％。所有captcha机制都有了显著的改善。然而，随后出现了一波论文，他们利用深奥的学习方法破解captcha。在2016年，发表了一篇文章，详细介绍了如何用深度学习以92%的准确率来破解简单captcha。

另一项研究使用了图像识别领域的最新进展之一 – 具有34层的深度残留网络，打破印度流行网站IRCTC的captcha，精确度达到95-98％。这些文章大多采用基于字符的captcha。

最鼓舞人心的一篇论文发表在了BlackHat会议上。这项研究被称为“我是一个机器人”。他们使用了最新的语义图像captcha，并比较了各种机器学习算法。这篇论文承诺打破Google的reCAPTCHA的准确度，竟达到98%。

更糟糕的是，一篇新的文章指出：科学家们警告说，即将有100%的captcha绕开方法。

在机器学习的帮助下，网络犯罪的另一个优势就是密码暴力。

Markov模型最初被用来生成密码“猜测”的，早在深度学习成为热门话题之前就已经有很长一段时间了。如果您熟悉当前的神经网络和LSTM，您可能听说过一个基于经过训练的文本生成新的文本的网络，就像您给这个网络一个莎士比亚作品，它将根据它创建一个新的文本。同样的想法也可以用来生成密码。如果我们能在最常见的密码上训练一个网络，它就能产生很多类似的密码。研究人员采用了这一方法，将其应用于密码，并获得了积极的结果，这比传统的基因突变更容易创建密码列表，比如将字母转换为符号，例如从“s”到“$”。

另一种方法是在论文“ PassGAN：密码猜测的深度学习方法 ”中提到的，研究人员使用了GAN（生成对抗性网络）来生成密码。GAN是由两个网络组成的特殊类型的神经网络：一个通常被称为生成性的，另一个是有区别性的。当一个正在生成adversarial示例时，另一个正在测试是否可以解决一个问题。其核心思想是根据最近发生的数据泄露所收集的密码真实数据来训练网络。在公布了最大的14亿密码的数据库之后，这一想法有望成为网络罪犯的福音。

利用机器学习进行攻击

网络罪犯想要使用机器学习的第四个领域进行有效的攻击。总的来说，攻击有三个总体目标:间谍、破坏和欺诈。大部分都是通过恶意软件、间谍软件、ransomware或任何其他类型的恶意程序来执行的，用户通过网络钓鱼或攻击者将这些程序上传到受害者身上。无论如何，攻击者需要将恶意软件上传到受害者的机器上。

网络罪犯如何利用机器学习来制造恶意软件?关于恶意软件创建的第一个众所周知的例子是在2017年，在题为“基于GAN的黑盒攻击生成Adversarial恶意软件示例”的文章中，作者构建了一个名为MalGAN的网络。

本研究提出了一种生成恶意软件实例的算法，可以绕过黑盒机器学习的检测模型。所提出的算法比传统的基于梯度的生成算法更有效，能够将检出率降低到接近零。该算法是很明显的，该系统将原始恶意软件样本作为输入，并基于样本和一些噪声输出adversarial示例。神经网络的非线性结构使它们能够生成更复杂和灵活的例子来欺骗目标模型。

我之前提到过，有三种主要的攻击目的:间谍、破坏和欺诈，其中大多数是恶意软件。然而，还有另一种相对较新的攻击方式，可以被认为是一种破坏行为，它被称为“Crowdturfing”。简单地说，crowdturfing是一种对众包服务的恶意使用。例如，一个攻击者向员工支付现金，为竞争对手的业务写负面的在线评论。由于真实的人写这些评论，所以这些评论通常不会被发现，因为自动化工具正在寻找软件攻击者。

其他的可能就是大量的跟踪、DoS攻击或虚假新闻等虚假信息的生成。在机器学习的帮助下，网络罪犯可以降低这些攻击的成本并使之自动化。在2017年9月发布的“在线评论系统中的自动化攻击和防御”研究中，介绍了一个在Yelp上生成虚假评论的系统示例。

针对网络犯罪自动化的机器学习

有经验的黑客可以在不同的领域使用机器学习来自动完成必要的任务。很难判断什么时候和什么将会被自动化，但是意识到网络犯罪组织有数百个成员需要不同类型的软件，例如支持门户或支持机器人。

在特定的网络犯罪任务中，有一个新的术语- Hivenet ，代表智能僵尸网络。其想法是，如果僵尸网络是由网络罪犯手动管理的，那么Hivenets可以有一种大脑来达到某个特定的事件，并根据它们而改变行为。它就像生物体中的一串寄生虫一样。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-28，如有侵权请联系 cloudcommunity@tencent.com 删除

安全