基于深度学习的内部威胁检测：回顾、挑战与机遇

月梦@剑心

发布于 2022-09-14 14:13:11

4.4K1

阅读发表在computers & security（CCF-B）上的文章Deep learning for insider threat detection：Review，challenges and opportunities，一篇内部威胁检测的综述，来了解内部威胁检测的历史，挑战以及未来的研究方向。

摘要

内部威胁，作为网络安全中一种最具有挑战性的威胁类型，通常给组织带来重要的损失。尽管内部威胁检测问题已经在安全与数据挖掘领域被研究了很长时间，传统的基于机器学习的检测方法，严重依赖于特征工程，由于与底层数据特征相关的多个挑战，很难精确地捕获到内部用户与普通用户的行为差异。例如高维性、复杂性、异质性（非均匀性）、稀疏性、缺乏标签的内部威胁以及内部威胁的不易察觉性和自适应自然性。先进的深度学习技术提供了一个新的范例去从复杂的数据中学习一个端到端模型。在这个简短的调查中，我们首先介绍常用的用于内部威胁检测的数据集并且回顾最近的关于深度学习的文章。已经存在的研究表明，与传统的机器学习算法相比深度学习模型能够提升内部威胁检测的表现。然而，应用深度学习进一步推动内部威胁检测任务仍然面临许多限制，比如无标签数据以及自适应攻击。我们讨论一些挑战并且建议未来的有潜力解决挑战的、进一步提升深度学习对内部威胁检测的性能的研究方向。

一、介绍

内部威胁是组织内部人员带来的恶意威胁，它通常涉及故意欺诈、窃取机密或有商业价值的信息、或者蓄意破坏计算机系统。内部威胁拥有不易察觉、发展变化的特点，这使得检测特别困难。2018美国网络犯罪调查表明25%的网络攻击来自于内部人员，30%的受害者表明由内部人员攻击引起的事故的代价或者危害比外部攻击者要大。

根据来自CERT的最新的技术报道，一个恶意的内部威胁被定义为“一个现在的或以前的雇员，承包商或商业伙伴有被授权的入口接触到组织的网络、系统或者数据，并且有意超出或有意使用该访问权限，从而对组织信息或信息系统的机密性、完整性或可用性产生了负面影响”。

与外部攻击相比，内部攻击的足迹难以隐藏，内部人员的攻击很难去检测因为恶意的内部威胁已经有被授权的权利通往内部信息系统。内部威胁检测在过去十年里吸引了大量关注，于是许多内部威胁检测方法被提出。绝大多数内部威胁检测方法通过经由审计数据分析用户的行为，包括基于本地的数据（存放用户在他们自己电脑上的活动）、基于网络的数据（由网络设备记录），以及文本数据（记录用户的个人信息）。一个近期的调查深入基于用于检测的策略和特征将内部威胁检测技术分成了九个类：（1）基于异常的方法，（2）基于角色的访问控制，（3）基于场景的技术，（4）诱饵文件文件和蜜罐技术，（5）利用心理因素进行风险分析，（6）使用工作流进行风险分析，（7）加强网络防御，（8）通过访问控制提高防御，（9）过程控制以劝阻内部人员。

尽管现有方法在内部威胁检测上表现良好，传统的浅的机器学习模型，由于数据的高维性，复杂性，非均匀性以及稀疏性，不能充分利用用户行为数据[尚待斟酌]。从另一方面，深度学习作为一个表示学习算法，基于它的深层结构，能够从复杂数据中学习到多层隐藏表示，可以被作为一个去分析一个组织中的用户行为来识别来自内部人员的潜在的恶意活动的强有力的工具。

近年来，通过借助深度前馈网络、CNN、RNN以及GNN的力量，许多解决内部威胁检测的方法被提出。例如，许多基于RNN的模型被提出用来分析用户序列数据来识别恶意活动，同时一个基于GNN的模型被研究出来，它基于一个组织中的用户结构化数据去检测内部威胁。然而，使用深度学习模型来进行内部威胁检测仍然面临许多与内部威胁检测数据的特征相关的挑战，例如极小量的恶意活动以及自适应攻击。因此，发展先进的可以提升内部威胁检测表现的深度学习模型，仍有待研究。

当前，关于深度学习用于内部威胁检测的研究，目前尚无综述。我们不致力于为内部威胁领域或者深度学习综述提供一个全面的考察。在本工作，我们主要回顾了深度学习在内部威胁检测中的研究进展，并且指出深度学习用于内部威胁检测的潜在的未来的方向。在第二部分，我们首先简短地回顾了深度学习以及他在异常检测上的应用。在第三部分，我们介绍了常用的用于内部威胁检测的数据集，解释了为什么内部威胁检测需要深度学习，并对近年来基于深度学习的内部威胁检测的研究工作进行了综述。在第四部分，我们将挑战划分为极度不平衡的数据，不易察觉的攻击，攻击中的时间信息，异构数据融合，自适应威胁，细粒度的检测，早期检测，可解释性，缺乏实验，缺乏实用的指标。在第五部分，我们指出了基于少射击学习、自监督学习、深标记时间点过程、多模态学习、深度生存分析、深贝叶斯非参数学习、深度强化学习、除去试验台开发的可解释深度学习的内部威胁检测的研究机会。最后，我们在第六部分对本次调查进行总结。

本调查的主要贡献如下：首先，尽我们所知，这是关于使用深度学习技术解决内部威胁检测挑战的首次调查，我们总结了用于内部威胁检测的最新深度学习模型。其次，根据内部人士和内部威胁的特点，我们总结了10个现有的挑战。第三，我们指出了改进深度学习模型用于内部威胁检测性能的10个未来方向。

二、深度学习及其在异常检测中的应用

2.1深度学习

在计算机视觉、自然语言处理和语音识别等各个领域，深度学习都取得了巨大的成就，在过去的几年里，深度学习一直主导着机器学习领域。传统的机器学习模型严重依赖手工工程来识别有用的特征来表示原始数据，与之相比，深度学习模型能够从原始数据中学习语义表示，而人力投入很少。深度学习模型作为表示学习模型采用多层结构对数据表示进行学习，低层捕获数据的低层特征，高层提取数据的高层抽象。深度学习模型可以根据其架构大致分为四类:(1)deep feedforward neural network(FDNN),其中包括很多由多个层次组成的深度学习模型，比如deep belief network(深度信念网络)，deep Boltzmann machine(深玻尔兹曼机)以及deep autoencoder(深自编码器)。(2)CNN，利用卷积层和池化层来实现平移不变属性。(3)recursive neural network(RvNN)，它采用可变大小的递归数据结构，并在层次结构中进行预测。(4)RNN，它维护一个内部隐藏状态以捕获内部信息。由于深度学习领域的快速发展，每年都有许多新的深度结构被提出。读者可以参考最近的调查，例如.....，来了解到更多关于深度学习以及它在多个领域的应用的信息。

2.2用于异常检测的深度学习

异常检测是识别所有与其他实例不同的实例，这对于多个应用领域来说是一个重要的问题，比如欺诈检测，入侵检测以及视频监控。Anomalies在数据挖掘和统计文献中被叫做abnormalities，deviants或者outliers，并且粗略地说，内部威胁可以被视为一种异常现象。各种基于机器学习和深度学习的异常检测方法已经开发出来，然而，由于将在第3部分中显示的内部威胁的特征，它们不一定适用于内部威胁检测。最近的一项调查根据标签的可用性将基于深度学习的异常检测分为三组，即有监督，半监督以及无监督深度异常检测。在正常数据和异常数据同时存在的情况下，提出了基于监督的深度异常检测方法进行二元或多类分类。更常见的情况是，正常样本多而异常样本少，利用正常样本分离异常点，采用半监督深度异常检测。在没有标记数据的情况下，采用无监督深度异常检测方法，基于数据样本的内在特性进行异常检测。

尽管许多基于深度学习的异常检测方法已经被提出，深度学习在异常检测方面的性能改进可能不如在其他领域的深度学习那么显著，比如cv以及nlp。潜在的主要原因是，由数百万个参数组成的深度学习模型需要大量标记数据进行适当的训练。然而，对于异常检测来说，在训练数据中收集大量标记的异常是非常困难的，甚至是不可能的。

三、文献综述

内部威胁作为网络空间中最具挑战性的攻击之一，长期以来备受关注。隐马尔可夫模型(HMM)和支持向量机(SVM)等多种内部威胁检测方法已经在文献中被提出。然而，利用深度学习模型对内部威胁进行检测的文献还没有很好地研究，因为目前仅有少数论文。对于内部威胁检测的深度学习模型的需求提出质疑是很自然的。在本节中，我们首先描述文献中报道的内部威胁。然后，我们引入了一些知名的内部威胁数据集，并进一步关注一个广泛使用的内部威胁数据集，通过描述其特征来说明内部威胁检测的挑战。在此之后，我们提出了为什么需要基于深度学习的内部威胁检测模型。在本节的最后，我们浏览了现有的基于深度学习的内部威胁检测文献，并根据采用的深度学习架构对它们进行了分类。

3.1内部人员和内部威胁

内部人士的分类标准。内部人员通常指“能合法进入组织计算机和网络的人”。一般来说，内部人有三种:叛徒、假面者和无意的作恶者。叛徒是内部人士，他们滥用自己的特权，为了经济或个人利益进行恶意活动。例如，预见到要被裁员的员工从雇主那里复制机密信息，然后卖给竞争对手。假面者是代表公司合法职员进行非法活动的内部人士。例如，攻击者利用一些技术方法或社会工程获取登录权限，然后访问组织的机密资产。无意肇事者是指无意中犯错误并将机密信息泄露给外人的内部人士。例如，某企业员工在不注意企业安全策略的情况下，在工作岗位使用了感染病毒的u盘，使得攻击者可以对企业内部系统进行攻击。

内部威胁的分类。内部威胁指内部人员"针对组织的恶意威胁"。根据内部人员进行的恶意活动，内部威胁也可以分为三种类型:IT破坏、窃取知识产权和欺诈。IT 破坏是指直接使用IT对组织进行破坏，通常由具有技术技能的内部人员进行。盗窃知识产权是指从研究所窃取关键信息，如客户信息或源代码，可以由技术人员或非技术人员进行。欺诈指未经授权修改、添加或删除数据。动机通常是为了经济利益。

3.2数据集

数据集是内部威胁检测研究的关键。目前，还没有全面的真实世界数据集公开可用来检测内部威胁。大多数现有的公共数据集通常生成综合执行的攻击会话，以模拟内部威胁的场景。最近的一项调查，现有的从实验室实验和真实世界收集的数据集，以及进一步将常用的11个数据集分成5类:基于假面者的、基于叛逆者的、替代的假面者的、基于身份/认证的以及miscellaneous malicious的。我们首先简要回顾每个类别中的重要数据集。表1总结了数据集的基本信息。

RUU数据集：2011年。是一个基于伪装者的数据集，包含来自34个普通用户和14个伪装者的基于主机的事件。14名志愿者充当伪装者去寻找具有经济价值的数据。

Enron数据集：2009年。是一个基于叛逆者的数据集，包含来自安然公司150个员工的50万个真实世界的邮件。该数据集没有标注信息，但可以用于基于文本和社会网络分析的内部威胁检测。

TWOS数据集：2017年。是一个混杂的数据集，既包括伪装者也包括叛逆者。这个数据集包含24名用户在5天基于一个多玩家游戏的活动，其中12名伪装者以及5个叛逆者会话被模拟。数据集由来自各种数据源的日志组成，如鼠标、敲击键盘、网络和系统调用的主机监控日志。

CERT数据集：2013年。是一个人造的数据集，包含带有标记的内部威胁活动的系统日志。最近大多数基于深度学习的研究都采用CERT数据集来评估他们提出的方法。我们将在下一小节介绍这个数据集的详细信息。

Schonlau数据集：2001年。是一个替代的伪装者数据集，包含50个用户。每个用户生成15000条Unix shell命令。伪装会话中的命令是从未知用户随机注入的。

Greenberg’s数据集：1988年。是一个基于身份验证的数据集，包含来自168个不同用户的全部Unix shell命令。与Schonlau数据集不同的是，Greenberg’s数据集包括命令条目中的参数和时间戳。在使用该数据集进行内部威胁检测时，随机选择几个用户作为伪装者的来源。

3.2.1CERT内部威胁数据集

最近大多数基于深度学习的研究采用CMU CERT数据集来评估他们提出的方法。在本调查中，我们将介绍CERT数据集，以说明内部威胁检测面临的挑战。

CMU软件工程学院CERT部门维护着一个包含1000多个内部威胁真实案例研究的数据库并且使用包含叛逆者实例和伪装者活动的场景生成了一组合成的内部威胁数据集。

CERT数据集包含5个日志文件，它记录了模拟组织中所有员工的计算机活动，包括logon.csv（记录所有员工的登录和注销操作），email.csv（记录所有电子邮件操作(发送或接收)），http.csv（记录所有web浏览(访问、下载或上传)操作），file.csv（记录涉及可移动媒体设备的活动(打开、写入、复制或删除)），以及decive.csv（记录u盘的使用(连接或断开连接)）。表2列出了每个日志文件中的活动类型。对于每个活动，它还包含相关的描述。例如，活动类型“Send Internal Email”，包括时间，发送者，接收者，主题及内容信息。除了员工在电脑上的活动数据，CERT数据集还提供每个员工的心理测量分数，被称为“五大人格特质”，保存在psychometric.csv中。数据生成过程反映了实际的限制，并采用了许多不同的模型类型，例如:人口社会结构的图形模型，生成内容的主题模型，指示行为和偏好的心理测量模型，工作场所行为模型。

根据创建数据集的时间，数据集有几个版本。使用最广泛的版本是r4.2 和 r6.2。表3显示了这两个数据集的统计数据。简而言之，r4.2是一个“密集”数据集，包含许多内部人士和恶意活动，而r6.2是一个“稀疏”数据集，包含5个内部人士和3995个普通用户。对于每个用户，它记录了从2010年1月到2011年6月的活动。平均每个员工的活动数量在40000左右。具体来说，r6.2数据集中的CERT模拟了以下五种来自内部人员的攻击场景。

（1）用户ACM2278，以前没有使用可移动驱动器或者下班后开始登录，使用可移动驱动器，并且把数据上传到wikileaks.org。（2）用户CMP2946开始浏览求职网站，并且向竞争对手恳求工作，在离开公司之前，他们用u盘窃取数据。（3）系统管理员PLJ1771不满。下载一个键盘记录器，用一个u盘把它转移到他上司的机器上。第二天，他使用收集到的键盘日志以主管的身份登录，并发出了一份警告性的群发邮件，在组织中引起恐慌。他立即离开了这个组织。（4）用户CDE1846登录到另一个用户的机器，搜索感兴趣的文件，发送电子邮件到他们的家中邮箱。（5）用户MBG3183，作为一个被裁员摧毁的小组的成员，向Dropbox上传文件，计划利用它们谋取个人利益。

表4显示了上述5个内部人员的统计数据，包括活动、恶意活动、会话和恶意会话的数量。综上所述，内部威胁检测是一项大海捞针的任务，所以手工定义特征或使用浅层机器学习模型检测内部威胁通常是不可实现的。[在计算机专业术语中，Session是指一个终端用户与交互系统进行通信的时间间隔，通常指从注册进入系统到注销退出系统之间所经过的时间。以及如果需要的话，可能还有一定的操作空间。]

3.3为什么要用深度学习进行内部威胁检测?

在深度学习模型的许多吸引人的特性中，深度学习用于内部威胁检测的潜在优势可以总结如下。

Representation Learning（表示学习）：深度学习模型最显著的优势是基于自动发现检测所需特征的能力。网络空间中的用户行为是复杂的、非线性的。手工设计的特征很难并且很低效去捕获用户行为信息。同时，浅层结构的学习模型，如HMM和SVM，是相对简单的结构，只有一层将原始特征转化为可用于检测的高级抽象。这些浅层模型可以有效地解决许多约束良好的问题，但浅层模型的能力有限，难以对复杂的用户行为数据进行建模。相比之下，深度学习模型能够利用深度非线性模块，通过使用多方面的的学习过程来学习表示。因此，利用深度学习模型来捕捉复杂的用户行为，精确地检测用户的意图，尤其是恶意的意图是很自然的。

Sequence Modeling.（时间序列建模）：深度学习模型，如循环神经网络(RNN)和新提出的Transformer，在建模序列数据，如视频、文本和语音显示了良好的性能。由于审查数据中记录的用户活动可以很自然地表示为连续数据，利用RNN或Transformer来捕捉复杂用户行为的显著信息，对提高内部威胁检测的性能具有巨大的潜力。

Heterogeneous Data Composition.（异构数据组成）：深度学习模型在融合异构数据(如图像描述)的任务中也取得了良好的性能。对于内部威胁检测，除了将用户活动数据建模为序列外，其他信息，如组织中的用户配置文件信息和用户结构信息也很重要。将所有有用的数据组合起来用于内部威胁检测，预计将比仅使用单一类型的数据获得更好的性能。与传统的机器学习方法相比，深度学习模型更能结合异构数据进行检测。

3.4用于内部威胁检测的深度学习

在这一小节中，我们回顾了主要的文献，并基于采用的深度学习架构对基于深度学习的内部威胁检测论文进行了分类。表5总结了本节讨论的所有论文，并且表6进一步总结了各类用于内部威胁检测的深度学习模型的优缺点。

如表5所示，由于数据集的极端不平衡性质，所提出的大多数方法采用无监督学习范式进行内部威胁检测。在检测粒度上，大多数论文集中在检测恶意子序列(如24小时内的活动)或恶意会话。在这里，会话指示了“Logon”和“Logoff”之间的一系列活动。如果会话(子序列)中存在恶意活动，则该会话(子序列)将被标记为恶意会话(子序列)。由于可利用的信息有限，检测恶意活动是很困难的。目前，只有一项工作专注于活动水平的检测。

3.4.1深度前馈神经网络

深度前馈神经网络(FNN)是一种经典的深度学习模型。许多深度学习模型都是前馈神经网络，如深度自编码器、深度信念网络、深度玻尔兹曼机等。这些深度神经网络能够基于多层结构从输入数据学习不同层次的表示。

已有一些研究提出使用深度前向神经网络进行内部威胁检测。Liu等人(2018b)使用深度自动编码器检测内部威胁。深度自动编码器由编码器和解码器组成，其中编码器将输入数据编码为隐藏表示，而解码器旨在基于隐藏表示重构输入数据。深度自编码器的目标是使重构输入接近原始输入。由于组织中的大多数活动都是良性的，因此带有内部威胁的输入应该具有相对较高的重构误差。因此，深度自编码器的重构误差可以作为异常得分来识别内部威胁。利用自编码器结构的另一个想法是，在学习了基于重构误差的隐藏表示后，对学习到的隐藏表示应用一类分类器，如一类SVM，以识别内部威胁。（2017）

深度前馈神经网络的优点是，使用深度自动编码器等深度前馈神经网络获得用于内部威胁检测的异常分数的思想简单明了，易于实现。另一方面，深度前馈神经网络的主要缺点是不能捕获用户活动的时间信息。

3.4.2循环神经网络

循环神经网络(RNN)主要用于序列数据的建模，通过自环连接保持隐藏状态，对序列中的信息进行编码。（2013）。标准的RNN由于存在梯度消失或爆炸问题，难以在长序列上进行训练（1994）。目前，标准RNN的两种变体，长短期记忆(LSTM) (Hochreiter和Schmidhuber, 1997)和门控循环单元(GRU) (Chung et al.， 2015)被广泛用于对长序列进行建模并通过结合门控机制捕获长时间依赖。

计算机上的用户活动可以自然地建模为顺序数据。因此，许多基于RNN的方法被提出来对用户活动进行建模(Lu和Wong, 2019;Tuor等人，2017;Yuan等，2018;2019年)用于内部威胁检测。其基本思想是训练RNN模型来预测用户的下一个活动或活动周期。只要预测结果与用户实际活动没有显著差异，就认为用户遵循正常行为。否则，用户活动是可疑的。Tuor et al. (2017)提出了一种堆叠的LSTM结构来捕获用户一天内的活动，并采用用户活动的负概率日志作为异常分数来识别恶意会话。不只是使用活动类型，例如，访问网页或上传文件，用于内部威胁检测，Yuan等人(2019)提出了一种层次化的神经时间点处理模型，用于捕捉用户会话中的活动类型和时间信息，然后根据预测结果与真实活动在类型和时间方面的差异，得出一个异常评分。

RNN的主要优点是可以基于它的循环方程从用户活动序列中捕获时间信息。因此，RNN更适合以序列数据为输入的内部威胁检测。然而，为了训练循环神经网络，目标函数是预测未来的活动，而不是检测异常序列。因此，如果用户改变其活动模式而不是进行恶意活动，RNN模型可能面临高误报的问题。

3.4.3卷积神经网络

卷积神经网络(CNN)在计算机视觉领域取得了巨大的成功。典型的CNN结构由卷积层、池化层和全连接层组成。卷积和池化层确保从输入中提取的特征是旋转和位置不变的，这是一个非常有用的属性，用于图像分类。现代cnn深度极深，有数十层卷积和池化层，可以实现很好的图像分类性能。

最近有一项关于内部威胁检测的研究，通过分析鼠标的行为特征，提出了一种基于cnn的用户认证方法。该方法将用户在计算机上的鼠标行为表现为图像。如果发生身份盗用攻击，用户的鼠标行为将与合法用户不一致。因此，将CNN模型应用于根据鼠标行为生成的图像，以识别潜在的内部威胁。

CNN在内部威胁检测方面的主要优势是对图像数据建模非常强大。因此，一旦我们有了可以用图像表示的数据，比如老鼠的生物行为特征，CNN就可以用来捕捉信息。然而，在内部威胁检测领域，由于不容易收集到适合CNN的数据，所以CNN的应用场景相对有限。

3.4.4图神经网络

图神经网络(GNN)能够对节点之间的关系进行建模，在图分析中越来越受欢迎。一种广泛使用的GNN模型是图卷积网络(GCN)，它利用图卷积层提取节点信息。图卷积层具有与典型卷积层相似的局部连接和共享权等特性，适合于图分析。例如，图中的节点通常是局部连接的，因此卷积层能够从相邻节点中聚合节点的特征信息。除了GCN，以学习网络中节点的低维潜在表示为目标的图嵌入也受到了广泛的关注。学习到的节点表示可以用作各种图分析任务的特征，如分类、聚类、链接预测和可视化。

最近的工作(Jiang et al.， 2019)采用GCN模型来检测内部人员。由于组织中的用户经常通过电子邮件或相同设备上的操作相互连接，因此使用图结构来捕获用户之间的相互依赖关系是很自然的。除了将结构信息的邻接矩阵作为输入，GCN也将关于用户的丰富的配置信息作为结点的特征向量合并入输入。在将卷积层作为基于图结构的信息传播后，GCN采用交叉熵作为目标函数来预测图中的恶意结点。

受图嵌入方法的启发，Liu et al. (2019)的研究提出了log2vec来检测恶意活动。log2vec首先通过将审计数据中的各种活动表示为结点来构建一个异构的图，并且将节点之间丰富的关系作为边，然后训练可以编码活动关系的结点嵌入。最后，通过在结点嵌入上应用聚类算法，Log2vec能够将恶意和良性活动划分到不同的集群中，并识别恶意活动。

GCN的优点是它可以捕获图数据的隐藏模式。由于一个组织中的员工可以被很自然地表示成一个图，GCN提供了一个新的层面去检测组织中的内部人员。然而，如果数据（例如用户活动序列），不能被清楚明确地建模为图结构，他就要求大量的手工工程去构建一个图（2019）。

四、挑战

虽然将深度学习模型用于内部威胁检测已经取得了很大进步，从底层数据特征、内部威胁、用户对检测算法的期望、测试平台和评估指标开发等方面来看，存在许多未解决的挑战。下面，我们强调了已确认的十个关键挑战：

Extremely Unbalanced Data（极度不平衡的数据）：与良性活动相比，在真实世界的场景中，来自内部人员的恶意活动是极度少见的。因此，内部威胁数据集是一个不平衡的数据集，这对于训练深度学习模型是一个巨大的挑战。通常，深度学习模型包含大量的参数，需要大量的带标签的数据来进行适度的训练。然而在现实中，收集到大量的恶意内部人员是不可能的。如何利用已经存在的小样本来适度地训练深度学习模型，对于内部威胁检测任务至关重要。

Temporal Information in Attacks（攻击中的时间信息）：大多数已经存在的内部威胁检测方法仅仅关注到了活动类型信息，比如复制一个文件到可移动硬盘或者浏览一个web页面。然而，仅仅根据用户的活动类型来检测攻击是不够的，因为相同的活动可能是良性的，也可能是恶意的。一个简单的案例是在工作日复制文件看起来很正常，但是在午夜复制文件就是令人怀疑的。时间信息在通过分析用户行为来辨别恶意威胁中扮演了一个重要的角色，并且如何整合这些时间信息是一个挑战。

Heterogeneous Data Fusion（异构数据融合）：除了时间信息，利用各种数据源和融合这些异构数据也是提高内部威胁检测的关键。例如，一个在日常生活中复制文件的用户预见到他可能被解雇，因此有将凭证文件故意复制到可移动磁盘的活动。在这种情况下，考虑用户档案(即心理测量分数)或用户交互数据可以帮助识别潜在的内部威胁。

Subtle Attacks（不易察觉的攻击）：目前，大多数现有工作将内部威胁检测任务视为异常检测任务，通常将异常样本作为外分布样本进行建模。现有的模型通常是对良性用户的样本进行训练，然后应用于识别与观察到的良性样本不同的内部人员。通过一个阈值或异常评分来量化内部用户和良性用户之间的差异。然而，在现实中，我们不能指望内部人员有显著的模式变化来开展恶意活动。为了规避检测，内部威胁较为隐蔽，不易察觉，即内部用户和良性用户在特征空间内距离较近。传统的异常检测方法无法检测出接近良性用户的内部人员。此外，为了绕过authentication models（认证模型）,故意误导模型犯错的对抗性攻击也会造成网络空间的重大安全问题。例如,最近的工作（Marcus Tan et al., 2019）提出了针对远程用户认证的对抗攻击策略，可以被内部人员用来进行恶意活动。

Adaptive Threats（自适应的威胁）：内部人员总是改进攻击策略以逃避侦查。然而，基于学习的模型训练后无法检测新型攻击。当观察到新的攻击类型时，从头再训练模型是低效的。首先，通常需要一些时间来收集足够的样本来训练模型。更重要的是，再训练战略不能确保及时检测和预防。设计一个能自适应提高内部威胁检测性能的模型是一项重要而富有挑战性的任务。

Fine-grained Detection（细粒度的检测）：现有的基于深度学习的方法通常检测含有恶意活动的恶意会话。然而，用户通常在一个会话中执行大量的活动。这种粗粒度检测面临着难以实现实时检测的问题。因此，如何识别细粒度的恶意序列或准确的恶意活动是内部威胁检测的重要问题。这也是一个非常具有挑战性的任务。这是因为我们可以从每个活动中利用的信息非常有限，也就是说，我们只观察用户在什么时候进行了什么活动。在缺乏足够信息的情况下，很难实现细粒度的内部威胁检测。

Early Detection（早期检测）：目前的方法主要集中在内部威胁检测，这意味着恶意活动已经发生，并且已经给组织造成了重大损失。因此，一个新兴的话题是如何实现内部威胁的早期检测，即，在潜在的恶意活动发生之前检测它们。现在已经提出了几种利用通用的IT安全机制来防御内部威胁的方法（Alneyadi et al., 2016; Shabtai et al., 2012）,但是没有一种基于学习的方法来实现早期检测。在不久的将来，主动识别有很高机会进行恶意活动的用户是至关重要的，这样组织就可以提前进行干预，防止或减少损失。

Interpretability（可解释性）：深度学习模型通常被认为是黑匣子。虽然深度学习可以在许多领域取得良好的效果，但模型工作的原因仍未得到充分利用。当员工被发现是内部人员时，理解模型做出这种预测的原因是至关重要的，因为员工通常是组织中最有价值的资产。特别是深度学习模型在检测内部威胁时不能达到100%的准确率。假阳性情况(将良性用户误认为内部用户)会严重影响员工对组织的忠诚度。因此，模型的可解释性是向领域专家提供模型见解的关键，从而使进一步的操作具有较高的可信度。

Lack of Testbed（缺乏实验）：目前，还没有可供研究人员公开使用的真实世界数据集。虽然CERT数据集试图提供接近人类现实主义高水平的综合信息，但在合成数据和真实场景之间仍然存在差距。 -Data Complexity. 由于CERT数据集是一个合成数据集，因此大多数活动都是随机生成的，复杂度有限。例如，员工可以访问的网站非常有限。因此，一些内部威胁，比如访问维基解密网站，很容易被识别。同时，细粒度的用户活动是随机生成的，因此在这个数据集中不存在日常模式。此外，数据集中的大部分活动时间是随机生成的。因此，很难利用时间信息来检测基于此数据集的内部威胁。 -Insider Threat Complexity. 与现实世界中发生的各种内部威胁相比，数据集中模拟的内部威胁场景也比较狭窄。CERT数据集的最新版本只包含五个场景。因此，所提出的方法在该数据集上能够取得合理的性能，但在实际应用中可能无法取得良好的性能。同时，即使是五种内部威胁场景，识别这些内部威胁的难度也是不同的。现有文献大多采用ROC曲线(Lin et al.， 2017;Liu et al.， 2018b;陆、王，2019;Yuan et al.， 2019)，许多研究可以达到80%的真阳性率和低的假阴性率。而当真阳性率不断增加时，假阴性率显著增加。这意味着该数据集中80%的内部威胁可以很好地检测到，而其余20%的内部威胁很难检测到。

Lack of Practical Evaluation Metrics.（缺乏实用的评估指标）：采用常用的分类指标如真阳性率(TPR)、假阳性率(FPR)、准确率和召回率来评价内部威胁检测的性能。在TPR和FPR的基础上，将FPR和TPR分别设为x轴和y轴，绘制受试者工作特征曲线(ROC)，表示真阳性和假阳性之间的权衡。理想情况下，我们希望内部威胁检测算法能够实现TPR为1,FPR为0。目前，在文献中，ROC area under curve (AUC)评分被广泛用于比较不同检测算法的性能(Lin et al., 2017; Liu et al., 2019; 2018b; Lu and Wong, 2019; Yuan et al., 2019).另一个度量是precision-recall (PR)曲线，它是将召回率和准确率分别以x和y坐标轴表示的曲线，用于评价不平衡数据分类。与ROC-AUC相比，PR- auc可能更适合评估内部威胁检测算法，因为PR曲线更关注分类器在少数类上的表现。然而，由于内部人员及其对应的恶意活动数量极少，尚不清楚ROC-AUC或PR-AUC是否适用于评估内部威胁检测。例如，来自不同检测算法的ROC-AUC值往往很接近(Liu et al.， 2018b;陆、王，2019;Yuan et al.， 2019)，这意味着很难根据ROC-AUC值确定更好的模型。

五、未来方向

上述挑战为提高内部威胁检测的深度学习模型的性能提供了若干机遇和未来的研究方向。在此，我们提出了以下研究课题，并认为这些课题在未来的研究中是很有前途的。表7总结了一些潜在研究课题的主要优势和局限性。

Few-shot Learning based Insider Threat Detection.（基于小样本学习的内部威胁检测）.小样本学习的目的是在给定少量标记样本的情况下，从未知类中分类样本(Wang et al.， 2020)。小样本学习可以进一步扩展到更严格的设置，即one-shot学习(Fei-Fei等人，2006)或零样本学习(Wang等人，2019a)，其中只有一个或完全没有标记样本。考虑到内部人员的数量非常少，小样本学习自然适合内部威胁检测。为应对少量带标签样本的挑战，小样本学习利用了先验知识。基于如何利用先验知识，已经存在的小样本学习算法可以被分为三类，基于数据的方法是利用先验知识来增强训练数据，基于模型的方法利用先验知识约束假设空间，以及基于利用先验知识改变假设空间的搜索策略的算法。

小样本学习的优点是基于先验知识，只使用有限的样本就可以实现内部威胁检测。其局限性在于当前的少射击学习假设任务分布是固定的。一旦出现了一种新的攻击类型，这种攻击与之前观察到的攻击有很大的不同，那么少射击学习模型可能无法检测到这种攻击。

Self-supervised Learning based Insider Threat Detection.（基于自监督学习的内部威胁检测）：自监督学习的目标是使用容易从输入数据导出的标签来训练模型，而不是需要人工对数据进行标签。自监督学习在计算机视觉和自然语言处理领域取得了巨大的成功。在自然语言处理中，一个典型的自我监督学习任务是通过一个语言模型对一个深度学习模型进行预训练，该模型被训练来预测句子的下一个单词。我们用来预训练深度学习模型的任务称为“pretext task”。经过预训练，该模型通过对少量数据进行微调，在情感分析等“下游任务”上取得了良好的表现。自监督学习的成功之处在于，深度学习模型通过对“pretext task”的预训练，能够学习输入数据的显著信息。为了解决检测隐蔽的内部威胁的挑战，一个潜在的研究方向是设计适当的可以捕捉内部用户和良性用户之间的差异的自监督任务。用于内部威胁检测的自监督学习的优点是，它有可能在不使用任何标记信息的情况下识别内部人员。然而，自我监督任务通常需要针对每个数据集定制的手工规则。

Deep Marked Temporal Point Process based Insider Threat Detection（基于深度标记时间点处理的内部威胁检测）.标记时间点处理是对观察到的随机事件随时间变化的模式进行建模的一个强有力的数学工具。由于时间动态是用户行为的一个重要方面，标记时间点过程是一个很好的工具来分析用户行为的活动类型和时间。近年来，人们提出了几种基于深度学习的标记时间点过程模型，通常采用RNN来表征时间点过程中的条件强度函数。因此，利用深度标记时间点处理模型通过结合用户活动类型和时间信息，有可能提高内部威胁检测的性能。

深度标记时间点过程的优点在于它可以从时间的角度捕获用户活动的时间信息。一般来说，通过加入更多的信息，我们可以期望更好的检测结果。然而，传统的时间点过程模型通常通过预先定义的强度函数对时间数据分布进行假设，这可能与真实的用户活动数据不一致。另一方面，虽然深度时间点处理模型没有做任何的假设，但由于参数较多，通常需要大量的样本进行训练，这对于内部威胁检测是不可行的。将小样本学习思想与深时间点过程相结合是一个值得探索的方向。

Multi-model Learning based Insider Threat Detection（基于多模型学习的内部威胁检测）.由于相同的活动可能是良性的，也可能是恶意的，除了来自日志文件的用户活动数据之外，利用其他来源对提高内部威胁检测的性能也很重要。在文献中，一些研究通过用户的心理数据来调查内部威胁检测的性能，而一些研究则基于组织层次结构或电子邮件通信构建用户图来识别异常值。然而，如何将用户活动数据与用户配置数据以及用户关系数据结合起来，还有待开发，值得探讨。通过整合多模态数据，我们可以从不同角度捕捉用户模式，从而提高检测精度。然而，对于内部威胁检测，由于隐私问题，获取用户心理数据等多模态数据是一个挑战。

Deep Survival Analysis based Insider Threat Early Detection（基于深度生存分析的内部威胁早期检测）.生存分析是建立数据模型，其结果是在利益事件发生之前的时间。生存分析最初用于健康数据分析(Liu et al.， 2018a;Luck等人，2017)，并已应用于许多应用，如预测学生辍学时间(Ameri等人，2016)或web用户返回时间(Jing和Smola, 2017)。如果我们将内部人员进行恶意活动的时间作为利益事件，我们可以使用生存分析来预测该事件(进行恶意活动)何时发生。因此，组织可以获得来自内部人员的潜在攻击的早期警报。最近，深度学习模型被用来建模复杂的生存分布。

利用深度生存分析模型可以捕获用户活动时间信息，从而实现内部威胁的早期检测。应用深度生存分析模型的挑战在于训练通常需要大量的事件数据，而很难收集到大量的事件样本。

Deep Bayesian Nonparametric Model for Fine-grained Insider Threat Detection（应用于细粒度内部威胁检测的深度贝叶斯非参数模型）。为了实现细粒度的内部威胁检测，一种可能的解决方案是将审计数据中某个用户的活动视为活动流，并在流上应用聚类算法来识别潜在的恶意活动集群。贝叶斯非参数模型，如Dirichlet过程，经常用于数据聚类，并能够产生无界聚类。这些模型的无穷大特性适合于建模复杂的用户行为。最近，一些贝叶斯非参数深度生成模型，被提出将深度结构与贝叶斯非参数相结合(Goyal等人，2017;Nalisnick和smith, 2017;Zhang和Paisley, 2018)，是基于贝叶斯方法的神经网络学习丰富表示的有效方法。利用深度贝叶斯非参数模型有潜力实现细粒度的内部威胁检测。

深度贝叶斯非参数模型的优点是，模型的大小可以随着数据的增长而增长。由于用户活动可以建模为流，因此深度贝叶斯非参数模型适合于对此类流数据建模。然而，应用深度贝叶斯非参数模型的挑战在于，设计一个具有合理时间复杂度的高效公式是很重要的。

Deep Reinforcement Learning based Insider Threat Detection.（基于深度强化学习的内部威胁检测。）.深度强化学习能够在复杂环境中学习到复杂代理的最优策略。深度强化学习的优势在于，该策略通过奖励信号不断提高其性能。在内部威胁检测任务中，内部检测器可以看作是深度强化学习框架中的代理。通过合理设计奖励函数，内部人检测器能够不断提高识别内部人攻击包括自适应攻击的能力。将深度强化学习应用于内部威胁检测的一个挑战是，由于恶意攻击的复杂性，有时很难设计一个好的奖励函数。在这种情况下，可以考虑反向强化学习框架，该框架的目标是根据内部人员的行为自动发现奖励函数。另一个挑战是深度强化学习通常需要大量的训练数据，而这些数据在内部检测任务中是不可用的。为了应对这一挑战，其他机器学习范式，如元学习或模仿学习，可以在实践中进一步与深度强化学习相结合。总体而言，尽管面临诸多挑战，深度强化学习作为一种强大的框架，仍有机会在内部威胁检测方面取得突破。

Interpretable Deep Learning for Insider Threat Detection.（基于可解释深度学习的内部威胁检测）。不同于一些在线异常检测任务，如社交媒体上的机器人检测，不会对真实的人类产生影响，内部威胁检测是识别恶意个体，这是一个高风险的决策。因此，即使内部威胁检测模型能够取得优异的性能，但具有适当的可解释性也是至关重要的。因此，如何使预测结果为人类所理解，是建立可信可靠的内部威胁检测模型的关键。最近的一项工作利用了可解释日志异常检测的注意机制。同时，几种可解释序列学习模型被提出。然而，现有的研究大多集中在监督训练任务上，而对于内部威胁检测，训练监督模型通常是不可行的。开发可解释深度学习模型的另一个优点是，此类模型有潜力实现细粒度恶意活动检测。例如，如果我们将一天中的用户活动序列视为一个数据点，而序列中的每个活动都是一个特征，则反事实解释模型(Molnar，(2019年)，通过改变预测结果以相关方式变化的一些特征，找到了类似的数据点，具有从内部活动序列识别恶意活动的潜在能力。

Testbed Development.（实验的发展）。为了实现对内部威胁的检测，需要将人在被监测环境中的行为作为分析数据。然而，由于隐私和机密性问题，文献中公开的数据集非常有限。许多最近的研究工作采用CERT数据集。然而，作为一个合成数据集，CERT数据集中的用户活动还不够复杂。因此，迫切需要开发一个全面的数据集用于内部威胁检测评估。

Practical Evaluation Metrics.（实用的评价指标）。由于业内人士及其恶意活动数量极少，常用的分类指标如准确率、F1、ROC-AUC和PR-AUC不足以评估内部威胁检测的性能。哪些指标更实用，以及是否需要开发一些新的指标，这都是一个悬而未决的问题。最近的一项研究提出了一种基于召回的指标，称为累积召回(CR-k)，以评估算法在内部威胁检测的性能。累积召回假设每天有一个预算k来检查从算法中得到的恶意分数最高的topk样本。定义CR-k为在k之前所有预算的召回次数之和。例如，如果我们定义R(i)为预算为i的召回次数，则CR-k计算为R(25) + R(50) +…+ R (k)。CR-k可以被认为是召回曲线下面积的近似。因为对于内部威胁检测任务，错过检测的成本大大高于假阳性的成本，所以基于召回的度量可能是合适的。

六、结论

在这篇简短的调查论文中，我们回顾了基于深度学习的内部威胁检测的各种方法，并根据采用的深度学习架构对现有的方法进行了分类。虽然已经取得了一些进展，但由于各种挑战，将深度学习用于内部威胁检测的课题还没有得到很好的利用。我们讨论了这项任务的挑战，并提出了几个有潜力推进基于深度学习技术的内部威胁检测的研究方向。综上所述，深度学习用于内部威胁检测是一个有待深入研究的课题。随着更先进的方法的提出，这项调查可以在未来得到扩展和更新。