前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python离群值检测算法 -- Isolate Forest

Python离群值检测算法 -- Isolate Forest

作者头像
数据STUDIO
发布2024-04-26 09:52:51
1090
发布2024-04-26 09:52:51
举报
文章被收录于专栏:数据STUDIO数据STUDIO

什么是Isolate Forest?

许多离群点检测方法通常先分析正常数据点,然后找出不符合正常数据模式的观测值。然而,Liu、Ting和Zhou(2008)提出的Isolate Forest(IForest)与这些方法不同。相反,IForest直接识别异常点,而不是通过分析正常数据点来发现异常值。它使用树形结构来隔离每个观测点,异常点往往是最先被挑出来的数据点,而正常点则隐藏在树的深处。他们将每棵树称为Isolate Tree(iTree),构建了一个iTrees树群。异常点是指iTrees上平均路径长度较短的观测点。

https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf

iTree使用分区图和树来解释如何隔离数据点。红点最远离其他点,然后是绿点,最后是蓝点。在分区图中,只需一个 "切口 "就能将红点与其他点分开。第二个切点是绿点,第三个切点是蓝点,依此类推。分离一个点所需的切割次数越多,该点在树中的位置就越深。切割次数的倒数就是异常得分。树状结构也说明了同样的问题。通过一次分叉可以找到红点,第二次分叉可以找到绿点,第三次分叉可以找到蓝点,以此类推。深度数可以很好地代表异常点的得分。为了与异常点得分高的惯例保持一致,异常点得分被定义为深度数的倒数。

iTree

iTree是一种二叉树,每个节点都有0或2个子节点。树生长的条件包括:末端节点只有一个数据点,节点中的所有数据值相同,或者树达到研究人员设置的高度限制。iTree在所有末端节点都有一个数据点之前并不需要完全发展。通常情况下,当高度深度达到设定的限制时,树就会停止生长,因为我们关注的是靠近根节点的异常点。因此,构建一个大的iTree并不是必要的,因为iTree中的大部分数据都是正常数据点。小样本量能产生更好的iTree,因为沼泽效应和掩蔽效应会减弱。iTree算法与决策树算法不同,因为iTree不使用目标变量来训练树,它是一种无监督学习方法。

为什么是 "森林"

随机森林(Random Forests)可能比 "孤立森林"(Isolated Forests)更为常见。森林是指用于构建树木集合学习的概念。为何需要这样做呢?众所周知,单一决策树存在过拟合的缺点,这意味着模型对训练数据的预测效果很好,但对新数据的泛化效果较差。集合策略通过构建多棵决策树,然后对它们的预测结果进行平均,从而克服了这一问题。

由于孤立森林不使用任何距离度量来检测异常点,因此速度快,占用内存少。这一优势使其适用于大数据量和高维问题。

图(B)Isolation Forest

图 (B) 显示了一个数据矩阵,每一行都是一个具有多维值的观测值。IForest 的目标是为每个观测值分配离群值。首先,它会随机选择任意数量的行任意数量的列来创建表格,如 (1)、(2) 和 (3)。一个观测值至少会出现在一个表格中。每个表格都会建立一棵 iTree 树,以显示离群点得分。表(1)有 6 行 3 列。表(1)的第一个切分点可能是第 6 个观测值,因为它的值与其他观测值非常不同。之后,表(1)的第二个切分点可能是第 4 个观测值。同样,在表(3)中,第一个切分点可能是第 6 个观测值(即第三条记录)。第二个切分点是第 4 个观测点(即表中的第一条记录)。简而言之,如果有N张表,就会有N个 iTrees。一个观测值最多可以有 N 个分数。IForest 会计算分数的算术平均值,得出最终分数。

建模流程

步骤 1:建立模型

我生成了一个包含六个变量和 500 个观测值的模拟数据集。无监督模型只使用 X 变量,而 Y 变量仅用于验证。异常值的百分比设定为 5%,contamination=0.05。可以绘制前两个变量的散点图,黄色的点表示异常值,紫色的点为正常数据点。

代码语言:javascript
复制
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pyod.utils.data import generate_data
contamination = 0.05 # percentage of outliers
n_train = 500       # number of training points
n_test = 500        # number of testing points
n_features = 6      # number of features
X_train, X_test, y_train, y_test = generate_data(
    n_train=n_train, 
    n_test=n_test, 
    n_features= n_features, 
    contamination=contamination, 
    random_state=123)

X_train_pd = pd.DataFrame(X_train)
X_train_pd.head()

image

image

将树的大小 max_samples 设置为 40 个观测值。在 IForest 中,较小的样本量可以生成更好的 iTrees,无需指定较大的树规模。

代码语言:javascript
复制
from pyod.models.iforest import IForest
isft = IForest(contamination=0.05, max_samples=40, behaviour='new') 
isft.fit(X_train)

# Training data
y_train_scores = isft.decision_function(X_train)
y_train_pred = isft.predict(X_train)

# Test data
y_test_scores = isft.decision_function(X_test)
y_test_pred = isft.predict(X_test) # outlier labels (0 or 1)

# Threshold for the defined comtanimation rate
print("The threshold for the defined contamination rate:" , isft.threshold_)

def count_stat(vector):
    # Because it is '0' and '1', we can run a count statistic. 
    unique, counts = np.unique(vector, return_counts=True)
    return dict(zip(unique, counts))

print("The training data:", count_stat(y_train_pred))
print("The training data:", count_stat(y_test_pred))
代码语言:javascript
复制
The threshold for the defined contamination rate: 
-3.986394547794703e-15
The training data: {0: 475, 1: 25}
The training data: {0: 470, 1: 30}

污染率(contamination) 在实际应用中,通常我们无法确定异常值的百分比。在第 (C.2) 节中会说明,当我们事先无法确定异常值的百分比时,如何确定一个合理的阈值。PyOD 默认的污染率为 10%。在这里,我将污染率设置为 5%,因为在训练样本中污染率为 5%。这个参数不会影响离群值分数的计算。内置函数threshold_会根据污染率计算训练数据的阈值。在本例中,当污染率为 0.05 时,阈值为-5.082e-15。函数decision_functions()用来生成离群值,函数predict()则根据阈值分配标签(1 或 0)。

超参数

我将用.get_params() 来解释一些重要参数:

代码语言:javascript
复制
isft.get_params()
代码语言:javascript
复制
{'behaviour': 'new',
 'bootstrap': False,
 'contamination': 0.05,
 'max_features': 1.0,
 'max_samples': 40,
 'n_estimators': 100,
 'n_jobs': 1,
 'random_state': None,
 'verbose': 0}
  • "max_samples"(最大样本数)指定训练每个基本估计子所提取的样本数量,这是一个重要参数;
  • "n_estimators"表示集合中树的数量,默认为 100;
  • "max_features"(最大特征)指定训练每个基本估计器所提取的特征数量,默认为 1.0;
  • "n_jobs"表示并行运行的作业数量,如果设置为-1,则作业数将根据内核数确定。
特征重要性

IForest使用树形结构,能够衡量特征在确定异常值时的相对重要性,通过吉尼杂质指数来衡量特征的重要性,总和为1.0。

代码语言:javascript
复制
isft_vi = isft.feature_importances_
isft_vi
代码语言:javascript
复制
array([0.17325335, 0.13573292, 0.17200832,
       0.17157248, 0.17091259, 0.17652033])

可以像树模型一样绘制特征重要性图。下图显示了特征在确定异常值时的相对强度。

代码语言:javascript
复制
from matplotlib import pyplot as plt
for_plot = pd.DataFrame({'x_axis':X_train_pd.columns,
              'y_axis':isft_vi}).sort_values(by='y_axis',ascending=True)
for_plot['y_axis'].plot.barh()

IForest 对异常值的变量重要性

步骤 2 - 确定模型的合理阈值

阈值应根据离群值的直方图来确定,下图建议阈值为0.0左右,这意味着大部分正常数据的离群值小于0.0,异常数据的离群值则处于较高范围。

代码语言:javascript
复制
import matplotlib.pyplot as plt
plt.hist(y_train_scores, bins='auto') # arguments are passed to np.histogram
plt.title("Outlier score")
plt.show()

第 3 步 - 显示正常组和异常组的描述性统计结果

正常组和异常组分析是验证模型合理性的关键步骤。我开发了一个名为descriptive_stat_threshold()的简要函数,用于展示正常组和异常组特征的大小和描述统计信息。此外,我还对污染率阈值进行了简单设置,您可以测试不同的阈值来确定合理的异常组大小。

代码语言:javascript
复制
threshold = isft.threshold_ # Or other value from the above histogram

def descriptive_stat_threshold(df,pred_score, threshold):
    # Let's see how many '0's and '1's.
    df = pd.DataFrame(df)
    df['Anomaly_Score'] = pred_score
    df['Group'] = np.where(df['Anomaly_Score']< threshold, 'Normal', 'Outlier')

    # Now let's show the summary statistics:
    cnt = df.groupby('Group')['Anomaly_Score'].count().reset_index().rename(columns={'Anomaly_Score':'Count'})
    cnt['Count %'] = (cnt['Count'] / cnt['Count'].sum()) * 100 # The count and count %
    stat = df.groupby('Group').mean().round(2).reset_index() # The avg.
    stat = cnt.merge(stat, left_on='Group',right_on='Group') # Put the count and the avg. together
    return (stat)

descriptive_stat_threshold(X_train,y_train_scores, threshold)

上表包含模型评估和结果的要点。特别注意要用特征名称标记特征,以有效展示。

  • 离群组的大小: 离群值组的大小取决于所选的阈值。较高的阈值会使得该组规模较小。
  • 每组中的特征统计数据: 特征统计数据应该与先前的业务知识一致。如果某些特征显示出令人费解的结果,应重新检查或删除该特征。需要反复模型以确保所有特征都是合理的。
  • 平均异常值: 离群组的平均离群分数远高于正常组(0.18>-0.10)。不必对分数作过多解释。

由于我们已经拥有了基本事实而生成了数据,因此可以生成混淆矩阵来了解模型的性能。该模型表现出色,识别出了所有 25 个异常值。

代码语言:javascript
复制
def confusion_matrix(actual,score, threshold):
    Actual_pred = pd.DataFrame({'Actual': actual, 'Pred': score})
    Actual_pred['Pred'] = np.where(Actual_pred['Pred']<=threshold,0,1)
    cm = pd.crosstab(Actual_pred['Actual'],Actual_pred['Pred'])
    return (cm)
confusion_matrix(y_train,y_train_scores,threshold)

通过聚合多个模型实现模型稳定性

IForest算法对异常值非常敏感,可能会导致过拟合。为了得到稳定的预测结果,可以汇总多个模型的得分。在所有超参数中,树的数量n_estimators可能是最关键的参数。我会根据树的数量范围创建5个模型,然后取这些模型的平均预测值作为最终的模型预测值。PyOD模块提供了四种汇总结果的方法,您只需使用一种方法来生成汇总结果。请注意为这些函数安装pip install combo

代码语言:javascript
复制
from pyod.models.combination import aom, moa, average, maximization
from pyod.utils.utility import standardizer
from pyod.models.iforest import IForest

# Standardize data
X_train_norm, X_test_norm = standardizer(X_train, X_test)

# Test a range of the number of trees
k_list = [100, 200, 300, 400, 500]
n_clf = len(k_list)
# Just prepare data frames so we can store the model results
train_scores = np.zeros([X_train.shape[0], n_clf])
test_scores = np.zeros([X_test.shape[0], n_clf])

# Modeling
for i in range(n_clf):
    k = k_list[i]
    #isft = IForest(contamination=0.05, max_samples=k) 
    isft = IForest(contamination=0.05, n_estimators=k) 
    isft.fit(X_train_norm)
    
    # Store the results in each column:
    train_scores[:, i] = isft.decision_function(X_train_norm) 
    test_scores[:, i] = isft.decision_function(X_test_norm) 
# Decision scores have to be normalized before combination
train_scores_norm, test_scores_norm = standardizer(train_scores,test_scores)

对 5 个模型的预测取平均值,得到离群值的平均值("y_by_average")。下图中绘制直方图。

代码语言:javascript
复制
# Combination by average
# The test_scores_norm is 500 x 10. The "average" function will take the average of the 10 columns. The result "y_by_average" is a single column: 
y_train_by_average = average(train_scores_norm)
y_test_by_average = average(test_scores_norm)
import matplotlib.pyplot as plt
plt.hist(y_train_by_average, bins='auto') # arguments are passed to np.histogram
plt.title("Combination by average")
plt.show()

平均分数直方图

上图表明阈值等于 1.0。因此,在下表中列出了正常组和离群组的特征。其中确定 25 个数据点为异常值。

代码语言:javascript
复制
descriptive_stat_threshold(X_train,
                           y_train_by_average,
                           1.0)

总结

大多数基于模型的异常检测方法都是构建正常实例的轮廓,然后将不符合正常轮廓的实例识别为异常值。相比之下,IForest 能直接、明确地隔离异常数据。IForest 采用树形结构来隔离每一个数据点,异常点被首先挑出,而正常点则往往聚集在树状结构中。由于Isolation Forest 不使用任何距离度量来检测异常点,因此速度快,适用于大数据量和高维问题。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据STUDIO 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是Isolate Forest?
  • 为什么是 "森林"
  • 建模流程
    • 步骤 1:建立模型
      • 超参数
      • 特征重要性
    • 步骤 2 - 确定模型的合理阈值
      • 第 3 步 - 显示正常组和异常组的描述性统计结果
      • 通过聚合多个模型实现模型稳定性
      • 总结
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档