有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
注意:
部分输出请在高级设置中查看。

Zscore 异常值检测(Z-score)

原理

算法说明

Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点z_i的设定阈值Z_t:nZ_i = (x_i - mu) / std,其中 mu 是均值,std 是标准差。然后经过标准化处理后,异常值也进行了标准化处理,其绝对值大于 Z_t 。本算法中 Z_t 取 3 。

参数配置

算法 IO 参数
*输入文件类型:格式包括以下两种:
csv :csv 文件
*输入数据包含 header 信息:默认为“是”。
*输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
*输出数据包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*选择特征列:表示需要计算的特征所在列,从 0 开始计数,仅支持单列输入。

Demo

输入数据示例

value
100
99
97
95
101
102
98
99
97
101
97
98
100
102
101
94
100
97
1
200

参数配置

算法 IO 参数
*输入文件类型:csv
*输入数据是否包含 header 信息:是
*输入数据分隔符:逗号
*输出数据是否包含 header 信息:是
*输出数据分隔符:逗号
*选择特征列:0

输出数据示例

数据中除了最后两个数据,其它的都是在 100 左右,因此算法找到了最后两个异常点 1 和 200 ,将其平滑成了 1.86 和 196 。
value
100.0
99.0
97.0
95.0
101.0
102.0
98.0
99.0
97.0
101.0
97.0
98.0
100.0
102.0
101.0
94.0
100.0
97.0
1.8682249202684744
196.03177507973152

孤立森林(IsolationForest)

原理

算法说明

IsolationForest 是一种基于孤立森林的异常点检测算法,该算法首先构建 n 颗树,每棵树都从原始数据中有放回的采样 m 个样本进行训练,每颗树在训练的时候都完全采用了随机选择特征以及特征分裂点的方式,然后再将每颗树的训练结果进行汇总就可以得到每个样本成为异常点的概率(0 到 1 之间的浮点值),该值越大越有可能是异常点。具体算法过程请参考论文 Isolation-based Anomaly Detection

参数配置

算法 IO 参数
*输入文件类型:格式包括以下两种:
csv :csv 文件
*输入数据包含 header 信息:默认为“是”。
*输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
*输出数据包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
parquet :列式存储格式 parquet
*选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的 1 到 12 列,15 列,从 0 开始计数。
算法参数
*特征数:用于训练树的随机特征数。
*样本数:用于训练树的随机样本数。
*异常点比例:数据集中异常点所占的比例,默认为 0.1 。
*树棵树:构建森林需要的树个数,默认 100 。
*树的最大深度:默认为 10 。
*是否有放回采样:默认为不放回。

Demo

输入数据示例

value
2877.13
2887.89
2888.92
2904.18
2904.98
2888.80
2904.31
2907.95
2930.75
2929.67
100

参数配置(训练节点)

算法 IO 参数
*输入文件类型:csv
*输入数据是否包含 header 信息:是
*输入数据分隔符:逗号
*输出数据是否包含 header 信息:是
*输出数据分隔符:逗号
*选择特征列:0
算法参数
*特征数:1
*样本数:5
*异常点比例:0.1
*树棵数:11
*树最大深度:10
*是否有放回采样:不放回

参数配置(预测节点)

算法 IO 参数
*输入文件类型:csv
*输入数据是否包含 header 信息:是
*输入数据分隔符:逗号
*输出数据是否包含 header 信息:是
*输出数据分隔符:逗号
*选择特征列:0

预测节点输出数据示例

value,anomalyScore,prediction
2877.13,0.4945761996851274,0.0
2887.89,0.4559869671815875,0.0
2888.92,0.4559869671815875,0.0
2904.18,0.37725117645507,0.0
2904.98,0.3982457271374856,0.0
2888.8,0.4559869671815875,0.0
2904.31,0.37725117645507,0.0
2907.95,0.4559869671815875,0.0
2930.75,0.5081518068636107,0.0
2929.67,0.5081518068636107,0.0
100.0,0.6310671336216818,1.0