注意:
部分输出请在高级设置中查看。
Zscore 异常值检测(Z-score)
原理
算法说明
Z-score
是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点z_i
的设定阈值Z_t
:nZ_i = (x_i - mu) / std
,其中 mu
是均值,std
是标准差。然后经过标准化处理后,异常值也进行了标准化处理,其绝对值大于 Z_t
。本算法中 Z_t
取 3 。参数配置
算法 IO 参数
*
输入文件类型:格式包括以下两种:csv :csv 文件
*
输入数据包含 header 信息:默认为“是”。*
输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。*
输出数据包含 header 信息:默认为“是”。*
输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。parquet :列式存储格式 parquet
*
选择特征列:表示需要计算的特征所在列,从 0 开始计数,仅支持单列输入。Demo
输入数据示例
value100999795101102989997101979810010210194100971200
参数配置
算法 IO 参数
*
输入文件类型:csv*
输入数据是否包含 header 信息:是*
输入数据分隔符:逗号*
输出数据是否包含 header 信息:是*
输出数据分隔符:逗号*
选择特征列:0输出数据示例
数据中除了最后两个数据,其它的都是在 100 左右,因此算法找到了最后两个异常点 1 和 200 ,将其平滑成了 1.86 和 196 。
value100.099.097.095.0101.0102.098.099.097.0101.097.098.0100.0102.0101.094.0100.097.01.8682249202684744196.03177507973152
孤立森林(IsolationForest)
原理
算法说明
IsolationForest
是一种基于孤立森林的异常点检测算法,该算法首先构建 n 颗树,每棵树都从原始数据中有放回的采样 m 个样本进行训练,每颗树在训练的时候都完全采用了随机选择特征以及特征分裂点的方式,然后再将每颗树的训练结果进行汇总就可以得到每个样本成为异常点的概率(0 到 1 之间的浮点值),该值越大越有可能是异常点。具体算法过程请参考论文 Isolation-based Anomaly Detection
。参数配置
算法 IO 参数
*
输入文件类型:格式包括以下两种:csv :csv 文件
*
输入数据包含 header 信息:默认为“是”。*
输入数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。*
输出数据包含 header 信息:默认为“是”。*
输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。parquet :列式存储格式 parquet
*
选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的 1 到 12 列,15 列,从 0 开始计数。算法参数
*
特征数:用于训练树的随机特征数。*
样本数:用于训练树的随机样本数。*
异常点比例:数据集中异常点所占的比例,默认为 0.1 。*
树棵树:构建森林需要的树个数,默认 100 。*
树的最大深度:默认为 10 。*
是否有放回采样:默认为不放回。Demo
输入数据示例
value2877.132887.892888.922904.182904.982888.802904.312907.952930.752929.67100
参数配置(训练节点)
算法 IO 参数
*
输入文件类型:csv*
输入数据是否包含 header 信息:是*
输入数据分隔符:逗号*
输出数据是否包含 header 信息:是*
输出数据分隔符:逗号*
选择特征列:0算法参数
*
特征数:1*
样本数:5*
异常点比例:0.1*
树棵数:11*
树最大深度:10*
是否有放回采样:不放回参数配置(预测节点)
算法 IO 参数
*
输入文件类型:csv*
输入数据是否包含 header 信息:是*
输入数据分隔符:逗号*
输出数据是否包含 header 信息:是*
输出数据分隔符:逗号*
选择特征列:0预测节点输出数据示例
value,anomalyScore,prediction2877.13,0.4945761996851274,0.02887.89,0.4559869671815875,0.02888.92,0.4559869671815875,0.02904.18,0.37725117645507,0.02904.98,0.3982457271374856,0.02888.8,0.4559869671815875,0.02904.31,0.37725117645507,0.02907.95,0.4559869671815875,0.02930.75,0.5081518068636107,0.02929.67,0.5081518068636107,0.0100.0,0.6310671336216818,1.0