我正在从uci下载的一个名为shuttle的数据集上运行本地异常值因子。每次我在有或没有decision类的穿梭数据集上运行lof算法时,elki都会绘制不同的输出图。我很困惑,每次绘制不同的输出图形背后的原因是什么?
发布于 2017-02-22 17:28:10
可视化使用Apache Batik,它要求内存中既有复杂的XML文档(准确地说,是SVG),也需要Batik的呈现树。
这使得可视化的可伸缩性不是很好,并且有一个参数
-vis.sampling其中默认为10000的样本。因此,在更大的数据集上,您将看到每次可视化的不同样本。当然,它仍然使用所有数据进行分析。添加一个参数来修复随机种子是相当容易的,但人们倾向于抱怨参数太多……
有关更适合异常值检测的航天飞机数据集的变体,请参阅此站点:
http://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/literature/Shuttle/
请注意,要正确读取文件,您将需要参数-arff.externalid id -arff.classlabel outlier,以便id列不用于分析,而离群值标签列仅用作评估的类。
https://stackoverflow.com/questions/42384304
复制相似问题