我使用HDBSCAN算法来执行无监督聚类和检测异常值。根据这些文档,有两个来自聚类过程的输出,可以让我们了解哪些点是异常值。
我一直在研究一些数据,我注意到这两种方法并没有给出相同的结果。这意味着我的数据集中有些点被标记为不是集群的一部分,但GLOSH异常值算法没有检测到这些点。我是否应该把这两种方法的结合看作是我的离群点,还是我在解释它们时遗漏了什么?
发布于 2017-11-06 04:16:15
GLOSH是针对局部异常点工作的,因此,如果一个区域非常密集,然后在它附近有几个稀疏点,则GLOSH会将这些稀疏点评为比稀疏区域中的其他噪声点更远的稀疏点。这是因为它被认为是特别奇怪的一点接近,但不是在一个非常密集的区域-局部的地区,点是一个重要的离群点。
关于你的问题:如果你关心当地的离群点(相对于附近地区的密度而言,这些事情很奇怪),那么GLOSH是一个不错的选择。例如,这在检测网络入侵时很有用,因为攻击者将试图像普通用户一样行事,但在密集的普通用户集群之外。另一方面,如果您对一般的外围点更感兴趣,那么只需从聚类中选择噪声点就可以在空间的稀疏区域中选择点。
最后,请注意,选择噪声点只给您一个阈值;在合同中,GLOSH提供了一个分数范围,您可以调整阈值以查找您想要的异常值的数量。
https://datascience.stackexchange.com/questions/20275
复制相似问题