首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >HDBSCAN孤立点检测与标记

HDBSCAN孤立点检测与标记
EN

Data Science用户
提问于 2017-07-09 13:45:44
回答 1查看 2.9K关注 0票数 2

我使用HDBSCAN算法来执行无监督聚类和检测异常值。根据这些文档,有两个来自聚类过程的输出,可以让我们了解哪些点是异常值。

  1. GLOSH孤立点检测算法,它提供了一个点是否是孤立点的一定程度的确定性。
  2. HDBSCAN标签表明,如果不属于集群的元素被视为噪声,并且具有相应的标签。

我一直在研究一些数据,我注意到这两种方法并没有给出相同的结果。这意味着我的数据集中有些点被标记为不是集群的一部分,但GLOSH异常值算法没有检测到这些点。我是否应该把这两种方法的结合看作是我的离群点,还是我在解释它们时遗漏了什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2017-11-06 04:16:15

GLOSH是针对局部异常点工作的,因此,如果一个区域非常密集,然后在它附近有几个稀疏点,则GLOSH会将这些稀疏点评为比稀疏区域中的其他噪声点更远的稀疏点。这是因为它被认为是特别奇怪的一点接近,但不是在一个非常密集的区域-局部的地区,点是一个重要的离群点。

关于你的问题:如果你关心当地的离群点(相对于附近地区的密度而言,这些事情很奇怪),那么GLOSH是一个不错的选择。例如,这在检测网络入侵时很有用,因为攻击者将试图像普通用户一样行事,但在密集的普通用户集群之外。另一方面,如果您对一般的外围点更感兴趣,那么只需从聚类中选择噪声点就可以在空间的稀疏区域中选择点。

最后,请注意,选择噪声点只给您一个阈值;在合同中,GLOSH提供了一个分数范围,您可以调整阈值以查找您想要的异常值的数量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/20275

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档