密度聚类假设聚类结构通过样本分布的紧密程度。此算法是基于密度的角度来考察样本之间的连接性,并基于连接性不断扩展聚类簇最后获得最终的结果。他通过判断样本在区域空间内是否大于某个阈值来决定是否将其放到与之相近的样本中。
密度聚类从样本的角度来考虑样本简的连接性,由可连接性不断扩展得到结果,它可以解决k-means和birch等算法只适用于凸样本的情况。
特点:
(1)发现任意蔟
(2)对噪声数据不敏感
(3)一次扫描
(4)计算量大,复杂度高
常用算法:DBSCAN,MDCA,OPTICS等
DBSCAN算法:
DBSCAN是一种著名的密度聚类算法,它基于一组“邻域”(neigh-borhood)参数(e,MinPts)来刻画样本分布的紧密程度.给定数据集D= {21,x2,..,.n},定义下面这几个概念:
蔟C属于D满足两个性质:
若x为核心对象,由x密度可达的所有对象组成的集合X={x'∈D|x'由x密度可达},则X即为满足连接性和最大性的蔟。
缺点:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。