凝聚层次聚类:初始每个对象看成一个簇,即n个簇,合并最相似的两个簇,成(n-1)个簇,重复直到一个簇
\
相似度衡量方法
最小距离:两个簇中最近的两个对象的距离
最大距离:两个簇中最远的两个对象的距离
平均距离:两个簇中所有对象两两距离的平均值
质心距离:两个簇质心的距离
\
DBSCAN聚类算法
数据集中一个对象的半径𝜉内有大于minPts个对象时,称这个点核心点,将这些核心点半径内的对象加入这个簇,同时这些对象中若存在核心点,则合并簇
最终不属于簇的点为离群点即噪音
数据集D有n个对象D=\{o_i|i=1,2,...n\}设定半径𝜉,minPts半径内对象的个数最小值即密度阈值
𝜉,minPts的设定可通过k距离
K距离指一个点的距离它第k近的点的距离,计算数据集中每个点的k距离后可排序生成k距离图,选取其变化剧烈的的位置的k距离作为𝜉,k为minPts。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。