小白聚类笔记2：还有三种需要了解

文章来源：企鹅号 - R语言与SPSS

我就在这里等你关注，不离不弃

——A·May

R-JL |T-155

思路：

1.三步实现层次聚类（这么叫是为了记思路容易些）

2.三步实现基于中心点的PAM聚类

3.密度聚类的两个作用（聚类和识别异常值）

简述：

1.层次聚类的结果直观，但是数据太大就做不了，此处也额外思考共词矩阵的分析，对于阈值的把握一定要合理。

2.k-means适用并常用于大数据，但是，容易受到异常值的影响，所以预处理1中的异常值处理和预处理2中的标准化处理对其极为重要。

3.PAM聚类是k-means针对异常值影响的稳健升级版，可以容纳混合数据型，不限于连续型变量，但是PAM对小的数据集非常有效，对大数据集效率不高，特别是n和k都很大的时候。

4.密度聚类，类似dbscan聚类法可以对不同的形状进行聚类，但是不能很好的反应高维度数据以及其密度的变化。

脚本过程：

1.三步实现层次聚类

2.三步实现基于中心点的聚类PAM

3.基于密度聚类DBSCAN的两个作用

友情提示：

聚类方法不止这四种，但是个人觉得这四种可以到达目的了。其次，聚类的作用体现在客户分群、用户画像和产品组合等多个方面，早早思考一个主题做出相应的报告才是王道。最后，关于模型的优缺点、使用条件、使用情景和经典案例还请自行补充。

学习数据分析的平台

相关快讯