小白聚类笔记2:还有三种需要了解

我就在这里等你关注,不离不弃

——A·May

R-JL |T-155

思路:

1.三步实现层次聚类(这么叫是为了记思路容易些)

2.三步实现基于中心点的PAM聚类

3.密度聚类的两个作用(聚类和识别异常值)

简述:

1.层次聚类的结果直观,但是数据太大就做不了,此处也额外思考共词矩阵的分析,对于阈值的把握一定要合理。

2.k-means适用并常用于大数据,但是,容易受到异常值的影响,所以预处理1中的异常值处理和预处理2中的标准化处理对其极为重要。

3.PAM聚类是k-means针对异常值影响的稳健升级版,可以容纳混合数据型,不限于连续型变量,但是PAM对小的数据集非常有效,对大数据集效率不高,特别是n和k都很大的时候。

4.密度聚类,类似dbscan聚类法可以对不同的形状进行聚类,但是不能很好的反应高维度数据以及其密度的变化。

脚本过程:

1.三步实现层次聚类

2.三步实现基于中心点的聚类PAM

3.基于密度聚类DBSCAN的两个作用

友情提示:

聚类方法不止这四种,但是个人觉得这四种可以到达目的了。其次,聚类的作用体现在客户分群、用户画像和产品组合等多个方面,早早思考一个主题做出相应的报告才是王道。最后,关于模型的优缺点、使用条件、使用情景和经典案例还请自行补充。

学习数据分析的平台

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180508G1YCUM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券