聚类分析及python实现(一)

各位筒子们,大家好,好久不见,有没有一种“周五思君不见君,共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉,由于我工作原因断更了一次,不仅耽误了筒子们学习知识的宝贵时间,而且老板答应给我加的鸡腿也不翼而飞了.

为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.

今天给筒子们带来的干货是:K-均值聚类算法,它是一种无监督的机器学习算法. 什么是无监督呢?小明同学:今天自习课,班主任请假,其他人在学习,我和毛毛双排玩王者农药,还用阿珂拿了五杀. 小明同学的解释很到位,老师不在,没人监督情况下,班级学生分为两类,一类是好好学习的其他同学,一类是小明和毛毛为马化腾冲业绩、为队友冲战绩的“垫境选手”.

由此可见,无监督的意思就是将相似的对象自动归到同一组中,有点像全自动分类,也就是事先我们没有给一组数据做任何的标签(标签是什么ghost). 每一组中的对象越相似,聚类效果越好,就像 "物以类聚,人以群分"及“狼狈为奸”(你怎么尬说都行) ,有共同特点大家才能好好一起搞事情嘛.

因此聚类也被称为无监督分类. K-均值算法的工作流程非常简单大致如下:

挑选K个初始点作为起始的质心(也就是中心点,一般随机选择)

为数据集中的每个点找到距离它最近的质心,并把这个点分给这个组类(去质心那里拜码头)

将每个组类的所有点进行取平均值作为新的质心(重新挑老大)

从上面三个步骤我们可以看到,“最近”的质心,也就是需要进行距离计算,当然使用不同的距离计算方法,得到的聚类效果也是不同的,在下一讲,我们会专门介绍几种距离计算方法.

K-均值优点是容易实现,就是取平均值嘛;缺点是在处理大规模数据时候收敛速度较慢;适合的数据类型:数值型数据。

好了本期姬莫君对于K-均值的简单介绍到这里就结束了,如果您觉得对您有一点帮助,就为姬莫君点个赞吧.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181116A1P7VE00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券