各位筒子们,大家好,好久不见,有没有一种“周五思君不见君,共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉,由于我工作原因断更了一次,不仅耽误了筒子们学习知识的宝贵时间,而且老板答应给我加的鸡腿也不翼而飞了.
为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.
今天给筒子们带来的干货是:K-均值聚类算法,它是一种无监督的机器学习算法. 什么是无监督呢?小明同学:今天自习课,班主任请假,其他人在学习,我和毛毛双排玩王者农药,还用阿珂拿了五杀. 小明同学的解释很到位,老师不在,没人监督情况下,班级学生分为两类,一类是好好学习的其他同学,一类是小明和毛毛为马化腾冲业绩、为队友冲战绩的“垫境选手”.
由此可见,无监督的意思就是将相似的对象自动归到同一组中,有点像全自动分类,也就是事先我们没有给一组数据做任何的标签(标签是什么ghost). 每一组中的对象越相似,聚类效果越好,就像 "物以类聚,人以群分"及“狼狈为奸”(你怎么尬说都行) ,有共同特点大家才能好好一起搞事情嘛.
因此聚类也被称为无监督分类. K-均值算法的工作流程非常简单大致如下:
挑选K个初始点作为起始的质心(也就是中心点,一般随机选择)
为数据集中的每个点找到距离它最近的质心,并把这个点分给这个组类(去质心那里拜码头)
将每个组类的所有点进行取平均值作为新的质心(重新挑老大)
从上面三个步骤我们可以看到,“最近”的质心,也就是需要进行距离计算,当然使用不同的距离计算方法,得到的聚类效果也是不同的,在下一讲,我们会专门介绍几种距离计算方法.
K-均值优点是容易实现,就是取平均值嘛;缺点是在处理大规模数据时候收敛速度较慢;适合的数据类型:数值型数据。
好了本期姬莫君对于K-均值的简单介绍到这里就结束了,如果您觉得对您有一点帮助,就为姬莫君点个赞吧.
领取 专属20元代金券
Get大咖技术交流圈