聚类分析及Python分析（三）

文章来源：企鹅号 - 三行数学

各位筒子们，大嘎好啊，我喺渣渣辉姬莫君。时间如白驹过隙，转眼间一周又过去了，姬莫君也追了档综艺叫做《奇葩说》，相信很多小伙伴也都看过，我非常喜欢杨奇涵的那句灵魂质问“你今天有没有比昨天更博学？”，听起来貌似像是令人作呕的毒鸡汤和老师是为你好的“良苦用心”。

姬莫君倒是觉得毒鸡汤也是鸡汤啊，至少不是害死人的砒霜。比如我们做的这个公众号一方面当然是想让更多的人看到，想要更多的“老铁，双击666，点赞”，另一方面其实是自己的兴趣和保持自己继续学习的状态吧，算是一种自我的约束和自律。好了，之所以说这点矫情的话，没有其他目的，就是想要各位大佬看完后能点个赞。

在上一期中，我们对聚类算法进行了简单的介绍，相信大家和“K-Means”同学已经有了初步的认识，可以进一步做盆友了。

为了能够加深理解，本期将会使用python实现K-均值算法实例来为大家讲解“交朋友”的方式。还是老规矩，不BB了，直接贴代码

运行结果如下图

从图中我们可以看出：数据被分为四类，四个星星分别代表了它们的质心，聚类效果非常明显，另外，scikit-learn方法相比于其他的方法更加简单明了。当然，即使K-均值效果很好，但由于其自身的问题，仍然存在很多缺陷：

（1）K 值的选定非常难以估计；

（2）初始聚类质心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；

（3）当数据量很大时，完成迭代所需的时间非常长。

好了，本期内容就到这里了，欢迎大家评论区留言和点赞哦。

相关快讯