sklearn调包侠之K-Means

文章来源：企鹅号 - 小白的一生

K-Means算法

k-均值算法（K-Means算法）是一种典型的无监督机器学习算法，用来解决聚类问题。

算法流程

K-Means聚类首先随机确定 K 个初始点作为质心（这也是K-Means聚类的一个问题，这个K值的不合理选择会使得模型不适应和解释性差）。然后将数据集中的每个点分配到一个簇中，具体来讲，就是为每个点找到距其最近的质心（这里算的为欧式距离，当然也可以使用其他距离），并将其分配该质心所对应的簇；这一步完成之后，每个簇的质心更新为该簇所有点的平均值；重复上述过程直到数据集中的所有点都距离它所对应的质心最近时结束。

算法伪代码

实战

构造数据

首先，我们用make_blobs创建数据集，如图所示。

训练模型与评估

该算法使用 sklearn.cluster 模块中的KMeans函数。

绘制聚类结果

最后，我们通过matplotlib绘制聚类的结果，如图所示：

发表于: 2018-07-082018-07-08 09:48:38
原文链接：https://kuaibao.qq.com/s/20180708G0CX5900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

sklearn调包侠之K-Means

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐