Python使用K-means聚类算法进行分类案例一则

K-means算法是经典的基于划分的聚类方法,是十大经典数据挖掘算法之一,其基本思想是:以空间中k个点为中心进行聚类,对最靠近它们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

最终的k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

该算法的最大优势在于简洁和快速,算法的关键在于预测可能分类的数量以及初始中心和距离公式的选择。

假设要把样本集分为c个类别,算法描述如下:

(1)适当选择c个类的初始中心;

(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;

(3)利用均值等方法更新该类的中心值;

(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变或相差很小,则迭代结束,否则继续迭代。

运行结果:

原文发布于微信公众号 - Python小屋(Python_xiaowu)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏应兆康的专栏

21. 关于偏差和方差的实例

16410
来自专栏机器之心

专访 | 五一出游赏花,如何优雅地解释百度细粒度识别方案

17030
来自专栏张俊红

机器学习开篇

总第76篇 声明: 1、接下来的关于机器学习的专题内容都会借鉴李航老师的《统计学习方法》。 2、李航老师的书籍中把机器学习称为统计机器学习,我们在文章中简称为统...

33350
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:先进的神经网络技术(5.3节)

在赫尔辛基大学AI基础教程前一节中,我们讨论了大多数神经网络方法的基本思想:多层神经网络,非线性激活函数并学习了反向传播算法。

8520
来自专栏深度学习与计算机视觉

学习KNN(一) 图像分类与KNN原理

学习KNN(一) 图像分类与KNN原理 学习KNN(二)KNN算法手写数字识别的OpenCV实现 学习KNN(三)KNN+HOG实现手写数字识别 简介...

44370
来自专栏云时之间

《统计学习方法》笔记

1:统计学习方法概论 1.1:统计学习特点,统计学习是关于计算机基于数据构建概率统计模型并运用模型进行数据分析和预测的一门学科。统计学习也称为统计机器学习 西...

35070
来自专栏Brian

机器学习系列-机器学习是什么?

概述 机器学习现在已经运用在很多领域和行业,比如通过机器学习系统来提高自己系统的准确率和目标、进行商业数据的分析与预测等等。机器学习是关于计算机基于数据构建的概...

354110
来自专栏机器之心

学界 | ConvCRF:一种结合条件随机场与CNN的高效语义分割方法

29150
来自专栏专知

【干货】监督学习与无监督学习简介

【导读】本文是一篇入门级的概念介绍文章,主要带大家了解一下监督学习和无监督学习,理解这两类机器学习算法的不同,以及偏差和方差详细阐述。这两类方法是机器学习领域中...

47480
来自专栏ATYUN订阅号

一文读懂在深度学习中使用迁移学习的好处

迁移学习是一种使用为任务开发的模型做第二个任务模型起点的机器学习方法。使用预训练模型作计算机视觉和自然语言处理任务的起点是深度学习中一种流行的方法。因为在这些问...

78380

扫码关注云+社区

领取腾讯云代金券