专栏首页深度学习与python算法研习:K-means聚类和分层聚类分析

算法研习:K-means聚类和分层聚类分析

喜欢就点关注吧!

无监督学习是机器学习的另一大分支,与监督学习不同,无监督学习的数据集中没有数据标签,因此无法像监督学习的分类和回归问题那样学习对应标签的数据特征,无监督学习只能通过算法分析数据间的相似性来对数据进行聚类分析,今天我们就来看一下两大聚类算法:K-means聚类和分层聚类。

K-means聚类

K-means算法的核心是在我们的数据集中找到能最小化数据间距离的中心点,该中心点称为“质心”。质心的数量也就是我们设定的想要输出类的数量。 质心的寻找是一个迭代过程,由两个步骤组成:

  • 首先,对于每个质心,算法找到与该质心相近的最近点(通常利用欧几里德距离),并将它们分配到该类别。
  • 其次,对于每个类别(由一个质心表示),算法计算归因于该类的所有点的平均值。并将此平均值设为该类的新质心。

经过几次迭代之后,质心将不会发生明显的变化,因此该质心即为数据集聚类的最终质心。

那么我们如何来判断质心选取的好坏呢?衡量的标准有很多,今天就给大家介绍一种通过平方差来判断的方法,公式如下。

该数学表达式表示某一类中的数据点到质心的平方差之和,那么假如数据集中所有数据都为质心的话,WCSS就为0,下图为质心数与WCSS之间的关系:

分层聚类

分层聚类有下图所示的两种方式:聚合与分裂

在分层聚类中,相似性度量也是通过数据点之间的距离来判断的,下边介绍分层聚类中三种距离度量方式:

最小值:表示给定两个簇C1和C2,它们之间的相似性等于点a和b之间的相似性最小值(平移:距离),使得a属于C1,b属于C2。

最大值: 表示给定两个簇C1和C2,它们之间的相似性等于点a和b之间的相似性的最大值,使得a属于C1,b属于C2。

平均值:表示计算所有点对之间的相似性,然后计算相似度的平均值来表示簇C1和C2之间的相似性。

综上所述,两种聚类算法都在寻找数据之间的相似性,并且都使用相同的方法来确定簇的数量。至于两种算法在统一数据集上的聚类结果差异可以通过随机生成数据,用两种算法进行聚类计算,通过可视化聚类结果进行对比。

参考

https://towardsdatascience.com/unsupervised-learning-k-means-vs-hierarchical-clustering-5fe2da7c9554

本文分享自微信公众号 - 深度学习与python(PythonDC),作者:Python语音识别

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 充满想象,5G+X解锁云端划时代创新场景

    5G 应用普及带来的行业模式和应用场景变化都是不可忽视的。5G 时代的企业业务可能面临哪些挑战?如何应对和把握 5G 催生的全新场景和机会?作为企业的技术负责人...

    深度学习与Python
  • Python 谱聚类算法从零开始

    谱聚类算法是一种常用的无监督机器学习算法,其性能优于其他聚类方法。 此外,谱聚类实现起来非常简单,并且可以通过标准线性代数方法有效地求解。 在谱聚类算法中,根据...

    深度学习与Python
  • 从业多年,总结几点关于机器学习的经验教训

    纯机器学习(ML)模型的训练与建立端到端的数据科学解决方案与实际企业需要之间存在巨大差异。 本文总结了我们团队与来自不同行业的数十家企业客户(包括制造业,金融服...

    深度学习与Python
  • 常用图像分类功能包

    为了能够有效地识别位置,我们需要提取表征图像的特征,之后将相同的特征分成一组,并搜索相似的图像。当然位置识别也可以应用于其他程序,例如在图像恢复我们也需要查找相...

    小白学视觉
  • 深入浅出聚类算法!如何对王者英雄聚类分析,探索英雄之间的秘密

    寄语:首先,对聚类算法进行了介绍;然后,解释了EM算法E步、M步的原理;最后,对sklearn参数进行了详解,并对王者荣耀英雄利用EM算法聚类,助力深入理解EM...

    Datawhale
  • 开发 | 机器学习之确定最佳聚类数目的10种方法

    AI科技评论按,本文作者贝尔塔,原文载于知乎专栏数据分析与可视化,AI科技评论获其授权发布。 在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmean...

    AI科技评论
  • 【机器学习】确定最佳聚类数目的10种方法

    在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmeans函数就要你提供聚类数目这个参数,总不能两眼一抹黑乱填一个吧。之前也被这个问题困扰过,看了很多...

    小莹莹
  • 概率公平聚类(CS AI)

    在聚类问题中,中央决策者将获得关于顶点的完整度量图,并且必须提供将某些目标函数最小化的顶点聚类。在公平聚类问题中,顶点具有一种颜色(例如,组中的成员资格),并且...

    刘子蔚
  • 观点 | 通往通用人工智能的路上,我们少不了无监督学习

    在过去十年中,机器学习在很多领域都取得了前所未有的进展,如图像识别,自动驾驶汽车、和玩复杂游戏如「GO」等。这些成就在很大程度上都是通过采用监督学习和强化学习两...

    AI科技评论
  • 大咖 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

    人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。

    大数据文摘

扫码关注云+社区

领取腾讯云代金券