无监督学习 聚类分析④

无监督学习 聚类分析④

  • EM(Expectation Maximization Algorithm)

1.EM算法的基本思想

假如我们随机选取了100名男生和100名女生,两百个人混在一起,而目前只有每个人学生的身高数据,我们既不知道每个身高数据所对应的性别,也不知道男生和女生两个群体的总体身高分布情况。首先我们假设男生身高分布符合170cm的正太分布,而女生身高符合160cm的正态分布。通过这个假设的参数,对所有的身高数据进行性别分类。当完成分类后,通过对预测的男生,女生两个群体的分布来修改之前假设的身高分部参数。如此循环,直至收敛。

2.EM算法的基本步骤

  1. EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:
    1. 初始化分布参数
    2. 重复直到收敛:
      1. E步骤:估计未知参数的期望值,给出当前的参数估计。
      2. M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。

3. 高斯混合模型

高斯混合模型(GMM,Gaussian Mixture Model)可以看成是EM算法的一种现实应用。利用这个模型可以解决聚类分析、机器视觉等领域中的许多实际问题。讨论EM算法时,我们并未指定样本来自于何种分布。实际应用中,常常假定样本是来自正态分布之总体的。也就是说,在进行聚类分析时,认为所有样本都来自具有不同参数控制的数个正态总体。例如前面讨论的男性女性身高问题,我们就可以假定样本数据是来自一个双正态分布混合模型。这便有了接下来要讨论的高斯混合模型。

4.mclust包

mclust包是聚类分析非常强大的一个包 帮助文档非常详尽,可以进行聚类、分类、密度分析。Mclust包方法有点“暴力”,聚类数目自定义,比如我选取的从1到20,然后一共14种模型,每一种模型都计算聚类数目从1到20的BIC值,最终确定最佳聚类数目,这种方法的思想很直接了当,但是弊端也就显然易见了——时间复杂度太高,效率低。

setwd("E:\\Rwork")
library(gclus)
data(wine)
head(wine)
dataset <- wine[,-1] #去除分类标签
dataset <- scale(dataset)
set.seed(1234)
library(mclust)
m_clust <- Mclust(as.matrix(dataset), G=1:20) #聚类数目从1一直试到20
summary(m_clust)
plot(m_clust, "BIC")

5.结论

它们应该分别代表着相关性(完全正负相关——对角线、稍强正负相关——椭圆、无关——圆)等参数的改变对应的模型,BIC值越大则说明所选取的变量集合拟合效果越好** 上图中除了两个模型一直递增,其他的12模型数基本上都是在聚类数目为3的时候达到峰值,所以该算法由此得出最佳聚类数目为3的结论。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

机器学习必备的数学基础有哪些?

对于机器学习给出了这样一个定义,机器学习是由三个部分组成,分别是表示、评价,还有优化。这样的三个步骤,实际上也就对应着在机器学习当中所需要的数学。

8820
来自专栏机器学习算法工程师

《机器学习》笔记-聚类(9)

17450
来自专栏PPV课数据科学社区

贝叶斯、概率分布与机器学习

一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个...

388100
来自专栏自学笔记

机器学习可行性与VC dimension

在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是...

34240
来自专栏决胜机器学习

循环神经网络(五) ——Bean搜索、bleu评分与注意力模型

20360
来自专栏机器学习算法与Python学习

Deep Learning(1) -- 概述、分布式表示与思想

绪论 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的...

59870
来自专栏AI科技评论

大会 | 优必选悉尼AI研究院AAAI 2018顶会论文一览

AI 科技评论按:第 32 届人工智能顶级会议 AAAI 2018 在美国新奥尔良召开。在今年的 AAAI 上,优必选悉尼 AI 研究院共有 5 篇论文入选,其...

10630
来自专栏机器之心

深度学习贝叶斯,这是一份密集的6天速成课程(视频与PPT)

多数讲师和助教都是贝叶斯方法研究团队的成员以及来自世界顶级研究中心的研究者。很多讲师曾经在顶级国际机器学习会议例如 NIPS、ICML、ICCV、CVPR、IC...

18410
来自专栏PPV课数据科学社区

【干货长文】神经网络浅讲:从神经元到深度学习

  神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解...

31880
来自专栏JasonhavenDai

统计学习方法之朴素贝叶斯1.概述2.基础知识3.基本方法4.参数估计5.简单实现

1.概述 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计...

40980

扫码关注云+社区

领取腾讯云代金券