机器学习中的EM算法详解及R语言实例

CSDN:白马负金羁

最大期望算法(EM)

K均值算法非常简单(可参见之前发布的博文),详细读者都可以轻松地理解它。但下面将要介绍的EM算法就要困难许多了,它与极大似然估计密切相关。

1 算法原理

不妨从一个例子开始我们的讨论,假设现在有100个人的身高数据,而且这100条数据是随机抽取的。一个常识性的看法是,男性身高满足一定的分布(例如正态分布),女性身高也满足一定的分布,但这两个分布的参数不同。我们现在不仅不知道男女身高分布的参数,甚至不知道这100条数据哪些是来自男性,哪些是来自女性。这正符合聚类问题的假设,除了数据本身以外,并不知道其他任何信息。而我们的目的正是推断每个数据应该属于哪个分类。所以对于每个样本,都有两个需要被估计的项,一个就是它到底是来自男性身高的分布,还是来自女性身高的分布。另外一个就是,男女身高分布的参数各是多少。

既然我们要估计知道A和B两组参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。所以可能想到的一种方法就是考虑首先赋予A某种初值,以此得到B的估计,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。你是否隐约想到了什么?是的,这恰恰是K均值算法的本质,所以说K均值算法中其实蕴含了EM算法的本质。

EM算法,又称期望最大化(Expectation Maximization)算法。在男女身高的问题里面,可以先随便猜一下男生身高的正态分布参数:比如可以假设男生身高的均值是1.7米,方差是0.1米。当然,这仅仅是我们的一个猜测,最开始肯定不会太准确。但基于这个猜测,便可计算出每个人更可能属于男性分布还是属于女性分布。例如有个人的身高是1.75米,显然它更可能属于男性身高这个分布。据此,我们为每条数据都划定了一个归属。接下来就可以根据最大似然法,通过这些被大概认为是男性的若干条数据来重新估计男性身高正态分布的参数,女性的那个分布同样方法重新估计。然后,当更新了这两个分布的时候,每一个属于这两个分布的概率又发生了改变,那么就再需要调整参数。如此迭代,直到参数基本不再发生变化为止。

在正式介绍EM算法的原理和执行过程之前,此处首先对边缘分布的概念稍作补充。

2. 收敛探讨

在下一篇中我们将讨论高斯混合模型(GMM),相当于是EM的一种实现。并给出在R中进行数据挖掘的实例。

4. 高斯混合模型

高斯混合模型(GMM,Gaussian Mixture Model)可以看成是EM算法的一种现实应用。利用这个模型可以解决聚类分析、机器视觉等领域中的许多实际问题。

4.1 模型推导

在讨论EM算法时,我们并未指定样本来自于何种分布。实际应用中,常常假定样本是来自正态分布之总体的。也就是说,在进行聚类分析时,认为所有样本都来自具有不同参数控制的数个正态总体。例如前面讨论的男性女性身高问题,我们就可以假定样本数据是来自如图13-5所示的一个双正态分布混合模型。这便有了接下来要讨论的高斯混合模型。

4.2 应用实例

软件包mclust提供了利用高斯混合模型对数据进行聚类分析的方法。其中函数Mclust()是进行EM聚类的核心函数,它的基本调用格式为

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

科普 | 12个关键词,告诉你到底什么是机器学习

随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于非专业人士...

1867
来自专栏机器之心

学界 | 又快又准确,新目标检测器速度可达每秒200帧

1725
来自专栏大数据挖掘DT机器学习

机器学习算法经验总结

算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话...

36710
来自专栏PPV课数据科学社区

人人都能读懂的无监督学习:什么是聚类和降维?

可以说机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechn...

2764
来自专栏大数据文摘

“无中生有”计算机视觉探奇

1042
来自专栏顶级程序员

12个关键词,告诉你到底什么是机器学习

编者按:随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于...

2805
来自专栏Petrichor的专栏

深度学习: 迁移学习 (Transfer Learning)

但是如果 新任务 和旧任务类似,同时 新任务 缺乏足够数据 去从头训练一个新模型,那该怎么办呢?

3682
来自专栏专知

谷歌大脑工程师Eric Jang 2017机器学习总结:从表达能力、训练难度和泛化能力讨论机器学习模型

【导读】谷歌大脑工程师Eric Jang在2017年11月20日发表一篇名为《Expressivity, Trainability, and Generaliz...

3575
来自专栏申星的专栏

【SPA大赛】腾讯社交广告大赛心得分享

大赛题目是转化率预估,这也是第一次接触这类赛题,所以遇到的问题比较多。这里记录下来,希望对其它参赛者有所帮助。

8830
来自专栏新智元

苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪

【新智元导读】 苹果刚刚推出一个名为 Apple Machine Learning Journal 的新研究博客,第一篇文章介绍了他们的CVPR论文,提出一种改...

3378

扫码关注云+社区