线性判别分析篇

AI君分分钟带你读懂AI技术

线性判别分析

Linear Discriminant Analysis

概述

这篇文章里,AI君想要跟大家讲讲线性判别分析,英文全称Linear Discriminant Analysis,简称LDA。

线性判别分析(LDA)属于机器学习中的监督式学习方法,广义的LDA是指所有的判别函数均为线性函数。其中最经典的则是“Fisher判别分析”。

这一方法应用广泛,尝尝被用来做特征提取、数据降维和任务分类,在人脸识别、人脸检测等领域发挥了重要的作用。

线性判别分析的核心思想是寻找到最佳的投影方法,将高维的样本投影到特征空间(feature space),使得不同类别间的数据“距离”最大,而同一类别内的数据“距离”最小。

示例

下面举例说明LDA算法的实现过程。如下图所示是一个二元分类(binary classification)的例子,我们的任务就是把所有的二维数据点投影到一条直线上,在全部可能的投影直线(projection line)中,找到把数据分类做的最好那一个。

为了达成这个目标,我们有两种思路:是寻找可以让不同类别的平均点“距离最远”的投影方式;是寻找可以让同类别的数据“挨的最近”的投影方式。

第一种思路下的投影结果见上图中的左半部分所示。很明显,这种方法表现并不够好,不同类别的数据在投影直线上有很多重叠。

第二种思路下的投影结果见上图中右半部分所示,可以看到不同类别的数据重叠最少,因此更优。

在数学优化中,上面两种思路,分别对应了两种优化方法:最大化类间方差(maximize between class covariance);最小化类内方差(minimize within class covariance)。

线性判别分析算法综合了上述两种思想,使投影后的样本在新的子空间有最大的“类间距离”和最小的“类内距离”,从而能更好地完成分类问题。

总结

我们刚以一个二元分类二维数据的例子解释了线性判别分析算法的基本思想,这种方法在多元分类(multiclass classification)和高维数据中仍然适用。

通过线性判别分析,高维的原始样本数据可以被投影到最适合分类的特征空间。线性判别分析常被用来在数据挖掘过程中进行分类信息抽取和特征空间(feature space)维数压缩等。

后话

《技术词条》这一栏目主要针对人工智能领域内的专业技术或算法,AI君会基于领域内的经典论文和教材,尽量用通俗易懂的语言为你解释清楚,不废话不凑字,直达最核心的内容。

留言你的想法,告诉AI君你最想了解的人工智能算法,我就会优先发布你想看的文章哦。

祝好!

AI君

2017年12月31日 于欧洲

图片来源

Bishop, C. M. (2006). Pattern recognition. Machine Learning, 128. Figure 4.6

http://5b0988e595225.cdn.sohucs.com/images/20171218/7f674ca0edbb467a8548227b6cc1f80e.jpeg

参考文献

Fisher, R. A. (1938). The statistical utilization of multiple measurements. Annals of Human Genetics, 8(4), 376-386.

Bishop, C. M. (2006). Pattern recognition. Machine Learning, 128.

感谢阅读,记得打CALL

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

机器学习算法集锦

摘要: 机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研...

41150
来自专栏机器之心

深度 | 一文概览图卷积网络基本结构和最新进展

选自tkipf.github 作者:Thomas Kipf 机器之心编译 参与:李诗萌、刘晓坤 本文介绍了图卷积网络的基本结构,和最新的研究进展,并指出了当前...

47190
来自专栏华章科技

机器学习算法入门:从贝叶斯到深度学习及各自优缺点(附导图下载)

导读:在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了...

17510
来自专栏企鹅号快讯

人工智能开发者必须知道的十种深度学习方法!

源| AI 科技评论文| Camel 不管是AI也好,其他学科也好,学习、研究的过程中不断反思学科的历史,总结学科的发展现状,找出最重要的理念,总能让人能“吾道...

412130
来自专栏AI科技评论

独家 |《TensorFlow实战》作者黄文坚:四大经典CNN网络技术原理

AI科技评论按:2月28日下午3点,《TensorFlow实战》作者黄文坚做客【硬创公开课】,为我们讲解了关于四大经典CNN网络:AlexNet、VGGNet、...

59890
来自专栏机器学习AI算法工程

常见的机器学习&数据挖掘数学知识点

常见的机器学习&数据挖掘数学知识点之Basis SSE(Sum of Squared Error, 平方误差和) SSE=∑i=1n(Xi−X¯¯¯)2 ...

71170
来自专栏机器人网

具有启发性的十种深度学习方法

 不管是AI也好,其他学科也好,学习、研究的过程中不断反思学科的历史,总结学科的发展现状,找出重要的理念,总能让人能“吾道一以贯之”。软件工程师James Le...

391110
来自专栏数说工作室

logistic回归:从生产到使用【下:生产篇】

logistic回归:从生产到使用【下:生产篇】 上篇介绍了logistic模型的原理,如果你只是想使用它,而不需要知道它的生产过程,即拟合方法及编程实现,那么...

39950
来自专栏机器学习AI算法工程

机器学习算法的R语言实现:朴素贝叶斯分类器

1、引子 朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中 朴素 的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其...

31490
来自专栏PPV课数据科学社区

七种回归分析方法 个个经典

什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间...

31450

扫码关注云+社区

领取腾讯云代金券