专栏首页智能算法线性判别分析(LDA)原理总结

线性判别分析(LDA)原理总结

前言


线性判别分析(Linear Discriminant Analysis,以下简称LDA)是有监督的降维方法,在模式识别和机器学习领域中常用来降维。PCA是基于最大投影方差或最小投影距离的降维方法,LDA是基于最佳分类方案的降维方法,本文对其原理进行了详细总结。

目录


1. PCA与LDA降维原理对比 2. 二类LDA算法推导

3. 多类LDA算法推导

4. LDA算法流程

5. 正态性假设

6. LDA分类算法

7. LDA小结

1. PCA与LDA降维原理对比

1.1 PCA降维原理

PCA是非监督式的降维方法,在降维过程中没有考虑类别的影响,PCA是基于最大投影方差或最小投影距离的降维方法,通俗点说,PCA降维后的样本集最大程度的保留了初始样本信息,常用投影距离来描述投影前后样本的差异信息。

用数学公式来阐述这一思想:

其中原始样本集(n个m维数据):

降维后的样本集(n个k维数据):

假设投影变换后的新坐标系(标准正交基):

投影前后的样本关系:

最小化(1)式,并根据条件(2),可求得最佳的投影坐标系W。给定新的输入样本,利用(2)式可求的对应的降维样本。

1.2 LDA降维原理

LDA是有监督的降维方法,在降维过程中考虑了类别的影响,LDA是基于最佳分类效果的降维方法。因此,降维后不同类的样本集具有最大的分类间隔 。

如何描述最大分类间隔,当不同类样本的投影点尽可能远离且相同类样本的投影点尽可能接近,则样本集具有最大分类间隔。我们用类中心间的距离和类的协方差分别表示不同类的距离和相同类的接近程度。

本节只考虑二分类的LDA降维,不同类样本间的投影距离:

不同类的投影协方差之和:

结合(3)(4)式,得到优化目标函数:

最大化(5)式,得到投影向量w,其中

分别是两个类样本的中心点,

分别是两个类的协方差。

1.3 PCA与LDA降维应用场景对比

若训练样本集两类的均值有明显的差异,LDA降维的效果较优,如下图:

由上图可知,LDA降维后的二分类样本集具有明显差异的样本分布。

若训练样本集两类的均值无明显的差异,但协方差差异很大,PCA降维的效果较优,如下图:

由上图可知,PCA降维后的二分类样本分布较LDA有明显的差异。

2. 二类LDA算法推导

假设二类数据集

,其中xi为m维列向量,我们定义两类为C1和C2,即

,对应的样本集个数分别为

根据上一节的LDA的优化目标函数推导投影向量,即最大化目标函数:

其中

为二类的均值向量:

为二类的协方差矩阵:

目标函数转化为:

定义类内散度矩阵

和类间散度矩阵

则(6)式等价于:

我们对(7)式的分母进行标准化,则(7)式等价于:

引用拉格朗日乘子法,得:

因此,只要求出原始二类样本的均值和协方差就可以确定最佳的投影方向w了。

3. 多类LDA算法推导

假设k类数据集

,其中xi为m维列向量,我们定义k类为

,对应的样本集个数分别为

。二类样本数据集通过投影向量w降到一维空间,多类样本数据集降到低维空间是一个超平面,假设投影到低维空间的维度为d,对应的基向量矩阵

因此,多类LDA算法的优化目标函数为:

其中类内散度矩阵

和类间散度矩阵

为第j类样本的均值向量,u为所有样本的均值向量:

因为(8)式分子分母都是矩阵,常见的一种实现是取矩阵的迹,优化目标函数转化为:

优化过程如下:

参考二类LDA算法,利用拉格朗日乘子法,得:

两边左乘

由上式可得LDA的最优投影空间是矩阵

最大d个特征值对应的特征向量所组成的。

4. LDA算法流程

前两节推导了LDA算法,现在对LDA算法流程进行总结,理清一下思路。

假设k类数据集

,其中xi为m维列向量,我们定义k类为

,降维后的维度是d。

1)计算每个类样本的均值向量

和所有数据集的均值向量

2)计算散度矩阵,包括类内散度矩阵

和类间散度矩阵

3)计算

的特征向量

和对应的特征值

4)选择d个最大特征值对应的矩阵

,矩阵的每一列表示特征向量

5)对数据集D进行降维,得到对应的降维数据集

,其中

5. 正态性假设

LDA算法对数据集进行了如下假设:

1)数据集是服从正态分布的;

2)特征间是相互独立的;

3)每个类的协方差矩阵是相同的;

但是如果不满足了这三个假设,LDA算法也能用来分类和降维,因此LDA算法对数据集的分布有较好的鲁棒性。

6. LDA分类算法

前面我们重点分析了LDA算法在降维的应用,LDA算法也能用于分类 。LDA假设各类的样本数据集符合正态分布,LDA对各类的样本数据进行降维后,我们可以通过最大似然估计去计算各类别投影数据的均值和方差,如下式:

进而得到各个类样本的概率密度函数:

其中

为降维后的样本。

因此对一个未标记的输入样本进行LDA分类的步骤:

1) LDA对该输入样本进行降维;

2)根据概率密度函数,计算该降维样本属于每一个类的概率;

3)最大的概率对应的类别即为预测类别。

7. LDA小结

PCA是基于最大投影方差的降维方法,LDA是基于最优分类的降维方法,当两类的均值有明显差异时,LDA降维方法较优;当两类的协方差有明显差异时,PCA降维方法较优。在实际应用中也常结合LDA和PCA一起使用,先用PCA降维去消除噪声,再用LDA降维。

参考

http://sebastianraschka.com/Articles/2014_python_lda.html#introduction

https://www.cnblogs.com/pinard/p/6244265.html

本文分享自微信公众号 - 智能算法(AI_Algorithm)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 降维方法知多少?

    有关降维的研究源远流长,对目前仍广泛使用的经典主分量分析,最早可追溯到1901年。此外还有线性判别分析、典型相关分析、因素分析(Factor Analysis...

    智能算法
  • 机器学习三人行(系列十)----机器学习降压神器(附代码)

    系列九我们从算法组合的角度一起实战学习了一下组合算法方面的知识,详情戳下链接: 机器学习三人行(系列九)----千变万化的组合算法(附代码) 但是,我们也知道算...

    智能算法
  • 【必备】目标检测中的评价指标有哪些?

    上期我们一起学习了全卷积神经网络FCN,今天我们看下目标检测中的评价指标都有哪些?

    智能算法
  • LDA线性判别分析

    之前我们讨论的 PCA降维,对样本数据来言,可以是没有类别标签 y 的。如果我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以...

    Coggle数据科学
  • LDA线性判别分析

    之前我们讨论的 PCA降维,对样本数据来言,可以是没有类别标签 y 的。如果我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用P...

    用户3577892
  • R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

    判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。...

    拓端
  • Centos7安装时遇到的问题及解决方法

    Centos 是用U盘启动器安装的,如果是第一次安装Linux 系统,建议OS使用中文语言安装。安装过程比较简单,再这里只是记录下安装后遇到的一些问题。

    云雀叫了一整天
  • 云巨头决战混合云 新一轮产业竞争爆发

    在火热的7月,混合云也火起来了。先是,中国电信云公司宣布与VMware合作向市场推出混合云服务;接着,阿里云公司宣布与浪潮合作共同推进智慧城市,目标也是混合云。...

    静一
  • JAVA程序第一期

    大家好,因为小编转去做大数据了,所以告别java之前最后把1200例刷一遍,对于里面一些实用的例子呢,会不定期的给大家分享,也希望大家在留言板提一些在工...

    聚沙成塔
  • iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 解析JSON

    视频地址:https://www.cctalk.com/v/15114923886141 JSON 数据 我颠倒了整个世界,只为摆正你的倒影。 前面的文章中,...

    iKcamp

扫码关注云+社区

领取腾讯云代金券