【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档: http://scikit-learn.org/0.19/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

1.2. 线性和二次判别分析

Linear Discriminant Analysis(线性判别分析)(discriminant_analysis.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判别分析)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是两个经典的分类器。 正如他们名字所描述的那样,他们分别代表了线性决策平面和二次决策平面。

这些分类器十分具有魅力,因为他们可以很容易计算得到闭式解,其天生的多分类特性,在实践中已经证明很有效,并且不需要再次调参。

以上这些图像展示了 Linear Discriminant Analysis (线性判别分析)以及 Quadratic Discriminant Analysis (二次判别分析)的决策边界。其中,最底行阐述了线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次函数的边界,因此它相对而言更加灵活。

示例:

Linear and Quadratic Discriminant Analysis with covariance ellipsoid: LDA和QDA在特定数据上的对比

1.2.1. 使用线性判别分析来降维

discriminant_analysis.LinearDiscriminantAnalysis 可以通过给予包含了最大化不同类别间距的方向的线性子空间(subspace)投放输入数据, 从而用来执行监督下的降维。输出的维度必然会比原来的类别数量更少的。因此它是总体而言十分强大的降维方式,同样也仅仅在多分类环境下才会起作用。

实现方式在 discriminant_analysis.LinearDiscriminantAnalysis.transform 中.关于维度的数量可以通过n_components参数来调节 . 值得注意的是,这个参数不会对 discriminant_analysis.LinearDiscriminantAnalysis.fit 或者 discriminant_analysis.LinearDiscriminantAnalysis.predict 产生影响.

示例:

Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异

1.2.2. LDA 和 QDA 分类器的数学公式

LDA 和 QDA 都是源于简单的概率模型,这些模型对于每一个类别 

 的相关分布 

 都可以通过贝叶斯定理所获得。

并且我们选择能够最大化条件概率的类别 

.

更详细地,对于线性以及二次判别分析, 

 被塑造成一个多变量的高斯分布密度:

为了使用该模型作为分类器使用,我们需要通过训练集数据预测更重要的类别 

 (通过每个类 

 的实例的概率预测) 类别均值 

 (用经验的样本类别均值)以及协方差矩阵(过用经验的样本类别协方差或者正则化的估计器estimator: 见下面的 shrinkage章节).

在 LDA 中,每个类别 

 的高斯分布共享相同的协方差矩阵:

 for all 

。可以带来线性的 决策平面, 正如所见, 通过比较log似然比 

 。

对于 QDA 而言,没有关于高斯协方差矩阵 

 的假设,因此带来二次决策平面. 更多细节见 [3] .

Note

与高斯朴素贝叶斯的关系

如果在QDA模型中假设协方差矩阵是对角的,那么在每个类别中的输入数据则被假定是相关依赖的。 而且结果分类器会和高斯朴素贝叶斯分类器 naive_bayes.GaussianNB 相同。

1.2.3. LDA 的降维数学公式

为了理解 LDA 在降维上的应用,它对于进行 LDA 分类的几何重构是十分有用的。我们用 

 表示目标类别的总数。 由于在 LDA 中我们假设所有类别都有相同预测的协方差 

 ,我们可重新调节数据从而让让协方差相同。

在缩放后可以分类数据点和找到离数据点最近的欧式距离相同的预测类别均值。但是它可以在投影到 

 个由所有 

 个类生成的仿射子空间

 之后被完成。这也表明,LDA 分类器中存在一个利用线性投影到 

 个维度空间的降维工具。

我们可以通过投影到可以最大化 

 的方差的线性子空间 

 以更多地减少维度,直到一个选定的 

 值 (实际上,我们正在做一个类 PCA 的形式为了实现转换类均值 

) discriminant_analysis.LinearDiscriminantAnalysis.transform 方法. 详情参考 [3] 。

1.2.4. Shrinkage(收缩)

收缩是一个在训练样本数量相比特征而言很小的情况下可以提升预测(准确性)的协方差矩阵。 在这个情况下,经验样本协方差是一个很差的预测器。LDA 收缩可以通过设置 discriminant_analysis.LinearDiscriminantAnalysis 类的 shrinkage参数为 ‘auto’ 以得到应用。

shrinkage parameter (收缩参数)的值同样也可以手动被设置为 0-1 之间。特别地,0 值对应着没有收缩(这意味着经验协方差矩阵将会被使用), 而 1 值则对应着完全使用收缩(意味着方差的对角矩阵将被当作协方差矩阵的估计)。设置该参数在两个极端值之间会估计一个(特定的)协方差矩阵的收缩形式

1.2.5. 预估算法

默认的 solver 是 ‘svd’。它可以进行classification (分类) 以及 transform (转换),而且它不会依赖于协方差矩阵的计算(结果)。这在特征数量特别大的时候就显得十分具有优势。然而,’svd’ solver 无法与 shrinkage (收缩)同时使用。

‘lsqr’ solver 则是一个高效的算法,它仅仅只能用于分类使用,而且它支持 shrinkage (收缩)。

‘eigen’(特征) solver 是基于 class scatter (类散度)与 class scatter ratio (类内离散率)之间的优化。 它既可以被用于classification (分类)以及 transform (转换),此外它还同时支持收缩。然而,该解决方案需要计算协方差矩阵,因此它可能不适用于具有大量特征的情况。

Examples:

Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

References:

[3]

(1, 2) “The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.

[4]

Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档: http://scikit-learn.org/0.19/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

有兴趣的大佬们也可以和我们一起来维护,持续更新中 。。。

机器学习交流群: 629470233

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

轻量化神经网络综述

深度神经网络模型被广泛应用在图像分类、物体检测等机器视觉任务中,并取得了巨大成功。然而,由于存储空间和功耗的限制,神经网络模型在嵌入式设备上的存储与计算仍然是一...

99950
来自专栏CreateAMind

以假乱真的生成图片的效果

昨天发的图片是训练到6小时的效果LS-GAN非常棒的效果!,今天略微调整继续训练:也出现了生成网络跟不上判别网络的情况,加快生成网络训练循环。

9720
来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记(1)

如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致...

29930
来自专栏null的专栏

简单易学的机器学习算法——主成分分析(PCA)

一、数据降维        对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降...

36150
来自专栏机器之心

学界 | 如何通过方差偏移理解批归一化与Dropout之间的冲突

35150
来自专栏人工智能LeadAI

TensorFlow从0到1丨第十六篇 L2正则化对抗“过拟合”

前面的第十四篇 交叉熵损失函数——防止学习缓慢和第十五篇 重新思考神经网络初始化从学习缓慢问题入手,尝试改进神经网络的学习。本篇讨论过拟合问题,并引入与之相对的...

372120
来自专栏IT派

随机森林之美

导语:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random...

46340
来自专栏解飞的专栏

实习生的监控算法: 利用机器学习方法进行曲线分类

本篇文章主要采用机器学习的方法来实现曲线分类,基本思路是对训练集先用聚类方法(如Kmeans和Birch等进行聚类,对数据打上标签),然后在对测试集采用分类方法...

1.4K10
来自专栏AI深度学习求索

实验artifacts优化:生成图片反卷积与棋盘伪影

生成图片实验中总会出现各种各样的artifacts,这几天跑实验遇到了棋盘伪影,在前辈指导下了解了如何解决这个问题,记录一下

25520
来自专栏大数据挖掘DT机器学习

使用python+机器学习方法进行情感分析(详细步骤)

不是有词典匹配的方法了吗?怎么还搞多个机器学习方法。 因为词典方法和机器学习方法各有千秋。 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很...

1.7K70

扫码关注云+社区

领取腾讯云代金券