前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

作者头像
片刻
发布2018-01-05 17:59:36
1.4K0
发布2018-01-05 17:59:36
举报
文章被收录于专栏:AILearningAILearning

中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档: http://scikit-learn.org/0.19/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

1.2. 线性和二次判别分析

Linear Discriminant Analysis(线性判别分析)(discriminant_analysis.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判别分析)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是两个经典的分类器。 正如他们名字所描述的那样,他们分别代表了线性决策平面和二次决策平面。

这些分类器十分具有魅力,因为他们可以很容易计算得到闭式解,其天生的多分类特性,在实践中已经证明很有效,并且不需要再次调参。

ldaqda
ldaqda

以上这些图像展示了 Linear Discriminant Analysis (线性判别分析)以及 Quadratic Discriminant Analysis (二次判别分析)的决策边界。其中,最底行阐述了线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次函数的边界,因此它相对而言更加灵活。

示例:

Linear and Quadratic Discriminant Analysis with covariance ellipsoid: LDA和QDA在特定数据上的对比

1.2.1. 使用线性判别分析来降维

discriminant_analysis.LinearDiscriminantAnalysis 可以通过给予包含了最大化不同类别间距的方向的线性子空间(subspace)投放输入数据, 从而用来执行监督下的降维。输出的维度必然会比原来的类别数量更少的。因此它是总体而言十分强大的降维方式,同样也仅仅在多分类环境下才会起作用。

实现方式在 discriminant_analysis.LinearDiscriminantAnalysis.transform 中.关于维度的数量可以通过n_components参数来调节 . 值得注意的是,这个参数不会对 discriminant_analysis.LinearDiscriminantAnalysis.fit 或者 discriminant_analysis.LinearDiscriminantAnalysis.predict 产生影响.

示例:

Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异

1.2.2. LDA 和 QDA 分类器的数学公式

LDA 和 QDA 都是源于简单的概率模型,这些模型对于每一个类别 

k
k

 的相关分布 

P(X|y=k)
P(X|y=k)

 都可以通过贝叶斯定理所获得。

P(y=k | X) = \frac{P(X | y=k) P(y=k)}{P(X)} = \frac{P(X | y=k) P(y = k)}{ \sum_{l} P(X | y=l) \cdot P(y=l)}
P(y=k | X) = \frac{P(X | y=k) P(y=k)}{P(X)} = \frac{P(X | y=k) P(y = k)}{ \sum_{l} P(X | y=l) \cdot P(y=l)}

并且我们选择能够最大化条件概率的类别 

k
k

.

更详细地,对于线性以及二次判别分析, 

P(X|y)
P(X|y)

 被塑造成一个多变量的高斯分布密度:

p(X | y=k) = \frac{1}{(2\pi)^n |\Sigma_k|^{1/2}}\exp\left(-\frac{1}{2} (X-\mu_k)^t \Sigma_k^{-1} (X-\mu_k)\right)
p(X | y=k) = \frac{1}{(2\pi)^n |\Sigma_k|^{1/2}}\exp\left(-\frac{1}{2} (X-\mu_k)^t \Sigma_k^{-1} (X-\mu_k)\right)

为了使用该模型作为分类器使用,我们需要通过训练集数据预测更重要的类别 

P(y=k)
P(y=k)

 (通过每个类 

k
k

 的实例的概率预测) 类别均值 

\mu_k
\mu_k

 (用经验的样本类别均值)以及协方差矩阵(过用经验的样本类别协方差或者正则化的估计器estimator: 见下面的 shrinkage章节).

在 LDA 中,每个类别 

k
k

 的高斯分布共享相同的协方差矩阵:

\Sigma_k = \Sigma
\Sigma_k = \Sigma

 for all 

k
k

。可以带来线性的 决策平面, 正如所见, 通过比较log似然比 

\log[P(y=k | X) / P(y=l | X)]
\log[P(y=k | X) / P(y=l | X)]

 。

\log\left(\frac{P(y=k|X)}{P(y=l | X)}\right) = 0 \Leftrightarrow (\mu_k-\mu_l)\Sigma^{-1} X = \frac{1}{2} (\mu_k^t \Sigma^{-1} \mu_k - \mu_l^t \Sigma^{-1} \mu_l)
\log\left(\frac{P(y=k|X)}{P(y=l | X)}\right) = 0 \Leftrightarrow (\mu_k-\mu_l)\Sigma^{-1} X = \frac{1}{2} (\mu_k^t \Sigma^{-1} \mu_k - \mu_l^t \Sigma^{-1} \mu_l)

对于 QDA 而言,没有关于高斯协方差矩阵 

\Sigma_k
\Sigma_k

 的假设,因此带来二次决策平面. 更多细节见 [3] .

Note

与高斯朴素贝叶斯的关系

如果在QDA模型中假设协方差矩阵是对角的,那么在每个类别中的输入数据则被假定是相关依赖的。 而且结果分类器会和高斯朴素贝叶斯分类器 naive_bayes.GaussianNB 相同。

1.2.3. LDA 的降维数学公式

为了理解 LDA 在降维上的应用,它对于进行 LDA 分类的几何重构是十分有用的。我们用 

K
K

 表示目标类别的总数。 由于在 LDA 中我们假设所有类别都有相同预测的协方差 

\Sigma
\Sigma

 ,我们可重新调节数据从而让让协方差相同。

X^* = D^{-1/2}U^t X\text{ with }\Sigma = UDU^t
X^* = D^{-1/2}U^t X\text{ with }\Sigma = UDU^t

在缩放后可以分类数据点和找到离数据点最近的欧式距离相同的预测类别均值。但是它可以在投影到 

K-1
K-1

 个由所有 

\mu^*_k
\mu^*_k

 个类生成的仿射子空间

H_K
H_K

 之后被完成。这也表明,LDA 分类器中存在一个利用线性投影到 

K-1
K-1

 个维度空间的降维工具。

我们可以通过投影到可以最大化 

\mu^*_k
\mu^*_k

 的方差的线性子空间 

H_L
H_L

 以更多地减少维度,直到一个选定的 

L
L

 值 (实际上,我们正在做一个类 PCA 的形式为了实现转换类均值 

\mu^*_k
\mu^*_k

) discriminant_analysis.LinearDiscriminantAnalysis.transform 方法. 详情参考 [3] 。

1.2.4. Shrinkage(收缩)

收缩是一个在训练样本数量相比特征而言很小的情况下可以提升预测(准确性)的协方差矩阵。 在这个情况下,经验样本协方差是一个很差的预测器。LDA 收缩可以通过设置 discriminant_analysis.LinearDiscriminantAnalysis 类的 shrinkage参数为 ‘auto’ 以得到应用。

shrinkage parameter (收缩参数)的值同样也可以手动被设置为 0-1 之间。特别地,0 值对应着没有收缩(这意味着经验协方差矩阵将会被使用), 而 1 值则对应着完全使用收缩(意味着方差的对角矩阵将被当作协方差矩阵的估计)。设置该参数在两个极端值之间会估计一个(特定的)协方差矩阵的收缩形式

shrinkage
shrinkage

1.2.5. 预估算法

默认的 solver 是 ‘svd’。它可以进行classification (分类) 以及 transform (转换),而且它不会依赖于协方差矩阵的计算(结果)。这在特征数量特别大的时候就显得十分具有优势。然而,’svd’ solver 无法与 shrinkage (收缩)同时使用。

‘lsqr’ solver 则是一个高效的算法,它仅仅只能用于分类使用,而且它支持 shrinkage (收缩)。

‘eigen’(特征) solver 是基于 class scatter (类散度)与 class scatter ratio (类内离散率)之间的优化。 它既可以被用于classification (分类)以及 transform (转换),此外它还同时支持收缩。然而,该解决方案需要计算协方差矩阵,因此它可能不适用于具有大量特征的情况。

Examples:

Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

References:

[3]

(1, 2) “The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.

[4]

Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档: http://scikit-learn.org/0.19/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

有兴趣的大佬们也可以和我们一起来维护,持续更新中 。。。

机器学习交流群: 629470233

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-11-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.2. 线性和二次判别分析
    • 1.2.1. 使用线性判别分析来降维
      • 1.2.2. LDA 和 QDA 分类器的数学公式
        • 1.2.3. LDA 的降维数学公式
          • 1.2.4. Shrinkage(收缩)
            • 1.2.5. 预估算法
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档