前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >线性判别分析总览

线性判别分析总览

作者头像
王诗翔呀
发布2020-09-25 18:16:14
8240
发布2020-09-25 18:16:14
举报
文章被收录于专栏:优雅R

线性判别分析总览(Linear Discriminant Analysis,LDA):用于数据预处理中的降维、分类任务,其目标是找到能够最大化类间区分度的坐标轴成分。用几个词概括LDA的特征,即降维、分类。

1.样本分类

假设一批患者使用同一种肿瘤药,一些人效果良好(response),而另一些人无明显疗效(not response)。故我们需要利用一些特征对患者进行分类(反应者 或 非反应者),使其接受针对性的接受治疗从而达到更好的疗效。基于实践,可能基因的表达特征有助于患者分类。

①仅使用一个基因的表达量对患者进行分类。该基因表达水平能较好地实现对肿瘤患者的分类,发现大部分反应者的该基因表达水平较低(左侧),大分部非反应者的该基因表达水平较高(右侧),但反应者与非反应者的该基于表达水平也有一定的重叠(中间)。

②使用两个基因的表达水平对患者进行分类。基于两个水平的分类能实现较好的肿瘤患者分类,大部分反应者对应gene X与Y的表达水平低,大分部非反应者对应的gene X与Y的表达水平较高,仅有绝少数患者的分类不准确。

③使用三个基因的表达水平对患者进行分类。在平面上很难辨认是否基于三个gene表达水平的分类能较好实现肿瘤患者分类。

④基于4个或者4个及以上的基因表达水平对患者进行分类,常规的4维及4维以上的图形将会非常难辨别是否该方法能有效的实现患者分类。为了实现该目的,需要进行数据降维处理。但为了实现降维后,能够更加准确的进行数据分类,需要使用的方法是线性判别分析(Linear Discriminant Analysis,LDA)。

LDA: 同PCA一样,可以达到降低数据维度的效果。但其与PCA又有显著不同的区别,PCA主要是根据具有最大表达的基因寻找数据的主要成分,而LDA主要是基于如何能最大化不同类间的差异而进行数据降维,LDA的主要作用的实现数据分类。

2. LDA实现样本分类的原理

如下,将将2-D数据转换成1-D数据,从而实现数据降维和分类。

一个糟糕的做法是:忽略Y轴或X轴数据,将数据直接投射到X轴或Y轴。而LDA则提供了一个较好的思路,充分利用X轴与Y轴的数据,建立新的坐标轴(new axis),既实现数据维度的减少,又能实现对数据的良好分类。

2.1 LDA基于两个标准创建新坐标轴

2个类别的数据
  • 1.最大化不同类间的均值差异(μ1-μ2,用d表示不同类间的差异);
  • 2.最小化同一类间的数据差异(scatter,用S2表示相同类间的分散情况)。

简单来说,就是不同类间的差异越大越好,相同类间的差异越小越好。 结合两个标准,用二者的比值进行量化,其值越大,说明分类的效果越好。

3个类别的数据

创建新坐标轴的2个标准是一致的,即均最大化不同类间的差异,最小化相同类间的差异。但是也有一些差别:

  • 距离d的确定:不同类别数据至总数据质心的距离平方和为不同类间的距离。
  • 数据的分类:因为需要将数据分为3类,故需要两条相互垂直的直线进行分类。

在仅有两个gene X与gene Y(两个变量的时候),新坐标轴上的数据未做降维处理,其与原数数据一致。

> 3个类别的数据

如果有10000个基因的表达数据,并基于这10000个基因的表达将样本分为3类。在这种情况下,就需要对数据进行降维处理。如下,利用LDA分析将10000个gene表达数据降至2维。尽管该分类的结果并不是十分完美,但是LDA也能较准确地将样本分为3类。

3. LDA与PCA的比较

3.1 LDA与PCA的差异

同前,仍利用10000个基因的表达数据进行LDA(左图)和PCA分析(右图)。因为PCA与LDA的主要目的不同,LDA的主要目的是实现降维和分类,故其能较好的实现数据分类;而PCA的主要目的是基于变化量最大的变量进行数据降维,故其在数据分类中的性能略差。

3.2 LDA与PCA的相似点

  • 二者仅基于重要性对新坐标轴进行排序,均可基于原始数据创建新的坐标轴。
    • LDA中(重点找不同类间的差异):LD1为解释不同分类间最大差异的坐标轴;LD1为解释不同分类间第二大差异的坐标轴...
    • PCA中(重点找最大变异):PC1为解释数据最大变异的坐标轴;PC2为解释数据第二大变异的坐标轴...
  • 二者均能实现多变量数据的降维。
    • LDA: 目的是最优化不同类间的分类效果(实现对数据的最优分类)
    • PCA:关注具有最大变异的变量(具有最大变异的某基因)

4. 总结

LDA与PCA均能实现数据降维,从而有利于后续的分析。虽然二者具有很多相似之处,但是二者实现不同的目的,故在选择数据降维时应结合自己的分析目的。本次笔记作为一个简单的介绍,如果想要更加深入的学习LDA,请参考更多的资源。

参考视频:https://www.youtube.com/watch?v=azXCzI57Yfc&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=29

编辑:吕琼

校审:罗鹏

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.样本分类
  • 2. LDA实现样本分类的原理
    • 2.1 LDA基于两个标准创建新坐标轴
      • 2个类别的数据
      • 3个类别的数据
      • > 3个类别的数据
  • 3. LDA与PCA的比较
    • 3.1 LDA与PCA的差异
      • 3.2 LDA与PCA的相似点
      • 4. 总结
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档