线性判别分析总览(Linear Discriminant Analysis,LDA):用于数据预处理中的降维、分类任务,其目标是找到能够最大化类间区分度的坐标轴成分。用几个词概括LDA的特征,即降维、分类。
假设一批患者使用同一种肿瘤药,一些人效果良好(response),而另一些人无明显疗效(not response)。故我们需要利用一些特征对患者进行分类(反应者 或 非反应者),使其接受针对性的接受治疗从而达到更好的疗效。基于实践,可能基因的表达特征有助于患者分类。
①仅使用一个基因的表达量对患者进行分类。该基因表达水平能较好地实现对肿瘤患者的分类,发现大部分反应者的该基因表达水平较低(左侧),大分部非反应者的该基因表达水平较高(右侧),但反应者与非反应者的该基于表达水平也有一定的重叠(中间)。
②使用两个基因的表达水平对患者进行分类。基于两个水平的分类能实现较好的肿瘤患者分类,大部分反应者对应gene X与Y的表达水平低,大分部非反应者对应的gene X与Y的表达水平较高,仅有绝少数患者的分类不准确。
③使用三个基因的表达水平对患者进行分类。在平面上很难辨认是否基于三个gene表达水平的分类能较好实现肿瘤患者分类。
④基于4个或者4个及以上的基因表达水平对患者进行分类,常规的4维及4维以上的图形将会非常难辨别是否该方法能有效的实现患者分类。为了实现该目的,需要进行数据降维处理。但为了实现降维后,能够更加准确的进行数据分类,需要使用的方法是线性判别分析(Linear Discriminant Analysis,LDA)。
LDA: 同PCA一样,可以达到降低数据维度的效果。但其与PCA又有显著不同的区别,PCA主要是根据具有最大表达的基因寻找数据的主要成分,而LDA主要是基于如何能最大化不同类间的差异而进行数据降维,LDA的主要作用的实现数据分类。
如下,将将2-D数据转换成1-D数据,从而实现数据降维和分类。
一个糟糕的做法是:忽略Y轴或X轴数据,将数据直接投射到X轴或Y轴。而LDA则提供了一个较好的思路,充分利用X轴与Y轴的数据,建立新的坐标轴(new axis),既实现数据维度的减少,又能实现对数据的良好分类。
简单来说,就是不同类间的差异越大越好,相同类间的差异越小越好。 结合两个标准,用二者的比值进行量化,其值越大,说明分类的效果越好。
创建新坐标轴的2个标准是一致的,即均最大化不同类间的差异,最小化相同类间的差异。但是也有一些差别:
在仅有两个gene X与gene Y(两个变量的时候),新坐标轴上的数据未做降维处理,其与原数数据一致。
如果有10000个基因的表达数据,并基于这10000个基因的表达将样本分为3类。在这种情况下,就需要对数据进行降维处理。如下,利用LDA分析将10000个gene表达数据降至2维。尽管该分类的结果并不是十分完美,但是LDA也能较准确地将样本分为3类。
同前,仍利用10000个基因的表达数据进行LDA(左图)和PCA分析(右图)。因为PCA与LDA的主要目的不同,LDA的主要目的是实现降维和分类,故其能较好的实现数据分类;而PCA的主要目的是基于变化量最大的变量进行数据降维,故其在数据分类中的性能略差。
LDA与PCA均能实现数据降维,从而有利于后续的分析。虽然二者具有很多相似之处,但是二者实现不同的目的,故在选择数据降维时应结合自己的分析目的。本次笔记作为一个简单的介绍,如果想要更加深入的学习LDA,请参考更多的资源。
参考视频:https://www.youtube.com/watch?v=azXCzI57Yfc&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=29
编辑:吕琼
校审:罗鹏