PCA分析

主成分分析简介

主成分分析 (PCA, principal component analysis)是一种数学降维方法, 利用正交变换 (orthogonal transformation)把一系列可能线性相关的变量转换为一组线性不相关的新变量,也称为主成分,从而利用新变量在更小的维度下展示数据的特征。

主成分是原有变量的线性组合,其数目不多于原始变量。组合之后,相当于我们获得了一批新的观测数据,这些数据的含义不同于原有数据,但包含了之前数据的大部分特征,并且有着较低的维度,便于进一步的分析。

在空间上,PCA可以理解为把原始数据投射到一个新的坐标系统,第一主成分为第一坐标轴,它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间;第二成分为第二坐标轴,代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。

这种投射方式会有很多,为了最大限度保留对原始数据的解释,一般会用最大方差理论或最小损失理论,使得第一主成分有着最大的方差或变异数 (就是说其能尽量多的解释原始数据的差异);随后的每一个主成分都与前面的主成分正交,且有着仅次于前一主成分的最大方差 (正交简单的理解就是两个主成分空间夹角为90°,两者之间无线性关联,从而完成去冗余操作)。

主成分分析的意义

  1. 简化运算。 在问题研究中,为了全面系统地分析问题,我们通常会收集众多的影响因素也就是众多的变量。这样会使得研究更丰富,通常也会带来较多的冗余数据和复杂的计算量。 比如我们我们测序了100种样品的基因表达谱借以通过分子表达水平的差异对这100种样品进行分类。在这个问题中,研究的变量就是不同的基因。每个基因的表达都可以在一定程度上反应样品之间的差异,但某些基因之间却有着调控、协同或拮抗的关系,表现为它们的表达值存在一些相关性,这就造成了统计数据所反映的信息存在一定程度的冗余。另外假如某些基因如持家基因在所有样本中表达都一样,它们对于解释样本的差异也没有意义。这么多的变量在后续统计分析中会增大运算量和计算复杂度,应用PCA就可以在尽量多的保持变量所包含的信息又能维持尽量少的变量数目,帮助简化运算和结果解释。
  2. 去除数据噪音。 比如说我们在样品的制备过程中,由于不完全一致的操作,导致样品的状态有细微的改变,从而造成一些持家基因也发生了相应的变化,但变化幅度远小于核心基因 (一般认为噪音的方差小于信息的方差)。而PCA在降维的过程中滤去了这些变化幅度较小的噪音变化,增大了数据的信噪比。
  3. 利用散点图实现多维数据可视化。 在上面的表达谱分析中,假如我们有1个基因,可以在线性层面对样本进行分类;如果我们有2个基因,可以在一个平面对样本进行分类;如果我们有3个基因,可以在一个立体空间对样本进行分类;如果有更多的基因,比如说n个,那么每个样品就是n维空间的一个点,则很难在图形上展示样品的分类关系。利用PCA分析,我们可以选取贡献最大的2个或3个主成分作为数据代表用以可视化。这比直接选取三个表达变化最大的基因更能反映样品之间的差异。(利用Pearson相关系数对样品进行聚类在样品数目比较少时是一个解决办法)
  4. 发现隐性相关变量。 我们在合并冗余原始变量得到主成分过程中,会发现某些原始变量对同一主成分有着相似的贡献,也就是说这些变量之间存在着某种相关性,为相关变量。同时也可以获得这些变量对主成分的贡献程度。对基因表达数据可以理解为发现了存在协同或拮抗关系的基因。

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2017-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

BMVC 2018 | 最佳学生论文:EPFL&FAIR提出QuaterNet,更好地解决人类动作建模问题

对人类动作进行建模对于许多应用都很重要,包括动作识别 [12, 34]、动作检测 [49] 及计算机图形学 [22] 等。最近,神经网络被用于 3D 骨骼关节部...

12810
来自专栏CDA数据分析师

提问 | 如何利用一批去年的数据,来预测未来三年的数据?

文 | 邹日佳 来自知乎 1、这批去年的数据是按月份的,本身肯定会有波动,但相对稳定。 2、预测未来三年的数据是需要具体到月份。恩 3、请问有什么统计方法可以做...

22890
来自专栏大数据文摘

“无中生有”计算机视觉探奇

11920
来自专栏AI科技评论

动态 | 2017年里,哪十篇 arXiv 机器学习论文在 Twitter 上最热门?

AI 科技评论按:随着 2017 年结束、2018 年开始,各个媒体和研究者都撰写了各自的年度总结和新年祝愿。在过去一年的论文动态里,除了研究者们在总结文里根...

44690
来自专栏机器学习AI算法工程

机器学习算法经验总结

算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话...

391100
来自专栏ATYUN订阅号

【学术】在机器学习中经常使用的6种人工神经网络

人工神经网络是是类似于人类神经系统功能的计算模型。有几种人工神经网络是基于数学运算和确定输出所需的一组参数来实现的。让我们来看看吧: ? 1.前馈神经网络-人工...

404130
来自专栏腾讯技术工程官方号的专栏

ICML 2018 | 腾讯AI Lab详解16篇入选论文

10.7K20
来自专栏腾讯高校合作

ICML 2018 | 腾讯AI Lab详解16篇入选论文

23320
来自专栏数据科学与人工智能

【陆勤笔记】《深入浅出统计学》5离散概率分布的运用:善用期望

意外从天而降,未来如何演变? 利用概率预测长期结果,利用期望度量结果的确定性。 随机变量 随机变量是一个可以等于一系列数值的变量,而这一系列数值中的每一个值都与...

265100
来自专栏达观数据

技术干货丨想写出人见人爱的推荐系统,先了解经典矩阵分解技术

网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是大数据时代下应运而生的产物,目前已广泛应用于电商、社交、短视频等领域。本文将针对推荐系统中基于隐...

1.2K70

扫码关注云+社区

领取腾讯云代金券