前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >chip_seq质量评估之PCA分析

chip_seq质量评估之PCA分析

作者头像
生信修炼手册
发布2019-12-19 15:26:16
1.3K0
发布2019-12-19 15:26:16
举报
文章被收录于专栏:生信修炼手册

欢迎关注”生信修炼手册”!

PCA我们称之为主成分分析,是一种经典的数据降维算法,通过将高维数据用几个主成分表示,从而将其映射到低维空间。在实际处理中,由于我们只能对二维和三维数据有直观的感受,所以通常绘制二维和三维的散点图。

PCA本质上属于排序分析的一种,降维之后的数据在二维或者三维平面通过散点图进行展示,两个样本点间的距离越接近,说明这两个样本越一致, PCA图在生物信息学中应用的非常广泛,该算法适用范围广泛,在基因组,转录组等多种数据分析中都有应用,本文主要介绍在chip_seq数据分析中的PCA分析。

在转录组中,我们可以通过基因表达谱来对样本进行PCA分析,在chip_seq数据分析中,为了得到类似基因表达谱的数据,研究人员提出了一种思想,将基因组划分为等长的区间,称之为bin,然后计算每个区间内的coverage。得到样本中所有bin的coverage之后,就可以利用该数据进行PCA分析。具体的操作步骤如下,通过deeptools来实现

1. 计算bin的coverage

输入文件为比对基因组产生的bam文件,用法示意如下

代码语言:javascript
复制
multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
2. PCA分析

通过plotPCA命令实现,用法示意如下

代码语言:javascript
复制
plotPCA \
-in results.npz \
-o PCA.png

输出结果示意如下

软件默认选择第一和第二主成分来绘制二维的散点图,在该图中通过观测样本点之间的距离,可以对数据质量做出一些基本判断,理论上讲,input和抗体处理的样本之间应该有较大距离,而生物学重复样本之间应该比较接近。

需要注意的是,前两个主成分的贡献率是一个比较重要的指标,假设两个主成分的贡献率之和为90%, 意味着二维散点图只能表征原始样本90%的信息,当贡献率太低时,散点图上表示的信息和原始样本的信息相去甚远,就不具有太大的参考意义了。

下半部分的Scree plot, 类似碎石图,只不过采用了双坐标轴的形式,蓝色柱状图表征了前5个主成分的特征值,红色曲线代表累计的特征值,每个点代表累计特征值的比例。当红色曲线趋于平缓时,说明即使再添加后面其他的主成分,所展示的信息也不会有显著变化了,即前几个主成分已经可以有效代表总体的信息了,在上图中,前4个主成分能够有效代表总体的信息。

虽然通过碎石图我们可以筛选出主成分,但是由于我们最多只能直观观察三维空间,所以PCA分析中最多只能绘制3维散点图,如果前3个主成分不能有效代表总体的信息,我们只能考虑使用其他降维算法了,这个问题也是所有降维算法的一个通病。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 计算bin的coverage
  • 2. PCA分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档