引言
当我们拿到一组数据想要开始分析时,做的第一件事情就是质控,看一下数据怎么样,是否适用于我们的分析流程,以及某些低表达或极端表达的基因和样本是否应该删除更利于分析结果。今天分享一下如何删除离群样本,并探索一下是否有生物学意义。
自己的表达量矩阵数据绘制主成分分析图
我们可以看到有几个样本很明显散在椭圆之外,我们现在通过第一次pca分析的结果将其删除,看是否会对后续的分析有影响。
02
PCA删除离群样本
删除距离太远的样本,上面的pca绘图的时候其实也返回来了横纵坐标信息:
删除离群样本重新绘图之后已经没有距离很远的样本了,也更好看一些。
其实除了PCA图,还有WGCNA的层次聚类也可以实现这一过程。
03
层次聚类可视化
绘制层次聚类图
数据样本量较大,所以截取一部分,只有这几个样本是单独一个分支,我们可以把这些异常样本的分支切除。
增加切除线
切除分支
现在就没有单独分支的样本啦~而且和PCA图删除的样本几乎是一样的。
那么这个步骤到底有没有生物学意义呢?我们接下来继续探究。
04
差异分析结果比较
两组数据分别用的DESeq2包进行差异分析(这个代码省略,因为太简单了),有了差异结果矩阵,就可以比较一下删除离群样本之后是否会对差异分析的结果产生影响。
使用的数据有1027个样本,只是删除了PCA中的12个样本,所以看起来影响不大,那么我们再考虑他的统计学意义,结合P值看一下对差异基因是否有影响。
从比较的表格中可以看出删除样本之后上调的差异基因减少了将近一半,下调的差异基因相差不大,那么删除的样本影响了什么导致的这个结果呢?
以我们最常研究的编码mRNA为起点,看一下是否也是有同样的结果。
上下调基因列表重合度很好,可见,异常样本基本上只是影响了非编码mRNA,对编码mRNA并没有太大的影响。