Let PCA tell us
对待数据的正确态度-----处理之前,要先了解它(RNA-seq counts) RNA-seq让我们对样本的了解拓宽到了基因层面(也就是说,我们现在看样本的维度是基因数量 维,10^4级别的维度) But我们没有10^4维度的视角 PCA的目的就是,在保留最多信息(真实性/方差最大)的前提下,将样本以点图的形式反映到二维坐标里(一般是前两个主成分); 目前对PCA的了解
以下是频繁出现的表达矩阵df的真容:
用到的参数的介绍
library("FactoMineR")
library("factoextra")
df.pca <- PCA(df[,-ncol(df)], graph = FALSE)
df.pca
fviz_pca_ind(df.pca,
geom.ind = "point",
col.ind = df$group,
addEllipses = TRUE,
legend.title = "Groups"
)
ggsave('all_samples_PCA.png')
Rplot_FVIZ.png可以很明显的看到,第一个主成分就把我们的NSCLC和SCLC区分的还不错 更多完整的PCA教程看群主之前的推文:
用到的参数介绍
library(ggfortify)
autoplot(prcomp( df[,1:ncol(df)-1] ), data=df,colour = 'group')
autoplot(prcomp( df[,1:ncol(df)-1] ),
data=df,
colour = 'group',
frame=TRUE,
frame.type = 'norm')
Rplot_prcomp.png