在生信技能树公众号看到了练习题在:9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析,需要读取这个表达量矩阵完成里面的层次聚类和组合pca分析。上游的定量过程是需要服务器的,这里省略,我们主要是演示一下多分组表达量矩阵的层次聚类和组合pca分析。
上面的结果通常是ensembl数据库的id,需要转换为人类可以看得懂的symbol名字。
可以看到矩阵修改前后主要是基因名字的区别:
关于Ensembl ID和Gene Symbol的区别:
需要注意的是,有时一个Gene Symbol可能对应多个Ensembl ID,因为一个基因可能有多个体细胞或同源基因。此外,由于基因命名的变化,一个基因可能有多个别名,因此在使用Gene Symbol时要特别小心。
在进行基因表达量矩阵的分析时,将Ensembl ID转换为Gene Symbol可以使结果更易于解释和共享,因为研究人员通常更熟悉Gene Symbol而不是数据库特定的ID。
有了表达量矩阵还不够,还需要分组信息,可以看到上面的样品名字目前也是id:SRR6789051 SRR6789052 SRR6789053 SRR6789054
也是需要加上合理的注释信息。
可以看到 3X4X3=36样品,详见::9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析 ;
表达量矩阵的层次聚类是一种用于分析和可视化基因表达数据的统计方法。在生物信息学和基因表达分析中,层次聚类可以帮助研究者根据基因表达模式将基因或样本分组,从而揭示不同样本间的相似性和差异性。
如下所示:
如下所示: