切换到工作目录:cd d/生信技能树-视频直播/第七讲
利用超几何分布检验自己写代码来完成主流的GO/KEGG的富集分析,得到与以下一致的结果:
超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。 通过差异基因的Pathway富集分析,可以找到富集的差异基因的Pathway,寻找不同样品的差异基因可能与哪些细胞通路的改变相关。 通过对差异基因的GO富集分析,可以找到富集的差异基因GO项,寻找不同样品的差异基因可能与哪些基因功能的改变相关。 对差异基因进行GO和Pathway富集分析后,再进行Network构建,定位基因的功能和其参与的信号通路,并进行清晰直观的展示。
其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。
一般做完超几何概率分布,对得到的p值进行校正;