生信编程直播第七题:写超几何分布检验!

下载数据

切换到工作目录:cd d/生信技能树-视频直播/第七讲

  • kegg2gene(第六讲kegg数据解析结果) 暂时不用新的kegg注释数据为了能够统一答案
  • 差异基因list和背景基因list
关于背景基因
  • 收集一 凡是富集分析,都要有背景和选择集 有参的,那就找参考对应的注释信息,作为背景 无参的,那就自己注释,得到背景
  • 收集二 其实pathway富集分析本身也只是提供一些参考,并非非要富集不可。因为某些pathway的调控,基因直接并非相互调控,而是共同参与某个产物合成过程中的不同步骤。例如,某代谢性物X的合成,需要合成酶 A、B、C、D 四个合成步骤。那么A表达的变化,并不会直接影响B、C、D基因的表达,只是影响代谢物X的合成量。如果没有富集到,你就当这个是基因注释了,讨论这些落在你感兴趣的pathway中的基因,也是一种策略。
题目要求

利用超几何分布检验自己写代码来完成主流的GO/KEGG的富集分析,得到与以下一致的结果:

超几何分布

超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。

基因Pathway和GO富集分析

基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。 通过差异基因的Pathway富集分析,可以找到富集的差异基因的Pathway,寻找不同样品的差异基因可能与哪些细胞通路的改变相关。 通过对差异基因的GO富集分析,可以找到富集的差异基因GO项,寻找不同样品的差异基因可能与哪些基因功能的改变相关。 对差异基因进行GO和Pathway富集分析后,再进行Network构建,定位基因的功能和其参与的信号通路,并进行清晰直观的展示。

  • GO富集分析: Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。 GO功能分析一方面给出差异表达基因的GO功能分类注释;另一方面给出差异表达基因的GO功能显著性富集分析。 首先,我们将差异表达基因向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的基因数,从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目。

其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。

  • KEGG富集分析: Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。 该假设检验的p-value计算公式同GO功能显著性富集分析的相同,在这里N为所有Unigene中具有Pathway注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的差异表达基因数目。
超几何分布检验的富集分析

一般做完超几何概率分布,对得到的p值进行校正;

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-03-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

用递归神经网络,撰写一份特朗普式发言稿!

特朗普充满个人特色的语言风格让作者产生了兴趣,如果把他的推文和演讲稿都用于训练数据,再运用递归神经网络能否生成一份有特式风格的发言稿呢?结论是,如果数据和算力足...

652
来自专栏思影科技

PTSD的心理治疗对前额皮层功能的选择性影响

暴露疗法是创伤后应激障碍(PTSD)的有效治疗方法,但心理治疗究竟如何影响仍缺乏综合的、以情绪为重点理解。来自斯坦福大学精神病和行为科学部的Gregory A....

3829
来自专栏目标检测和深度学习

牛人教你高效读论文

692
来自专栏玉树芝兰

文科生如何理解卷积神经网络?

不愿意看那一堆公式符号,却想知道卷积神经网络(Convolutional Neural Network)如何做图像分辨?分享一段我给自己研究生的讲解答疑视频,希...

1063
来自专栏IT大咖说

大老师的前生——AlphaMao项目的回顾和总结

内容来源:基于深度学习的电竞数据分析——阵容对抗和赛况评估,来看看VPGAME美国团队的研究成果分享。IT 大咖说经授权发布。

994
来自专栏ATYUN订阅号

MIT研究:机器学习模型可以帮助化学家以更快的速度制造出更高效的分子

为药物设计新分子需要手动,且耗时,容易出错。但麻省理工学院的研究人员现在已朝着完全自动化设计过程迈出了一步,这可以大大加快速度,并产生更好的结果。

967
来自专栏量子位

AI何时能懂环境会沟通?别急,这个“你说我画”小游戏开了个好头 | 论文

安妮 夏乙 编译整理 量子位 出品 | 公众号 QbitAI 晚上9点,一下午开了3个会的你终于回到家,换了衣服瘫倒在沙发里。放空了三分钟之后,你缓过神来,喊了...

2435
来自专栏CVer

三个牛人教你怎么高效阅读论文

写论文做研究的时候少不了要看论文,但是很多时候看过同类的论文之后发觉什么也没记住,本文将有三位牛人想大家分享他们在阅读论文的一些技巧,希望对大家有用。

1003
来自专栏LET

最美的理论(上篇)

1394
来自专栏企鹅号快讯

深度学习真的不需要理论指导了?图灵奖得主讲座无人问津,贝叶斯之父Judea Pearl落寞身影背后引人深思

【导读】最近NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中把机器学习称为“炼金术”(Alchemy)引起...

1909

扫描关注云+社区