干货预警:3分钟搞定GO/KEGG功能富集分析(2),给大家详细讲解了DAVID网站的使用,通过分步操作,带领大家学习了使用DAVID工具来进行GO和KEGG分析。今天,我们重点讲解如何将DAVID中的功能富集的结果转换成正式的Figure,有请小猎豹。
相信大家对GO和KEGG富集分析并不陌生,有时候富集分析会得到很多显著的结果。全部展示,版面不够。但是如果只展示前几个显著的GO条目或者KEGG通路的话,跟自己研究的对象相关的又不在里面。
刚刚结束了本年度的最后一次扩增子课程和宏基因组课程(都是爆满,2020年的课程提前开始报名了。就看后面的转录组和单细胞课程的参与度了),数据分析得到的大部分结果都可以用ImageGP绘图展示。在运行流程之余,收到学员的反馈,说希望有一个手册来熟悉网站有哪些功能。在此之前,我们也零星收到一些关于网站的使用咨询和功能建议,因次借这次的ImageGP答疑,来给ImageGP正正名,是的,它不是imagp,也不是imap,更不是GPS(此处有个省略50字的悲伤故事)。它是ImageGP — 画个Picture。
建国70周年大庆即将到来,各行各业都在积极筹备迎接祖国的生日,在这个举国欢腾的时刻,我们决定以一种特殊方式来表达自己对祖国母亲的祝福:一副用R语言绘制的中国地图。
做完转录组差异表达或者其他的一些分析拿到一些基因名称之后下一步通常是做一些注释,比如GO或者KEGG的注释,注释好以后通常是富集分析。如果是研究比较多的物种,可以直接使用R语言包clusterProfiler做富集分析当然是最好,最后可以很少的代码拿到很漂亮的结果图。但是如果是比较小众的物种,没办法借助clusterProfiler这个R包的话,如何得到和clusterProfiler一样的可视化结果呢?今天的推文介绍一下相关的R语言ggplot2作图代码
在小编的印象中,2年前纯生信文章要是发5分以上还是比较容易的。However,不知什么时候,某个审稿人大脑抽筋,要求做实验来验证,现在的纯生信文章想突破5分还是不容易啊!那么今天,我们就来欣赏这个复旦小哥哥生信文章的魅力吧!文章是今年7月15日发的(最新啊!),题目如下:
昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。
最近小编在用R的clusterProfiler这个包进行KEGG富集分析的时候,遇到了下面这个错误
目前组学的数据越来越多。其中代谢组学也是其中一个热点。关于代谢组学的相关分析目前用的最多的还是MetaboAnalyst (https://www.metaboanalyst.ca/) 。之前这个数据库一直都是4.0版本。最近刚刚更新了5.0的版本。趁着刚刚更新,我们也就来顺带的介绍这个数据库吧。
另外,最近几期有关挖掘GEO速成SCI文章的系列教程中,先是讲解了一些基本概念、数据库的构成,以及如何从GEO中快速锁定自己想要的目标数据。在获得数据之后,后续的分析过程同样也要借助R语言来实现。
见Y叔的网络在线书籍《clusterProfiler: universal enrichment tool for functional and comparative study》的 Chapter 12 Visualization of Functional Enrichment Result , 自己简单搜索就可以直达这个在线书籍的链接:
TCGA是不错的癌症研究数据资源,但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,000个肿瘤基因组。目的是To obtain a comprehensivedescription of genomic, transcriptomic and epigenomic changes in 50 different tumor types and/or subtypes which are of clinical and societ
在一篇论文中,最引人注目的除了标题和摘要,便是嵌于文中的各种图表了。而图形凭借其更为直观的表达效果一直备受学术界青睐,可以说如何用更为美观的图形更恰当、更全面、更精准地展现研究结果,是所有研究者一直在探索的课题。
但是最近频繁看到粉丝留言表明安装clusterProfiler包失败,这个clusterProfiler是大名鼎鼎的Y叔开发,基本上是每个做生物信息学数据分析的人都会使用它的,做超几何分布检验(富集分析),而且内置了很多数据库,好用的函数。
进行基因功能或生物学通路富集的工具或网站有很多。像DAVID、IPA、GATHE等。我基本采用基于R的Clusterprofiler包。该包抓取最新的KEGG数据进行计算,保证富集结果的可靠性。另外,该包还可以对富集结果进行比较并可视化具体参数设置为:p-value cutoff=0.01, q-value cutoff=0.05, p值矫正方法为BH(即把每个p-value进行矫正,转换为q-value)。
https://seananderson.ca/2013/10/19/reshape/
ggplot2自从2007年推出以来,成为世界范围内下载最频繁、使用最广泛的R包之一。许多人包括ggplot2的创建人Hadley Wickham将这一成功归功于ggplot2背后的哲学。这个软件包的灵感来源于Leland Wilkinson编写的《图形语法》一书,在此书中将graphs 分解成scales和layers,并将原始数据与表现形式分离开。
肿瘤“种子与土壤”学说是肿瘤生物学最具影响力的理论之一,自提出以来就受到了广泛的认可和延伸。该理论认为肿瘤的发生发展不仅是肿瘤细胞遗传学和表观遗传学方面的改变,还有肿瘤微环境作为恶性种子生长繁育的“肥沃土壤”,彼此相互影响,共同进化,促进了肿瘤的产生。肿瘤微环境火了,大家都想把自己的分析向肿瘤微环境靠,今天小编跟大家分享一篇近期发表在frontiers in oncology(IF:4.137)上的肿瘤微环境相关的文章:BTK Has Potential to Be a Prognostic Factor for Lung Adenocarcinoma and an Indicator for Tumor Microenvironment Remodeling: A Study Based on TCGA Data Mining(BTK有可能成为肺腺癌的预后因素和肿瘤微环境重塑的指标:一项基于TCGA数据挖掘的研究)。该研究基于基质评分和免疫评分共同筛选与肺腺癌免疫浸润的预后因子。我们重点学习一下文章的分析思路。
因为都是标准的代码,所以每次有学徒和实习生我都会让大家两次十几个数据集,凑成为了一个合辑:《1000个基因芯片表达量矩阵数据处理》:
网上查找了一下,发现居然有很多人都遇到过同样的问题。今天小编就把网上找到的解决方法共享给大家,希望大家以后能少踩点坑。
之前的推文介绍了画柱形图展示富集分析的结果R语言ggplot2做柱形图展示富集分析的结果,今天的推文介绍一下画气泡图展示富集分析结果的代码。气泡图就是散点图的一个变种。多了一个变量映射给点的大小,富集分析里通常是用来映射基因的数量。比如下图
昨天我们介绍了富集分析的基本的内容:GO分析和KEGG分析都是啥?。但是富集分析还是有很多不同的算法的,对于主要的算法过程其实不用太多了解,这个由专业人士来解决就行。但是对于其输入条件和主要区别还是要了解的,这样能方便我们使用。
前面给大家讲解过GO和KEGG富集分析,以及柱形图和气泡图展示富集分析结果。
我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。
个人认为,R语言有两个强项,统计和绘图。在生物信息数据分析中,R语言更多时候是发挥一个科学计算和可视化的作用。当然,R语言的功能远不止于此,不仅可以作为脚本语言,解决统计分析和可视化的”小”问题,也可以编写一套完整pipeline, 解决整套数据分析的”大”问题。
不管我们做什么组学分析,分析到最后总是躲不过富集分析。富集分析我们可以使用R包" clusterProfiler "进行(具体教程见使用clusterProfiler对非模式生物进行富集分析)。
有一些基础R包是不能清除的。想重新安装,把我们给学员准备工作的代码从第一行开始运行即可。
专业生物信息学家也懂大家的痛,这不,单细胞测序数据兴起的时代,大佬们就在推出应对单细胞测序数据的在线工具 (Granatum),方便你我他。
生信分析现在已成为小伙伴们发表文章的标配,里面各种各样的结果展示形式炫目多彩,让人看得如痴如醉,但是让我们自己去画,却不知从何处着手,首先R语言的入门和学习就是许多生信小白的拦路虎。不过,现在许多大神和团队不断推出的在线作图网站却是方便了许多新手作图。
在GEO公共数据检索的时候,发现有一个数据集想要分析,但是发现是二代测序的数据,没有相关的原始数据处理经验,要怎么办呢?
咱们在上一个课程中进行了GO圈图绘画,但是我富集分析并不只是有GO,kegg通路的富集分析可以看到基因发挥的作用,在生物体中的重要性。
生信分析中经常会得到一些基因,然后做GO富集分析,达到对基因进行注释和分类的目的。
默认是保存在 ncbi 文件夹下,这个相对还是挺快的,2.5个G,4分钟左右就下载好了
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
通过help(package="GOplot")查看帮助文档中的例子,这个例子中他准备了4数据
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
ChIP-Seq是将ChIP(Chromatin Immuno precipitation)与二代测序技术相结合的技术,高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区域。ChIP也称为结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于修饰组蛋白、转录因子、辅因子以及其他染色质蛋白在染色质上的定位及丰度研究。
Motivation: 目前一些计算方法都是基于2011年的那个ceRNAs假设,研究lncRNAs和miRNA靶mRNAs之间的竞争关系。但是,当mRNAs脱离miRNAs的控制之后,海绵lncRNAs如何影响这些mRNAs的表达水平还不是很清楚。
但是实际上这样的基因ID转换也不是必须的,因为差异分析要的是表达量矩阵,基因名字并不重要啊,后面的注释也是可以基于ID,一步到位成为功能。比如文章:The effects of Arabidopsis genome duplication on the chromatin organization and transcriptional regulation. Nucleic Acids Res 2019 Sep 5;47(15):7857-7869. PMID: 31184697
这个是最终的结果,如果我自己拿到这个数据作图完全没有问题,但是这个推文写的内容可能是有些乱的,对于没有python基础的同学应该比较麻烦,争取花时间在研究研究,把这个脚本完善一下,写的更加具有普适性。
R语言学习 - 富集分析泡泡图 刚一出品,Y叔就说有硬伤。Y叔是著名富集分析软件clusterprofiler的原创,而且软件内集成dotplot, enrichmap,cnetmap (后续也实现这两个的一步出图)等画图方法,具体看这个教程http://guangchuangyu.github.io/2016/01/go-analysis-using-clusterprofiler/ 或 Biobabble公众号。 这个意见得重视,不过大夏天的,锅还是不能背着,回应下Y叔的回应。具体回应见 听说你也在画
annoPeakR是一个peak注释工具,基于R语言中的shiny包开发出的web应用,网址如下
两组三个反引号中间写代码(“`”是数字键1前面那个键,切换成英文格式打出来就是),回车。如下:
❝好些年之前写过基因家族分析的文档,今年恰逢有朋友有这方面的需求于是小编重新整理了一下「基因家族分析的图表」,以往大家均是使用软件来进行基因家族的数据分析及可视化,随着小编代码水平的提高这次所展示的所有图表均由「ggplot2」及其扩展包组合完成,通过这种方式做的基因家族文章可以完全称得上生物信息,当然本教程的重点已经不再是基因家族分析了,而是深入的使用R语言来进行数据分析,关于「教程后续会出介绍内容,尽情期待」,下面来放部分结果给大家参考 📷 ❝基因家族类的文章主要以短平快为主,且不耗费经费实在物美价廉
这一步可以拿到gene_id还有gene_name ,FPKM的表达量,cov对用的应该是reads count吧。
昨天给大家简单的介绍了一下富集分析的常见算法(基因富集分析算法介绍),但是具体要怎么实现基因的富集分析呢?今天给大家推荐个软件,
前面简单介绍过基因矩阵转置文件格式(* .gmt),并且也展示了如何使用R读取gmt文件,今天我们来看看如何做GSEA(Gene Set Enrichment Analysis,基因集富集分析)以及GSEA的结果如何解读。
比如这篇Published: 12 March 2019的文章:Identification of Key Long Non-Coding RNAs in the Pathology of Alzheimer’s Disease and their Functions Based on Genome-Wide Associations Study, Microarray, and RNA-seq Data 就采取了挖掘RNA-seq这样的测序数据的策略。
原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。
如果有几十个基因或是蛋白,我想制作一个它们间的互作网络图,是不是特别难?我们这种菜鸟级别的,是不是做不了。答案是否定的,现在主流使用R语言来做,但也有很多在线网站可以完成简单这样的分析,今天就给大家介绍一款比较不错的——String数据库(https://string-db.org/)。
领取专属 10元无门槛券
手把手带您无忧上云