Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >多元化展示基因列表和其对应的具体基因的关系

多元化展示基因列表和其对应的具体基因的关系

作者头像
生信技能树
发布于 2024-05-27 09:13:11
发布于 2024-05-27 09:13:11
13900
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

看到了一个生物信息学数据挖掘,标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,通过大量的数据分析拿到了11个FRDEGs基因列表,然后去对这11个基因进行“屎上雕花”,它们分别是: (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ,比如下面的go数据库的注释结果,就使用了4种展示策略 :

go数据库的注释结果

本质上就是这11个基因以及其对应的go数据库通路列表名字而已,让我们使用示例数据来说明这个有多么的浅薄。只需要安装对应的包,就可以复制粘贴下面的代码到你的rstudio编辑器里面看图:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(clusterProfiler)
library(org.Hs.eg.db)
data(geneList, package='DOSE')
head(geneList)
de <- names(geneList)[1:100]
enrichKK <- enrichKEGG(de, pvalueCutoff=0.01)
head(enrichKK)
colnames(enrichKK@result)
barplot(enrichKK)+dotplot(enrichKK)

需要大家肉眼看懂并且理解这个colnames(enrichKK@result)里面的结果,Kegg(京都百科全书与基因组数据库)注释是一种常用的生物信息学分析,它用于将基因与生物学途径和功能进行关联。Kegg数据库提供了丰富的信息,包括代谢途径、疾病、药物作用以及基因功能等。在你提供的信息中,各个列代表的含义如下:

  1. category:这一列通常表示基因所属的主要功能类别,如代谢、细胞过程、遗传信息处理等。
  2. subcategory:在主要类别下的子分类,提供了更具体的功能描述。
  3. ID:Kegg数据库中分配给特定基因或化合物的唯一标识符。
  4. Description:对基因功能的详细描述,可能包括它在生物体中的作用、参与的生物化学途径等。
  5. GeneRatio:这通常指的是在特定条件下,如疾病状态与正常状态下,目标基因集中某个特定类别或途径中基因的表达比例。
  6. BgRatio:背景比率,可能表示在正常或对照条件下,基因集中某个特定类别或途径中基因的表达比例。
  7. pvalue:统计分析中的P值,用于评估观察到的现象是否可能由偶然因素引起。较小的P值通常表示结果具有统计学意义。
  8. p.adjust:校正后的P值,考虑到多重比较的问题,对原始P值进行校正,以减少I型错误(错误地拒绝了正确的零假设)的风险。
  9. qvalue:q值,是另一个用于多重比较校正的统计量,它提供了错误发现率(False Discovery Rate, FDR)的控制。
  10. geneID:特定基因的唯一标识符,可能与Kegg数据库中的ID列相对应。
  11. Count:可能表示在分析中检测到的基因数量,或者某个特定基因在样本中的表达计数。

Kegg注释的结果可以帮助研究人员理解基因在生物体中的作用,以及它们如何与疾病或其他生物学过程相关联。通过这些注释,研究人员可以识别关键的生物标志物、潜在的药物靶点,或者对生物学途径进行更深入的研究。

如下所示的kegg数据库注释结果就说明了目标基因(100个基因)及其对应的kegg数据库功能富集结果:

对应的kegg数据库功能富集结果

上面仅仅是可视化了最后的富集分析通路名字而忽略了里面的基因列表,其实是可以看清楚了每个具体的富集到的通路,比如上面的cell cycle通路有12个基因,但是背后到底是哪12个基因做贡献;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
enrichKK=setReadable(enrichKK,'org.Hs.eg.db',keyType = 'ENTREZID')
tmp=head(enrichKK[,c(4,10,11)])

理论上看下面的图表信息是最好的,但是大家就会要求把这个表格也是展现出来:

这个时候有3种可视化方法:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cnetplot(enrichKK, categorySize="pvalue", foldChange=geneList,colorEdge = TRUE)
cnetplot(enrichKK, foldChange=geneList, circular = TRUE, colorEdge = TRUE)
heatplot(enrichKK)

大家可以复制粘贴代码去试试看,说一下自己喜欢哪个,我个人比较倾向于第二个 :

如果要做的文章里面的弦图,就需要使用其他包了,比如下面的两个:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(RCircos)
library(circlize)

学徒作业

使用上面的数据,然后绘制一个类似的弦图,这个时候需要使用另外一个基因列表,如下所示200个基因 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
de <- c(
  head(names(geneList),100),
  tail(names(geneList),100)
)

因为这里面的geneList是一个差异分析结果,里面的基因按照变化倍数是排序好的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
美化clusterProfiler富集分析结果:enrichplot包中的cnetplot
Y叔为啥要开发cnetplot函数来画图呢,需要我们先理解一个概念:基因-概念网络 (Gene-Concept Network) GCN
生信小博士
2024/03/30
4.5K1
美化clusterProfiler富集分析结果:enrichplot包中的cnetplot
如何让你的kegg注释结果图分门别类
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
生信技能树
2024/05/09
4530
如何让你的kegg注释结果图分门别类
RNA-seq入门实战(六):GO、KEGG富集分析与enrichplot超全可视化攻略
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
13.9K0
RNA-seq入门实战(六):GO、KEGG富集分析与enrichplot超全可视化攻略
一文厘清富集分析:GroupGO、enrichGO、gseGO、enrichKEGG、gseKEGG、enrichMKEGG
生物学研究中,我们常常面对成百上千的基因数据,例如转录组或蛋白质组数据。在基因差异表达分析之后,你得到了差异基因,可能几个到上百个不等,单纯分析单个基因的意义有限,而从庞大的基因关系网络中提取有效信息也十分耗时。
生信菜鸟团
2025/04/06
2770
一文厘清富集分析:GroupGO、enrichGO、gseGO、enrichKEGG、gseKEGG、enrichMKEGG
基因集富集分析(GSEA)及其可视化
基因集富集分析(Gene Set Enrichment Analysis, GSEA)是是一种计算方法,用于确定事先定义的一组基因是否在不同的样品中差异表达。
青青青山
2022/07/04
6K0
基因集富集分析(GSEA)及其可视化
使用topGO增强你的GO数据库注释结果的可视化
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。
生信技能树
2023/12/13
9130
使用topGO增强你的GO数据库注释结果的可视化
转录组分析—再谈GSEA
Gene Set Enrichment Analysis (GSEA) 是一种生物信息学方法,用于确定基因集合(gene sets)在基因表达数据中的显著性变化。它广泛应用于基因表达数据的功能解释,帮助研究者理解在特定实验条件下哪些生物学通路或功能类别是活跃的。以下是GSEA的相关知识点:
sheldor没耳朵
2024/08/05
1800
转录组分析—再谈GSEA
RNA-seq入门实战(七):GSEA——基因集富集分析
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
14.9K0
RNA-seq入门实战(七):GSEA——基因集富集分析
上下调基因分开注释就应该有生物学功能的重叠
之所以有这样的一个作业,其实是因为这里面又蕴涵着另外一个大家很容易弄错的知识点,就是如何理解生物学功能的上下调问题,文章里面的EMT通路的GSEA如下所示 :
生信技能树
2024/12/19
1350
上下调基因分开注释就应该有生物学功能的重叠
为R包写一本书(像Y叔致敬)
这个时候我还是推荐了Y叔的clusterProfiler ,就去找了找其官网,的确可视化方法又多了几个:
生信技能树
2019/12/12
1.7K0
为R包写一本书(像Y叔致敬)
四句话代码GSEA
需要3个包,分别是:'clusterProfiler','enrichplot','patchwork',然后是DOSE包里面有一个geneList的向量,它是排序好的基因列表,而且是entrezID形式,使用 gseKEGG 函数即可做gsea分析啦 :
生信技能树
2024/11/27
1720
四句话代码GSEA
批量的GSEA及基因表达热图可视化
差异基因的生物学功能富集分析,除GO和KEGG外,另一种较为稳妥的生物学功能数据库注释是GSEA方法,研究者可以针对特定的通路基因进行研究,再加上基因的表达热图更为直观!(下面演示一个批量运行的示例)
生信菜鸟团
2023/09/26
1.3K0
批量的GSEA及基因表达热图可视化
使用pathview增强你的KEGG数据库注释结果的可视化
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。
生信技能树
2023/12/13
7110
使用pathview增强你的KEGG数据库注释结果的可视化
生物学功能注释三板斧
上面的案例里面的背景基因不到1万个,而差异基因是555个,有20倍的差距,理论上每个通路都是100左右数量级的基因理论上它们每个通路应该是就有5个左右的基因在差异基因列表里面。但是上面的通路的富集分析结果表格里面可以看到,绝大部分通路都是有十几个甚至二十多个基因在我们的差异基因列表里面,所以上面的通路都是被富集了。
生信技能树
2023/12/01
5030
生物学功能注释三板斧
GSEA确实搭配热图后更直观易懂
其中生物学功能数据库注释目前最稳妥的是GSEA方法,但是文章在标准的gsea图下面加上了一个热图,蛮有意思的:
生信技能树
2022/12/16
1.4K0
GSEA确实搭配热图后更直观易懂
生物信息数据分析教程视频——15-clusterProfiler包+ClueGO做富集分析
生物信息数据分析教程视频——10-TCGA数据库:mi NA的表达探索
DoubleHelix
2022/12/16
2.2K0
生物信息数据分析教程视频——15-clusterProfiler包+ClueGO做富集分析
既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
就是一篇文章并没有使用TCGA数据库的指定癌症的生存信息去看自己感兴趣的基因的生存效应,反而舍近求远去下载BMC Cancer. 2011 文章数据,所以我怀疑TCGA应该是该基因在该癌症里面的生存效果不显著!
生信技能树
2020/02/20
1.5K0
生信技能树GEO数据挖掘直播配套笔记
二代测序(RNA_seq):如果是counts 可选择limma的voom算法或者edgeR或者DESeq2。 如果是FPKM或TPM可选择limma,注意:edgeR和DESeq2只能处理count注意:count做差异分析计算上下调,FPKM或TPM进行下游可视化
生信技能树
2022/06/08
2K0
生信技能树GEO数据挖掘直播配套笔记
使用aPEAR来增强clusterProfiler的GSEA分析结果
其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,但是GO数据库 注释通常包括三个方面的信息:分子功能(Molecular Function)、细胞组分(Cellular Component)和生物过程(Biological Process)。而前面我们演示了:使用topGO增强你的GO数据库注释结果的可视化,是超几何分布检验的结果的可视化,主要是展示GO数据库的有向无环图结构。接下来我们聊聊使用clusterProfiler的GSEA方法针对GO数据库进行注释后的结果的可视化,所以是需要大家自己提前弄清楚GSEA方法和超几何分布检验方法的区别哦!
生信技能树
2023/12/13
4440
使用aPEAR来增强clusterProfiler的GSEA分析结果
enrichplot的作者来介绍新功能啦,您不来看看吗?
enrichplot是一个非常受欢迎的R包,在官网上每年均有数万次独立IP下载。Bioconductor上共有1905个R包,enrichplot下载量排第45位。它不仅可以对我们本实验室开发的clusterProfiler、DOSE、ReactomePA和meshes等R包的结果进行展示,也有不少R包使用enrichplot进行可视化展示,如:gprofiler2。之前已经有师妹发布了一篇关于使用enrichplot可视化的文章,写的文笔很好,内容讲解也挺细致。enrichplot一直在开发中,会不断有新的功能出现。这次小编便以开发者的身份对它的新功能以及部分隐藏功能做个介绍。
作图丫
2022/03/29
3.5K3
enrichplot的作者来介绍新功能啦,您不来看看吗?
推荐阅读
相关推荐
美化clusterProfiler富集分析结果:enrichplot包中的cnetplot
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档