先给大家讲讲WGCNA的精髓,其实就一句话:关联表型和基因。WGCNA通过将基因进行分组(module),把基因模块和表型进行关联,实现了快速锁定核心基因的目的。
OmicVerse是用Python进行多组学(包括Bulk和单细胞分析)的基础框架。前面我们在<生信技能树>公众号宣传过一波; Python的转录组学分析框架与生态,因为是需要去github点star后发邮件才能进群交流,所以操作门槛有点高, 所以本次文末开放拉群小助手给大家帮忙入群跟作者团队面对面沟通哈。
那些教程都是针对传统的bulk转录组测序的表达矩阵,其实单细胞转录组也是拿到表达矩阵,只不过是有一些特性,比如非常多的0值等等。那么有没有这样的研究尝试把WGCNA融入单细胞转录组数据分析呢?
其中有一个是“老米”投稿:手把手10分文章WGCNA复现:小胶质细胞亚群在脑发育时髓鞘形成的作用 , 里面是有TOM矩阵热图,就是配色很奇怪。所以经常有人询问这个问题:
也就是说,只要是多分组,就涉及到多次差异分析,而且多分组意味着样品数量肯定不少,这样的话,在这个表达量矩阵里面,不同基因之间可以计算合理的相关性, 就可以根据基因之间的相似性进行基因划分为不同的模块了。
本来以为是很简单,但是十万粉丝里面,我只收到了13份作业,可怜的13份答卷里面,还有5个是错的!其中大家错的最离谱的就是,搞不清楚文中的WGCNA针对的5个分组到底是什么!
WGCNA(Weighted Gene Co-Expression Network Analysis)称为加权基因共表达网络分析是一种适合进行多样本复杂数据分析的工具,通过计算基因间表达关系,鉴定表达模式相似的基因集合(module),解析基因集合与样品表型之间的联系,绘制基因集合中基因之间的调控网络并鉴定关键调控基因。其适合应用于复杂的多样本转录组数据,是发表转录组高分文章的必备技能。
通常是介绍到,把输入的top5000 MAD的基因根据WGCNA算法划分为多个模块,然后不同模块都可以去和临床形状看相关性。
代码是完全公开的,大家很容易复制粘贴到自己的表达量矩阵群,其实算起来WGCNA本身就一个函数而已,就是划分基因模块,其它都是附加分析。总体来说就是4个步骤:
摘要:耗牛被誉为“高原之船”,经过几千年的进化和低氧强紫外线的残酷环境选择,适应了高原环境,为青藏高原人民提供了重要的物资。本研究旨在寻找牦牛高原适应过程中差异表达(DE)基因和新的长非编码RNA(LncRNAs)及其潜在的共表达调控网络。
在这样的测试数据里面很容易跟着作者的文档,一步步掌握WGCNA,文档步骤目录如下:
标题:Identification of long non-coding RNA in the horse transcriptome
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
看到数据集 GSE103115,是关于:Cisplatin-induced gene expression changes in triple-negative breast cancer (TNBC) cells,是4种三阴性乳腺癌细胞系的同一个药物的不同时间的转录表达水平效应,每个处理是2个生物学重复。这个数据集发表在Cell Rep. 2019 Aug ,题目是:Modeling of Cisplatin-Induced Signaling Dynamics in Triple-Negative Breast Cancer Cells Reveals Mediators of Sensitivity. 分析策略的确是蛮有意思的
WGCNA的理论背景知识 WGCNA的详细分析流程 关键模块和hub基因筛选,在流程中并不可知 模块划分好后如何找到key module
WGCNA (weighted gene co-expression network analysis)权重基因共表达网络分析(流程模块见下图),可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联,常用于筛选关键表型的hub基因 ,是RNAseq分析中的一块很重要的拼图。而之所以叫组学数据黏合剂是因为表型可以是患者的临床信息(生存信息,分期信息,基线信息等),可以是重测序信息肿瘤(驱动基因的变异与否,signature ,CNV信息等),可以是转录组结果(免疫浸润,risk score ,GSVA ,分子分型结果),可以是单细胞数据(celltype ,AUCell 打分)等等 。注:这些在公众号之前的文章中大多都有涉及,文末有部分链接。
加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
今天给大家带来的是2020年3月发表在Biomed Research International(IF=2.276)杂志上的文章“Investigation of Potential Genetic Biomarkers and Molecular Mechanism of Ulcerative Colitis Utilizing Bioinformatics Analysis”。这篇文章通过DEGs筛选、加权基因共表达网络分析(WGCNA)、GO分析、KEGG分析,鉴定hub基因并进行数据验证以确保可靠性,揭示溃疡性结肠炎的分子机制,为溃疡性结肠炎基因治疗提供潜在的生物标志物。
不过,我这点战绩根本就算不上什么,其实这个WGCNA包已经是十多年前发表的了,仍然是广受好评及引用量一直在增加,破万也是指日可待。
本文应该是第二全的WGCNA分析教程,参考了最新的文档。第一全的还在路上,会出现于生信宝典和宏基因组公众号组织的二代三代转录组测序分析实战班上,欢迎点击链接了解更多。 WGCNA基本概念 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。 相比于只关注差异表达的基因,WGCNA利用
我们之前也有过一个专辑:《cytoscape十大插件》,详见:cytoscape十大插件之九 - 转录调控王者 iRegulon,而且在b站有配套视频操作演示,可以任意快进快退的学习它。
1写在前面 前面我们用WGCNA分析得到多个模块,其中有一些模块和我们感兴趣的表型或者临床特征是相关的。🥳 接着就是要做模块的富集分析了,帮助我们了解这些模块的基因都有哪些已知的功能,涉及到哪些通路,在哪些疾病中最为重要。🥰 现在这种做富集分析的包还是蛮多的,WGCNA包内也是内置了相关功能,不过首推的还是Y叔的clusterProfiler,在我心中真是YYDS。🫶 2用到的包 rm(list = ls()) library(WGCNA) library(tidyverse) library(cluste
WGCNA是一种从大量数据中挖掘module的算法,而这些module所包含的gene为一组表达模式类似或这说表达谱相似的基因,也就是相关或不相关。 而正相关还是负相关可以由WGCNA的参数进行设定,默认是既包括正相关又包括负相关。 相似的表达模式可能意味着 -1 tightly co-regulated -2 functionally related -3 members of the same pathway 和聚类有一定的相似,但更具有生物学意义。 WGCNA对基因间表达量的相关系数取n次幂,使得相关系数数值的分布逐渐符合无尺度分布,按gene表达模式进行分类,将模式相似的gene归一一个模块module,而不是一般的cluster,因此WGCNA得出的结果有更高的可信度。把几个模块筛选出来了,模块中的gene也就知道了,这样,可以用这些结果分析出更多的意义。 在co-expression 网络中,每一个gene在一个特定时间或空间的表达情况可以看成一个点node,可以通过计算任何两个gene间的相关系数可以得到gene间的表达情况。第i个和第j个gene的pearson相关系数,即表示两个gene的表达相似性。可以通过设定一个阈值来确定两个gene之间的表达谱是否相似。达到这个阈值了就认为它们之间是相似的。这种方式的缺点就是,假如定义了0.8,那么0.79和0.81就是两个不同的范畴了。WGCNA通过软阈值避免这一问题。 网络的数学名称是图,图论中每一个节点node有一个概念,那就是度degree,一个点的度指的是图中该点所关联的边数edge。 scale-free network特点是存在少数节点,具有明显高于一般点的度,也就是并不是平均分布,这些点称为hub,由少数hub与其它节点关联,构成真哥哥网络。这样的无尺度网络的节点读书与具有该度数的节点个数服从幂分布,这就为寻找最佳参数提供了理论依据。 进化的过程中,生物选择了这种网络有其进化意义。整个生物网络中,少数的关键性的gene执行主要功能,只要保证hub的完整性,整个生物网络就不会坍塌,那生命体系就不会受太大影响。 WGCNA的详细流程 WGCNA关键模块和hub基因筛选
标题:转录组分析鉴定 到新的3-lncRNA关于 糖尿病视网膜病中 转甲状腺素 减弱葡萄糖诱导人视网膜内皮细胞功能障碍 的调控网络
写在前面:从.CEL格式原始数据下载,到最终关键基因筛选(非hub基因)和初步验证,整个流程,目录还会增加。会涉及R及众多R包(最关键的是maSigpro和WGCNA),统计,ggplot2,cytoscape等。目标还是和前面的RNA-seq流程一样,你可以从头到尾一直重复下去。
如标题所述,这篇文献旨在分析软骨终板细胞中与DDD发生相关的关键基因与细胞类型。主要分为两个方面:首先通过WGCNA分析得到DDD相关的模块,围绕模块展开系列分析。其次结合单细胞数据以MSC细胞类型为核心展开多角度分析。
WGCNA将lncRNA分成18个模块(3635个lncRNA),空间模块中lncRNA表达呈现明显的组织区域特异性,如:CB (M1, 794个lncRNAs),DG/CA1 (M2, 443个lncRNAs), CA1 (M4, 369个lncRNAs),neocortex (M7, 123个lncRNAs)和OC (M10,57个lncRNAs)。时间模块中lncRNA表达与年龄有关,而与组织区域不明显;性别模块中lncRNA表达与性别和年龄都相关。每个模块就必须做pathway/go等数据库的注释分
标题:应用RNA测序对鸡类肌内前脂肪细胞的分化过程中长非编码RNA和mRNA的分析
看这个之前,可以先看WGCNA的一些理论背景知识 看完整个之后可以去看WGCNA关键模块和hub基因筛选
曾老师给我分享了一篇数据挖掘的文章,里面的WGCNA非常奇怪,我之前没见过这样的模块与表型的相关性热图
原文链接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
在ncRNA还没有研究之前,好多表达谱芯片是没有ncRNA的注释信息的。这也就导致说很多表达谱的芯片,没办法分析ncRNA。对于芯片的探针而言,可以通过重注释的办法来看一下是否能重新获得一部分ncRNA的数据。之前我们在GEO芯片重注释。介绍了通过blast来重注释基因的方法。当然这个方法也适用于对于ncRNA的重注释。但是上面的方法就比较麻烦,所以今天就给大家推荐一个ncRNA重注释到功能分析一体的数据库: ncFANs(http://ncfans.gene.ac/)
共表达基因指的是表达量具有协同变化趋势的基因集合,通常认为这些基因参与相同的生物学过程,比如参与同一个代谢通路,正是由于功能上的协同作用,导致表达量呈现出高度相关性。
这样的问题我其实被问过好多次了,因为这次是学员提问,虽然已经过了一个月的答疑期,但是情谊还在,所以就系统性的回复一下。
(2)基于此,使用CIBERSORT算法去预测TCGA每个样本的细胞类型组成比例。
1写在前面 最近实在是忙的不行,根本没时间更新,一到家就只想睡觉。🥹 今天写个最近用到的分析方法,Weighted correlation network analysis (WGCNA),是非常经典的生信分析方法了,现在被引有9913次了,马上就要破万啦。😘 📷 网上相关的教程也是不胜枚举,但多多少少是有些不尽人意的地方,有的少步骤,有的代码不全。😅 这里在仔细阅读了官方手册后,在这里和大家一起认真地step by step研究一下,查缺补漏吧。🥰 2用到的包 rm(list = ls()) librar
加权基因表达网络分析(Weighted gene co-expression network analysis, WGCNA),又叫权重基因共表达网络分析,其根本思想是根据基因表达模式的不同,挖掘出相似表达模式的基因,定义为模块(module)的一种算法。具有相似表达模式的基因很可能是紧密共调控的,功能紧密相关的或同一条信号通路或过程的成员,有其特定的生理意义。芯片原始数据由R语言预处理后,得到基因表达数据,然后由maSigPro包处理得到整个肝再生过程和肝癌发生发展过程中的差异表达用来构建加权基因共表达网络。然后根据基因表达的相似性(共表达的基因)把网络分成几个模块,把每个模块和外部特征(比如时间点,病理进程等)进行关联,同时和maSigPro结果进行对比,鉴定模块中的关键基因(driver gene或hub gene),进行可视化。
在小编的印象中,2年前纯生信文章要是发5分以上还是比较容易的。However,不知什么时候,某个审稿人大脑抽筋,要求做实验来验证,现在的纯生信文章想突破5分还是不容易啊!那么今天,我们就来欣赏这个复旦小哥哥生信文章的魅力吧!文章是今年7月15日发的(最新啊!),题目如下:
部分极其优秀的学徒会把自己项目过程慢慢补齐的生物信息学技能一点一滴记录并且分享,我们择优发布到公众号借花献佛给大家
这里运行R语言包GDCRNATools的帮助文档中的例子获得胆管癌的rna表达矩阵
本文目的:一文解决WGCNA分析问题。 原文章使用了自己识别的五个lncRNA,与mRNA合并做WGCNA分析,目的是为了得到lncRNA相关的mRNA。所以这里,我们做WGCNA,所需要的数据可以推测其包括:lncRNA表达量,mRNA表达矩阵,一些临床参数数据。 代码WGCNA_prepare.R(给WGCNA分析做前期数据准备) # ======================================================= ##########################
今天给大家带来的是篇非肿瘤纯生信文章,2022年发表在Front Immunnol上。文章思路清晰,整体上就是基于差异表达分析、WGCNA 和 Lasso 回归挖掘疾病相关的hub基因,然后对差异基因进行GO、KEGG 和GSEA分析。然后ssGSEA分析表达谱中 28 个免疫细胞的浸润水平及其与中枢基因标记的关系。最后使用ROC曲线评估了hub基因在疾病中的诊断价值。一气呵成,确定了参与疾病进展的关键生物标志物和免疫相关途径及其与免疫细胞浸润的关系。看完直呼我也能做!
step1: 计算资源的准备 如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。 如果只有个人电脑,那么直接下载表达矩阵开始分析也是可以的。 step2: 读文献,查看GEO数据 文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者测了 4个年龄段的恒河猴:1年
群主想看到,HCC,CHC,CC这3组,跟healthy的分开比较,然后3个火山图,3个热图。
1写在前面 前面我们用WGCNA分析完成了一系列的分析,聚类分割模块。🥰 随后进一步筛选,找到与我们感兴趣的表型或者临床特征相关的模块,而且进行了模块内部分析。😘 再然后是对感兴趣模块进行功能注释,了解模块的功能及涉及的潜在机制。🥳 本期主要是介绍一些可视化的方法,大家了解一下吧。🥰 2用到的包 rm(list = ls()) library(WGCNA) library(dplyr) 3示例数据 load("FemaleLiver-01-dataInput.RData") load("FemaleLiv
有过计算机视觉和影像组学数据分析经验的朋友,对感兴趣区域(region of interest,ROI)不会感到陌生。感兴趣区域就像它的字面意思一样直白,哪些区域您比较感兴趣?空间表达数据也允许我们在空间信息中找出这个ROI了。那么,在我们空间表达数据中的ROI是什么,有什么意义,如何确定?确定之后如何分析?这些有意思的议题,我们会在这篇文章中探讨。
Identification of a blood-based 12-gene signature that predicts the severity of coronary artery stenosis: An integrative approach based on gene network construction, Support Vector Machine algorithm, and multi-cohort validation
目前,纯生信分析发文依然是如火如荼,但随着审稿人的审美疲劳,其口味也越来越挑。纯生信文章不再那么容易满足审稿人的味蕾了,所以,“生信分析+实验验证”也是目前生信类高分文章的整体套路。到底怎样将生信分析与实验验证完美的整合呢?今天,一起学习一篇6.68分的文章,看看 “别人家的套路吧”!
领取专属 10元无门槛券
手把手带您无忧上云