专栏首页生信技能树GSVA可以理解为pathway级别的差异分析

GSVA可以理解为pathway级别的差异分析

不过,标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是有成百上千个生物学功能注释(GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。

GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。去年我就介绍过一波它的分析流程,在:使用GSVA方法计算某基因集在各个样本的表现 非常简单的代码,所以各个培训机构,公司人员都开始学习和二次创作进而分享。考虑到最近邮箱接收的GSVA提问比较多,我这里还是得再次归纳总结一波,这次我准备从GSVA其实就是pathway级别的差异分析的角度来分享。

一般人做数据挖掘,到差异基因的生物学功能注释(GO功能和KEGG通路)就结束了,进而也就是去使用一些网页工具,比如string,出一些花花绿绿的图表,比如PPI网络图。实际上,使用了GSVA,可以把成百上千个生物学功能注释(GO功能和KEGG通路)转换为新的表达矩阵,就是具体的每个通路在各个样本的基因集变异分析(Gene Set Variation Analysis,GSVA)值,我们把它当作一般的矩阵文件,进行差异表达分析,热图绘制,火山图绘制。

下面我们以文献 Metabolic remodeling contributes towards an immune‐suppressive phenotype in glioblastoma 为例,欣赏它的两个图表,文章发表在Cancer Immunology, Immunotherapy (2019)

https://doi.org/10.1007/s00262-019-02347-3

基于pathway的热图

虽然作者这里使用的代谢组学数据:

Global metabolomic profiling was performed on patient-derived glioblastoma (GBM; n=80) and LGA (n=28) tumor samples using LG/GC–MS.

本质上仍然是记录表达量。

基于pathway的火山图

pathway的具体含义

pathway在我这里是其实想指代基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb

包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;
  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;
  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:
  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分
  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)
  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据
  • C7: immunologic signatures: 免疫相关基因集合。

本文分享自微信公众号 - 生信技能树(biotrainee),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 不编程就能完成差异表达分析

    上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全...

    生信技能树
  • GEOquery包的getGEO函数总是无法下载肿么办

    解决方式也简单,加上代码: options( 'download.file.method.GEOquery' = 'libcurl' ) 即可!

    生信技能树
  • 如何选择聚类模块数目

    一般来说,类似K-means聚类算法需要我们提取指定聚类得到的cluster数目。 那么问题来了,如何为聚类选择一个适合的cluster数目呢 ? 很遗憾,上面...

    生信技能树
  • 冒泡排序算法

    qubianzhong
  • MVC3----分部视图

    2,新建一个视图(新建视图的时候,在弹出框中选择创建为分部视图)Message.cshtml,把这个文件放在Views/Shared这个文件夹下(约定优先于配置...

    用户2398817
  • 【JS】237-如何理解JavaScript中常用的4种排序算法?

    设置一个标志,如果这一趟发生了交换,则为true。否则为false。如果这一趟没有发生交换,则说明排序已经完成。代码如下:

    pingan8787
  • SCCM2012之客户端发现与安装

    通过前面两次实验,我们已经完成了SCCM 2012的安装,下面就开始进入SCCM 2012的管理与使用。进入管理控制台,我们可以发现SCCM 2012管理控制台...

    李珣
  • 举例详解Python中的split()函数的使用方法

    这篇文章主要介绍了举例详解Python中的split()函数的使用方法,split()函数的使用是Python学习当中的基础知识,通常用于将字符串切片并转换为列...

    用户1214487
  • 【小家Spring】资源访问利器---Spring使用ResourceLoader接口便捷的获取资源(ResourcePatternResolver、ResourceLoaderAware)

    关于Spring Framework中资源的访问,上篇已经讲解了org.springframework.core.io.Resource接口,它有非常多的实现类...

    BAT的乌托邦
  • # 实现原理

    用户1175783

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动