专栏首页生信小驿站一文解决多个不同平台差异分析结果合并

一文解决多个不同平台差异分析结果合并

介绍:

原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。

结果:标准等级的合并方法通常不适用于具有比较大的噪声的基因表达矩阵。因此作为一种补救措施,有研究者提出了一种新颖的秩聚合(RRA)方法。该方法可以检测出在不相关输入的零假设下始终比预期更好地排名的基因,并为每个基因分配显着性得分。潜在的概率模型使算法参数自由且对异常值,噪声和错误具有鲁棒性。重要性评分还提供了一种严格的方法,可以仅将统计相关的基因保留在最终列表中。这些特性使该方法在许多环境下都具有强大的吸引力。

示例:

背景

这项研究的目的是通过组合数据库筛选肺癌的预后基因,预测和探索遗传标志物在肺癌发展中的可能机制和临床价值。

材料和方法

通过使用R语言从Gene Expression Omnibus和The Cancer Genome Atlas数据库收集并进行计算,研究了两个基因表达芯片(GSE3268和GSE10072数据集)中的常见差异基因。通过以下方法发现了五个基因组成标记:核糖核苷酸还原酶调节亚基M2 [RRM2],滋养层糖蛋白[TPBG],跨膜蛋白酶丝氨酸4 [TMPRFF4],氯离子胞内通道3 [CLIC3]和WNT抑制因子-1 [WIF1]。进一步筛选基因模型的组合使用逐步Cox回归函数。通过分析基因标志物与肺癌临床病理参数之间的相关性及其对预后的影响,选择了TPBG基因进行差异表达分析,并通过基因组富集分析(GSEA)预测了其可能的途径和功能及其蛋白相互作用网络。使用检索工具检索相互作用基因/蛋白质(STRING)数据库;然后,通过定量PCR和Oncomine数据库验证TPBG在肺癌细胞和组织中的表达差异。

结果

5种遗传标志物的表达水平与生存预后相关,遗传标志物高表达患者的总生存时间短于低表达者(P <0.001)。 GSEA表明,这些高表达样品丰富了细胞粘附,细胞因子受体相互作用途径,细胞外基质受体途径,粘附途径,骨架蛋白调节,癌症途径和TGF-β途径的基因组。

结论

五个基因组成标志物的高表达是肺癌的不良预后因素,并可作为预测肺癌患者转移和预后的有效生物标志物。

材料和方法
  • 从GEO数据库中识别DEG 从GEO数据库中选择了GSE3268和GSE10072数据集。 GSE3268数据集是鳞状细胞肺癌患者的细胞系数据。每对样本代表一名患有鳞状肺癌的患者。一种来自癌细胞,另一种来自正常细胞。有五个病人,每个病人有两个阵列。 GSE10072数据集由58个肺腺癌组织和49个对照组成,所有这些都是新鲜的冷冻组织样本。然后,使用“ limma”,“ RobustRankAggreg”。 R语言包中,根据调整后的P <0.01和| log FC |> 2作为阈值,在两个芯片中找到共同的差异基因。
  • 基因功能和途径分析 对预测的目标基因进行基因本体论(GO)评估,并使用Metascape数据库(http://metascape.org/gp/index.html#/main/step1)进行途径富集分析。
  • TCGA数据库和数据收集 我们将临床参数和生存数据保留在TCGA肺腺癌数据集中;共有535个肿瘤组织样本。我们将差异基因与TCGA数据结合起来,并对mRNA进行了单因素回归。然后,基于基于Akaike信息标准(AIC)的表达值的线性组合,我们使用了逐步Cox回归分析来构建由预后相关mRNA组成的预后标记。接下来,我们使用以下公式构建预后风险评分模型:风险评分= expGene1×βGene1+ expGene2×βGene2+ expGenen×βGenen(exp,预后基因表达水平;β,多元Cox回归模型回归系数)。
  • 基因集富集分析(GSEA) 根据TPBG表达从高四分位到低四分位对表达谱数据进行排序,并选择数据的前25%和后25%作为高和低组。然后,我们下载了c2.cp.kegg。 GSEA网站和MsigDB数据库中的v6.1.symbols.gmt和c5.all.v6.1.symbols.gmt数据集,并使用GSEA 3.0版软件分析了我们的数据。另外,我们根据表达数据进行了富集分析。我们设置了1,000个分析的随机组合,产生了高表达组和低表达组所涉及的功能。
  • 构建蛋白质相互作用网络 我们使用了检索相互作用基因/蛋白质(STRING)网站的搜索工具来绘制TPBG蛋白质相互作用网络。
  • Oncomine数据库提取 Oncomine数据库(http://www.oncomine.org)是目前全球最大的癌基因芯片数据库和集成数据挖掘平台,用于挖掘癌症基因信息。迄今为止,该数据库已经收集了715个基因表达数据集和86,733条癌组织和正常组织样本数据。 Oncomine数据库已用于常见癌症类型及其各自正常组织的差异表达分类,以及临床和病理分析。
  • 人类蛋白质图谱 人类蛋白质图谱(https://www.proteinatlas.org/)在特定的人体组织中提供了大量的转录组学和蛋白质组学数据,由组织图谱,细胞图谱和病理学图谱组成。该数据库提供了跨44种不同正常组织和器官以及20种最常见癌症类型的细胞特异性定位信息。另外,正常人组织和肿瘤组织中基于免疫组织化学(IHC)的蛋白质表达模式被用于通过使用来自人类蛋白质图谱的数据来生成表达图。在这项研究中,我们利用这个数据库来探索TPBG基因在正常肺组织和癌组织中的蛋白表达。
  • GEO数据集过滤差异基因 我们使用“ RobustRankAggreg”选择了两个芯片共有的80个显着上调和下调的差异基因,包括40个高表达基因和40个低表达基因。 R语言包用于可视化这些基因(图1)。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言从入门到精通:Day1

    今天是我们的系统教程《R语言从入门到精通》的第一讲,前面的背景讲解中《从今天开始,每天学点R语言~》,已经深入探讨过R语言的重要性以及学习R语言的必要性,今天我...

    用户6317549
  • 【科研猫·绘图】优雅版·小提琴图(带R代码分享)

    课前准备,R语言的安装和配置都OK了吗?生物信息系列课程-R语言入门;挖掘GEO速成SCI文章系列教程(3)-R语言基础。小板凳排排坐,飞飞老师要开课~

    用户6317549
  • R语言从入门到精通:Day2

    本来想着R语言虽然重要,但是肯花心思学习的人可能还是少数,但是这两天大家高涨的学习热情着实让人惊讶,很多同学后台催着要我们赶紧更新。看来咱们科研猫真是猫系慵懒

    用户6317549
  • 终极篇:3分钟搞定GO/KEGG功能富集分析-气泡图

    干货预警:3分钟搞定GO/KEGG功能富集分析(2),给大家详细讲解了DAVID网站的使用,通过分步操作,带领大家学习了使用DAVID工具来进行GO和KEGG分...

    用户6317549
  • 【科研猫·绘图】看·箱线图·如何美丽动人(代码分享)

    往期的教程里详细为大家做了R语言安装和环境配置的课程,错过的喵咪们,课前赶紧复习一下吧。生物信息系列课程-R语言入门;挖掘GEO速成SCI文章系列教程(3)-R...

    用户6317549
  • R包ggseqlogo |绘制序列分析图

    在生物信息分析中,经常会做序列分析图(sequence logo),这里的序列指的是核苷酸(DNA/RNA链中)或氨基酸(在蛋白质序列中)。sequence l...

    生信宝典
  • 大咖聊“生信”—生物信息入门必备

    这几年生物信息学(Bioinformatics,下文简称生信)的迅猛发展席卷科研领域,越来越多的科研工作者认识到生物信息的重要性,部分实验室甚至开出高价招聘专职...

    用户6317549
  • 挖掘GEO速成SCI文章系列教程(3)-R语言基础

    另外,最近几期有关挖掘GEO速成SCI文章的系列教程中,先是讲解了一些基本概念、数据库的构成,以及如何从GEO中快速锁定自己想要的目标数据。在获得数据之后,后续...

    用户6317549
  • 【科研猫】生存分析的正确姿势(1)视频+R代码分享

    生存分析很重要,如何高效地对两万多个基因批量做生存分析?今天,猎豹师兄带领大家,正确姿势做生存分析,快速锁定目标基因。

    用户6317549
  • 从今天开始,每天学点R语言~

    首先,在这里先跟大家说声对不起,技术团队最近一直在做课程开发,本着宁缺毋滥的原则,我们的微信文章一再搁置,在编辑部催了无数遍之后,终于可以把课程放出来给大家了。

    用户6317549

扫码关注云+社区

领取腾讯云代金券