Analysis Match模块详解

Analysis Match应用场景

已有分析好的数据结果,希望能和相近的实验设计进行横向比较,扩大取样范围。

目前还没有样本数据,需要从公共的数据平台如TCGA,GEO,SRA上下载已经发表的数据再重新分析。

想将自己的分析结果,横向比对多种类型的疾病数据,查看有无共通的生物学机制。

当有上述需求的时候,Analysis Match就能够提供易行、有效、有价值的解决方案。这是由Analysis Match模块的组成来实现的。

Analysis Match模块的组成

Analysis Match模块的组成分为两个部分:数据部分,OmicSoft样本数据库;Match分析部分,能够将上传的数据自动和以往IPA中的样本和OmicSoft中所有数据同做比较。

图一:Analysis Match(AM)模块是OmicSoft数据库产品和IPA数据分析产品的结合。OmicSoft收集整理了GEO,TCGA,SRA等公共数据库的所有数据样本的资源,并且用统一的标准进行打分筛选,获得的产品导入IPA中,用IPA的数据挖掘方法进行处理,获得的结果存于IPA的AM模块中,可以用于样本之间的横向比较。

Analysis Match数据组成

Analysis Match采用的是OmicSoft数据库内的数据集,来自于GEO,TCGA,SRA,Array Express的RNA-seq,表达谱芯片等样本数据。按照疾病的类型、性质分为DiseaseLand和OncoLand两个部分,收集8100+个样本数据集。在IPA中可以直接搜索并且查看数据及分析内容。

图二:Analysis Match数据组成。分为DiseaseLand和OncoLand两个部分,其中DiseaseLand中的数据按照物种分类,OncoLand按照数据来源的Project区分。能够在IPA中直接查看这些数据及其分析。

为了能够进行数据集间的横向比较,Analysis Match中的数据集,都预先按照统一标准进行整理。所有数据集都是由疾病 vs. 正常,给药 vs. 对照,不同样本处理方式之间,不同疾病之间,不同细胞系之间,不同疾病亚型之间或不同组织之间对比计算得到的差异基因组成,并且,所有的数据集仅保留约前1000个最显著的差异表达的分子进行之后的Match分析。

图三:Analysis Match数据整理方法,从每一个数据集的对比差异基因中挑选出约1000个用于之后Match分析的分子。

Analysis Match分析功能

Analysis Match模块的Match分析功能是从经典通路(CP:Canonical Pathway),上游调控因子(UR:Upstream regulators),因果网络(主调节因子CN:Causal networks),疾病和生物学功能(DE:Diseases and functions)这四个方向进行Match分析。也就是将上述的所有的8100+的数据都进行了核心分析,并将分析结果中的这四个部分拿出来,和我们上传的数据,或样本数据之间进行Match分析,以寻找表达相似或者正好相反的pattern。

图四:Match分析的本质,从图中四个方面:CP,UR,CN和DE进行样本之间的Match分析。

Match分析的原理是将需要被分析的数据的CP,UR,CN,DE结果求出,并且从中分别选出z值最前和最后的N个分子,并和其他的数据分析结果进行比对。能和N个分子Match越多的分析结果则表达的pattern越类似。

图五:Match分析的含义,如图所示选出的UR的N个分子(100个)中与其他样本分析UR结果中的match的数量越多,则表示两组分析的表达pattern越类似。

根据Match了n个分子与N值进行Z-Score的打分及均一化,其数值结果能直接代表Match的强弱,进而能说明两组数据表达pattern的类似性。

图六:Z-Score的计算原理。我们以Normalized z-score作为两组数据match的打分结果,这个值越大(或负值越小)则代表两组数据pattern越类似(或越不同)。

Analysis Match结果

Analysis Match的结果会在进行Core Analysis的时候自动生成。可以根据Metadata中的信息先筛选出自己需要的样本范围,再根据Z-Score的数值设定阈值,找出表达类似或相反的pattern。

图七:Analysis Match分析结果。能够根据数据来源和Z-Score的绝对值>40找出表达类似的分析样本。

由筛选条件找出的的样本,可以选择生成热图,进行详细的查看,能看到具体的match因子:上游调控因子,经典通路,主调控因子,疾病和生物学功能在不同样本中的数值情况。并且能够根据聚类的结果,得到具有启发性的结果。

图八:根据筛选条件选出的样本的热图,能够看到具体的match因子在不同样本中的数值情况,能够根据聚类得到有其发行的结果。

总结:

Analysis Match能提供8100+个公共数据样本,能够直接查阅或者进行数据样本之间的横向对比分析,得到的结果可能会给研究者以新的思路。

Analysis Match分析的结果能够直接选定样本,进行Comparison Analysis,获得更具体的基因表达值等信息。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180530G0S2MJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券