Analysis Match模块详解

文章来源：企鹅号 - 源资科技

Analysis Match应用场景

已有分析好的数据结果，希望能和相近的实验设计进行横向比较，扩大取样范围。

目前还没有样本数据，需要从公共的数据平台如TCGA，GEO，SRA上下载已经发表的数据再重新分析。

想将自己的分析结果，横向比对多种类型的疾病数据，查看有无共通的生物学机制。

当有上述需求的时候，Analysis Match就能够提供易行、有效、有价值的解决方案。这是由Analysis Match模块的组成来实现的。

Analysis Match模块的组成

Analysis Match模块的组成分为两个部分：数据部分，OmicSoft样本数据库；Match分析部分，能够将上传的数据自动和以往IPA中的样本和OmicSoft中所有数据同做比较。

图一：Analysis Match（AM）模块是OmicSoft数据库产品和IPA数据分析产品的结合。OmicSoft收集整理了GEO，TCGA，SRA等公共数据库的所有数据样本的资源，并且用统一的标准进行打分筛选，获得的产品导入IPA中，用IPA的数据挖掘方法进行处理，获得的结果存于IPA的AM模块中，可以用于样本之间的横向比较。

Analysis Match数据组成

Analysis Match采用的是OmicSoft数据库内的数据集，来自于GEO，TCGA，SRA，Array Express的RNA-seq，表达谱芯片等样本数据。按照疾病的类型、性质分为DiseaseLand和OncoLand两个部分，收集8100+个样本数据集。在IPA中可以直接搜索并且查看数据及分析内容。

图二：Analysis Match数据组成。分为DiseaseLand和OncoLand两个部分，其中DiseaseLand中的数据按照物种分类，OncoLand按照数据来源的Project区分。能够在IPA中直接查看这些数据及其分析。

为了能够进行数据集间的横向比较，Analysis Match中的数据集，都预先按照统一标准进行整理。所有数据集都是由疾病 vs. 正常，给药 vs. 对照，不同样本处理方式之间，不同疾病之间，不同细胞系之间，不同疾病亚型之间或不同组织之间对比计算得到的差异基因组成，并且，所有的数据集仅保留约前1000个最显著的差异表达的分子进行之后的Match分析。

图三：Analysis Match数据整理方法，从每一个数据集的对比差异基因中挑选出约1000个用于之后Match分析的分子。

Analysis Match分析功能

Analysis Match模块的Match分析功能是从经典通路（CP：Canonical Pathway），上游调控因子（UR：Upstream regulators），因果网络（主调节因子CN：Causal networks），疾病和生物学功能（DE：Diseases and functions）这四个方向进行Match分析。也就是将上述的所有的8100+的数据都进行了核心分析，并将分析结果中的这四个部分拿出来，和我们上传的数据，或样本数据之间进行Match分析，以寻找表达相似或者正好相反的pattern。

图四：Match分析的本质，从图中四个方面：CP，UR，CN和DE进行样本之间的Match分析。

Match分析的原理是将需要被分析的数据的CP，UR，CN，DE结果求出，并且从中分别选出z值最前和最后的N个分子，并和其他的数据分析结果进行比对。能和N个分子Match越多的分析结果则表达的pattern越类似。

图五：Match分析的含义，如图所示选出的UR的N个分子（100个）中与其他样本分析UR结果中的match的数量越多，则表示两组分析的表达pattern越类似。

根据Match了n个分子与N值进行Z-Score的打分及均一化，其数值结果能直接代表Match的强弱，进而能说明两组数据表达pattern的类似性。

图六：Z-Score的计算原理。我们以Normalized z-score作为两组数据match的打分结果，这个值越大（或负值越小）则代表两组数据pattern越类似（或越不同）。

Analysis Match结果

Analysis Match的结果会在进行Core Analysis的时候自动生成。可以根据Metadata中的信息先筛选出自己需要的样本范围，再根据Z-Score的数值设定阈值，找出表达类似或相反的pattern。

图七：Analysis Match分析结果。能够根据数据来源和Z-Score的绝对值>40找出表达类似的分析样本。

由筛选条件找出的的样本，可以选择生成热图，进行详细的查看，能看到具体的match因子：上游调控因子，经典通路，主调控因子，疾病和生物学功能在不同样本中的数值情况。并且能够根据聚类的结果，得到具有启发性的结果。

图八：根据筛选条件选出的样本的热图，能够看到具体的match因子在不同样本中的数值情况，能够根据聚类得到有其发行的结果。

总结：

Analysis Match能提供8100+个公共数据样本，能够直接查阅或者进行数据样本之间的横向对比分析，得到的结果可能会给研究者以新的思路。

Analysis Match分析的结果能够直接选定样本，进行Comparison Analysis，获得更具体的基因表达值等信息。

发表于: 2018-05-302018-05-30 12:39:20
原文链接：https://kuaibao.qq.com/s/20180530G0S2MJ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Analysis Match模块详解

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐