如何构建共表达网络来挖掘基因功能

共表达网络是一种基于组学数据,通过一定的算法来计算并大规模预测基因功能的方法。通过对构建的网络进行注释,可以挖掘出一些与生物体生长发育等相关的重要的基因或功能模块。小编这里以物种A为例,介绍一种用PCC和MR算法构建共表达网络的方法。

数据处理与分析

从公共平台上收集了物种A不同组织(根,茎,叶,果实等)以及不同胁迫处理(包括生物胁迫和非生物胁迫)的转录组数据。首先,用Tophat软件将测序的reads比对到参考基因组上,用FastQC软件对这些数据进行质量控制,将比对率过低的样本数据过滤,并通过箱线图过滤掉那些重复性不好或者质量不好的数据。然后,对筛选后剩下的样本数据,用cufflinks工具来计算基因在不同样本中的表达值(FPKM值)。

共表达网络构建

番茄的共表达网络是相关性网络,主要是由两两基因间表达值的相关性系数连接而成。小编这里用PCC(Pearson correlation coefficient)来计算两两基因间的相关系数。如下图所示,为基因A和基因B在不同样本中的表达模式,通过PCC计算其PCC值为0.7。

将所有基因两两配对计算得到的PCC值从小到大排序,来画PCC分布图,如下图所示。按照以往的经验,选取最低5%和最高5%的PCC值作为候选的共表达基因对(如下图所示)。可看出,在该物种中,PCC在[-1,-0.35]区间内的基因对被认为是具有负向共表达关系,而PCC在[0.55,1]区间内的基因对被认为是具有正向共表达关系。

接下来,为进一步增加共表达关系的可信度,小编这里用MR(Mutual rank)互相排序的方法来构建共表达网络,即是用计算geneA在geneB中和geneB在geneA中PCC排名的几何平均值。

网络可信度评估

GO词条,作为一类基因功能注释的先验知识,可用来评估具有不同临界值的PCC和MR的网络。小编这里选取基因数目在[4,20]区间内的GO词条和其对应的基因,用ROC(Receiver Operating Characteristic)曲线和AUC值作为特定二值分类器来评价构建网络的优劣。接下来选取了PCC>0.6,0.7,0.8,0.9和MR排序前三(top3)+MR

其中,ROC曲线对角线为采用随机取值的分类器的结果,此时AUC值为0.5。若ROC向上凸起,即AUC值越大,说明分类结果越好。由此可看出,MR top3+MR

对网络进行功能分析

小编这里推荐三种分析工具,基因簇功能富集分析工具,GO富集分析和motif分析,来对网络基因进行功能分析。构建好的共表达网络,可结合这些分析工具及已有的功能注释来:

1,预测可能的基因功能;

2,结合已有的研究报道,挖掘出重要生物学过程中可能起重要调控功能的基因;

3,提高物种全基因组基因功能注释的覆盖度。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191025A0494G00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券