前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解密微生物群中的相互作用

解密微生物群中的相互作用

作者头像
生信菜鸟团
发布2020-10-23 14:32:13
1.8K0
发布2020-10-23 14:32:13
举报
文章被收录于专栏:生信菜鸟团

我们的世界由复杂的微生物群落构成,这些微生物群落不仅仅是独立个体的集合,更是相互连接的生态群落复合体,这些生态群落会互相交流、共同生存和进化。微生物群的相互作用不仅限于微生物群落之间,还存在于微生物和它们的宿主之间,已有许多研究表明他们在宿主的发育、代谢、体内平衡和免疫中起着关键作用。虽然健康人的微生物组也十分多变,但研究发现微生物群落组成的失衡与不良的宿主反应有关,有时还与严重的病理反应有关,例如,腹泻、糖尿病、结肠直肠癌、炎症性肠病、肠易激综合征和肥胖症等等。

网络分析已是用于分析成员间多方面相互作用的复杂生物系统的有效方法,这使我得以进一步深入了解微生物群中的相互作用及其在健康、疾病和发展中的作用。目前研究人员以针对微生物的网络分析开发了许多计算方法,例如 CoNet、LSA、MENA、Dice index method、SparCC 以及 SPIECEASI 等。这些计算方法主要在 OTU 的预处理和相关性计算方法上有所不同。经典的相关性计算方法和统计学方法,比如 Pearson、Spearman、Bray-Curtis、Kullback-Leibler dissimilarity、Benjamini-Hochberg's false discovery rate 和 generalized boosted linear models,也被一些研究用于计算 OTUs 之间的关联。另一种方法是应用图形模型,例如 neighborhood 和 inverse covariance selection 。本文将介绍用于构建微生物网络的一些常用的方法。

基于相异度(dissimilarity)的方法

从 OTU 微生物组数据构建共现网络的最简单,最快的方法就是使用配对相异度指数,如 Bray-Curtis 或 Kullback-Leibler 。通常用置换检验评估相异度分数的显著性,所有显著的关系将用于构建微生物网络。也有研究人员基于此开发了一种集合流程,该流程结合了多个指数,例如相关性系数 (例如 Spearman )、相似性 (例如互信息) 和相异度 (例如 Kullback–Leibler),即 CoNet。

基于相关性的方法

另一种常用的方法是基于相关性构建网络,如 Pearson 相关系数或 Spearman 相关系数,这两种分析均是评估两个变量之间的线性相关性。

基于回归的方法

基于配对关联度量的网络推理方法无法捕获更复杂形式的多微生物相互作用。多元回归分析是其中一种替代的方法,即从另一类群的总丰度中推断某一物种的丰度。尽管该方法简单易用,但回归结果的含义可能解释起来比较困难。例如,成功预测的链接可能并不代表存在什么生物学关联。此外,基于回归的方法存在过拟合的问题,过拟合会随着预测变量的数量增加而增加,并且假阳性的数量也会相应增加。我们可以通过使用稀疏回归和交叉验证来校正过拟合。

概率图模型

概率图模型 (PGMs) 利用计算机科学中离散数据结构的思想,利用概率论有效地计算高维数据中的不确定性。换句话说,PGMs 分别使用概率论和图形来处理不确定性和复杂性。贝叶斯网络和马尔科夫网络是最受欢迎的图形模型。概率图模型在形式上是由图结构组成的。图的每个节点(node)都关联了一个随机变量,而图的边(edge)则被用于编码这些随机变量之间的关系。PGMs 可分为有向与无向,静态与动态以及概率与决策。在微生物组网络中,除非从时间序列数据构建网络,否则 OTU 之间的链接表示对称的无向关联。静态 PGMs 对在某个时间点的一组变量进行建模,而动态 PGMs 对跨不同时间点的一组变量进行建模。概率 PGMs 包含有随机变量,决策 PGMs 则还会考虑决策变量和效用变量。

网络推理方法对组成数据偏差的鲁棒性

微生物组数据通常有两个特征,这两个特征会影响我们的分析结果。首先,OTU 数据是组成数据,这意味着微生物计数是相互依赖的,并非完全独立。当使用传统的统计方法,如 Pearson 相关性分析时,这种情况会导致结果的不准确。另一方面,样本量与特征数 (OTUs) 的比值较小。最近,已经有许多算法针对这两个问题来提高网络的准确性:

SPIEC-EASI 将针对组成数据开发的数据转换与稀疏图形模型推理框架相结合。SPIEC-EASI 使用稀疏邻域和逆协方差选择算法构建微生物组网络。

Sparse and compositionally robust inference of microbial ecological networks. PLoS Comput. Biol. 2015; 11: e1004226

相比之下,SparCC 通过估计对数转换后分量之间的线性 Pearson 相关性来推断组成数据中的关联性。但应谨慎使用基于对数转换的方法,对数转换无法处理微生物组数据中常见的 0 。为了解决此问题,我们通常用一个很小的计数代替 0 。但伪计数值的选择可能会严重影响结果。

Inferring correlation networks from genomic survey data. PLoS Comput. Biol. 2012; 8: e1002687

CoNet 会同时计算 Pearson 和 Spearman 相关性以及 Kullback-Leibler 和 Bray-Curtis 相异性距离。之后使用特定的方法将4个分析的结果进行合并,得到一个统一的相关系数和 p 值,之后再进行 p 值校正,得到的结果用于筛选网络的节点和边。

CoNet app: inference of biological association networks using Cytoscape. F1000Research. 2016; 5: 1519

REBACCA 是一种较新的方法,它使用计数或比例数据的对数比转换来估计丰度之间的相关性。

Investigating microbial co-occurrence patterns based on metagenomic compositional data. Bioinformatics. 2015; 31: 3322-3329

CCLasso 也是一种从成分数据中推断相关性的方法。对数比转换后,CCLasso 使用具有L1罚分的最小二乘法对原始成分数据进行推断,以通过潜变量模型推断微生物之间的相关性。L1 正则化通常用于防止因协变量的共线性或高维而导致的过拟合。

CCLasso: correlation inference for compositional data through Lasso. Bioinformatics. 2015; 31: 3172-3180

MENAP 是一种基于随机矩阵理论(RMT)的方法,旨在解决阈值的选择问题。该方法可自动识别阈值并基于该阈值定义邻接矩阵。最后,将根据邻接矩阵构造无向网络图。

Molecular ecological network analyses. BMC Bioinformatics. 2012; 13: 113

MInt 是一种多元泊松正态分层模型,通过控制 Poisson 层的混杂预测变量,并使用ℓ1罚分矩阵,捕获多元正态层中直接的微生物相互作用,从而从宏基因组计数数据中找到分类单元的相互作用。在模拟数据中,MInt 优于 SparCC 和 graphical lasso。

Learning microbial interaction networks from metagenomic count data. in: Przytycka T.M. Research in Computational Molecular Biology. Springer, 2015: 32-43

文末友情推荐

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于相异度(dissimilarity)的方法
  • 基于相关性的方法
  • 基于回归的方法
  • 概率图模型
  • 网络推理方法对组成数据偏差的鲁棒性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档