前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >网络方法的发展及最新iDIRECT方法介绍

网络方法的发展及最新iDIRECT方法介绍

作者头像
Listenlii-生物信息知识分享
发布2022-03-31 21:46:18
5400
发布2022-03-31 21:46:18
举报

作者:顾一文

审核:Listenlii

注:

自iDIRECT方法的文章在今年出现以来,已经有若干公众号进行了解读。但全都集中于结果,而对我最感兴趣的方法部分都不涉及。本文主要从方法部分进行介绍。

Journal: PNAS

Published: January 6, 2022

网络推理的目标是识别直接的联系及其优势,同时抑制间接的或传递的联系。

1921年,遗传学家、网络推理领域的创始人Sewall Wright描述了推断网络中错误链接的问题,他说:“两个变量之间的相关程度可以通过众所周知的方法计算,但是它仅给出了所有连接影响路径的结果”。例如,假设一个基因直接控制第二个基因,而第二个基因又直接控制第三个基因。相关性分析会错误地指出第一个基因直接影响第三个基因。通过衡量变量之间关系的方法,如皮尔森相关(Pearson correlation)、互信息(mutual information)、距离相关(distance correlation),我们会得到一个总相关依赖性矩阵G。但是这些方法没有办法直接区分其中的直接和间接相互依赖关系。

针对不能量化的问题,人们已经开发了一些方法来推断被测变量之间的直接关联,如偏相关(partial correlation),格兰杰因果(Granger causality),条件互信息(conditional mutual information CMI),部分互信息(part mutual information PMI),贝叶斯网络(Bayesian networks)。但是,这些方法的结果会因不同的数据集而有很大差异。此外,这些方法局限于研究局部依赖模式以识别潜在的间接边缘,并且只能考虑有限长度通常为2的间接路径。

为了解决有效性和普遍性的问题,又开发了几种使用关联矩阵的逆的更通用的方法来更好地估计直接依赖关系,包括(1)网络反卷积Network Deconvolution (ND),(2)全局沉默Global Silencing(GS), (3)生态关联推理的稀疏逆协方差估计SPIEC-EASI。从理论上讲,ND、GS和SPIEC-EASI提供了更通用的框架来估计观察到的总测量的直接影响,因此它应该更适用于各种应用中的网络推理。这三种方法具有明显的优势:首先,概念上,ND将间接影响视为沿着真实网络边缘的直接影响流,并将它们表示为直接相关矩阵的无限幂级数的总和,GS将测量的相关性视为小扰动并推导出类似于Modular Response analysis (MRA)的公式,而SPIEC-EASI则使用邻域选择或稀疏逆协方差选择来估计交互网络。这三种方法都能够考虑任意长度的间接路径。

由于网络推理的不确定性,总关联矩阵G趋于单一性或病态性。当G的单一性或病态性在实现过程中成为问题时,其他方法使用通用数值分析技术来反转关联矩阵G。例如,ND使用比例因子和基于特征分解的伪逆;GS使用引导随机化修改G;SPIEC-EASI遵循使用G的稀疏性的优化方法。通常的操作方法是由一个给定的总相关矩阵G和一个直接相关矩阵S,然后需找一个公式去联系G和S。在ND方法中,间接影响对应于所有间接路径的长度,例如:G= I+ S+ S2+S3+ ….,即S= (G- I) G-1,然后应用特征分解得到G-1。在GS方法中,节点i和节点j之间的相互关系分为两部分:节点i和节点j的一个邻居节点k之间的关联,以及节点k和节点j之间的关联,即矩阵乘积SG的非对角项。使用一些近似值,S根据G给出:S= (G + diag{G (G - I)}) G-1。在SPIEC-EASI方法中,S假定为G-1,然后G-1使用带有惩罚项的最小化过程来求解,假设G-1是稀疏的。这些方程中的差异主要是由于G中是否包括对角线项造成的。但是由于一些与ill-conditioning, self-looping, 和interaction strength overflow相关的问题,它们对间接关系的估计并不准确。

前人研究使用的三种方法的关键问题:

单一性(Singularity)指的是G的逆矩阵G-1, 使得GG -1 = G-1G = I的矩阵不存在; ill-conditioning指的是G的逆G-1是高度不可信的。一个矩阵的单一性可以通过检查它的秩是否小于它的大小,或者通过它的特征值是否包含0来检测。

1. 病态性的(ill-conditioning):因为总相关矩阵G是单一或病态的,所以ND/GS/SPIEC-EASI这些使用G-1矩阵的解决方法都是不可信的。

2. 自环性(self-loop):这些方法的计算公式都不能剔除包含自环连接的虚假的间接联系,这导致结果高估了间接关系的影响。

3. 相互作用强度溢出(interaction strength overflow):得到的直接关联矩阵S的相互关系数据理论上应该始终属于自然范围[0,1],但这些方法的结果实际上会超出这个范围。

Indirect如何解决上述三个问题并鉴别直接和间接关系

(a)当有了总相关矩阵G之后,把整个系统分成更小的子系统以便最小化不确定性因素的影响因此不需要求总关联矩阵G的逆,避免了病态问题。并且通过两种非线性求解方法:T-solver,使用(B12)公式去解决当G给定时的传递性矩阵Ti; S-solver,使用(B14)公式解决当G和Ti给定时的直接相关矩阵S。

(b)此外通过传递性矩阵(Ti)去消除自循环诱发的间接关系。通过考虑两个节点ij之间通过节点i的一个邻居k。节点i通过节点kj之间的相互间接关系强度为SikTi,kj。其中Sikik之间的直接关联强度,Ti,kj为节点kj之间的关联强度,不包括经过i的路径。 SikTi,kj,不包括任何自循环诱导的间接路径,因为它们明确地排除在Ti,kj,之外。节点ij之间的总相关强度Gij为节点ij之间直接相关强度Sij加上通过节点k的间接相关Ti,kj

引入了两个新概念--顺序路径和平行路径。顺序路径:节点i和节点j通过中间节点k间接连接。ij之间的间接关联强度为uUv。平行路径:节点ij通过两条独特的路径间接连接在一起,这两条路径经过节点k1或节点k2。这两条路径的联合强度为u⊕v,其中u和v为每条路径的关联强度。节点k和节点j的总连接Gkj是Ti,kj加上Tj,kiTk,ij由于Ti,kj定义中排除了节点i,因此消除了自环路引起的伪路径。

(c)解决相关强度溢出的问题。通过引入新的计算方法⊕和U去消除强度移除问题。

例如在下图B中,节点i和节点j之间的总相关为0.8⊕0.42=0.83,而以往的计算方法为:0.8+0.42>1,会造成相关程度溢出的问题。

且在计算节点i和节点j之间的总相关时,使用了两种策略,第一个策略:APS(the All-path Sum)策略,A和C总的相关强度为路径1和路径2的总和(u U v) ⊕(u U w);第二个策略:TSP(The Two-Step Product)策略,A和C总的相关强度为路径1和第二部分总路径和的乘积uU(v⊕w)。

总结性而言,iDIRECT是在给定相关家族很之后构建网络的过程中,通过筛选出直接和间接关系,使得我们得到的网络结构更加的趋于真实,节点之间的连线更加能代表生态关系。我们期望iDIRECT在网络科学、系统生物学和微生物学研究中有广泛的应用。

Ps: 目前该方法已经加入在MENA网络分析平台,且分析代码已经放在github上

网络分析方法最终的目的是希望创建一种方法,它可以在任意的不仅仅是线性模型中计算n个变量之间的依赖性关系,并且能够从复杂的关系中准确的量化直接相关和间接相关,从而能够准确的反应节点(OTU)在自然生态系统下的真实关系以及强度。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档