Nat.Commun. | 网络增强是加权生物网络去噪的一种常用方法

DrugAI

发布于 2021-07-28 10:43:37

6210

发布于 2021-07-28 10:43:37

文章被收录于专栏：DrugAI

作者 | 夏枫审稿 | 蒋长志

今天给大家介绍来自斯坦福大学的Bo Wang等人发表在Nature Communications上的文章，文章提出了一种基于随机游走的扩散方法Network enhancement（NE），并将其用于网络去噪，可以提高无向加权网络信噪比，通过实验表明，与其他去噪算法相比有更高的性能，可以广泛应用于生物网络去噪。

1 研究背景

网络为表达复杂生物系统中的细粒度连接和动态交互提供了一个优雅的抽象。在这种表示方式中，节点表示系统的对象。这些节点通常由非负的(加权)边连接，用于表示两个对象之间的相似性。例如，在蛋白质-蛋白质相互作用(PPI)网络中，加权连边可以捕获蛋白质之间物理相互作用的强度，并可用于检测功能模块。然而，对交互强度的精确实验量化仍然是一个挑战。技术和生物噪声可以导致强连边，从而导致假性的相互作用。相反，可疑的弱边可能隐含真实的、生物学上重要的连接。此外，实验导出的网络被噪声被污染，则会通过改变潜在生物路径内和之间的边缘的强度来改变整个网络的结构。这些对于网络结构的修改会对下游任务的性能有不利的影响。并且，带噪声的相互作用关系并不是PPI网络所独有的，其也影响了许多不同类型的生物网络，如Hi-C和细胞-细胞相互作用网络。

为了克服上述问题，许多基于计算的方法被提出并用于网络去噪。这些方法通过基于网络的扩散网络获得权重并替换连边的原始权重。然而，这些方法通常没有在不同类型的网络上进行测试，其依赖启发式方法而缺乏方法有效性的可解释性，并且缺乏对去噪网络的属性的数学证明。因此，这些方法可能对基于新兴的实验生物技术的新应用无效。

2 主要贡献

（1）本文提出了一个用于网络去噪的方法NE，其无需监督信号或者先验知识。具体地，其基于高权重连边比低权重连边更倾向于存在高权重连边的观测事实，定义了一种用于去噪的扩散方法，其使用长度不超过 3 的随机游走和信息正则化方法。

（2）本文对NE的去噪机制进行相关理论分析，并且提出了一个闭式解。

（3）本文在基于人类组织网络的基因功能预测、基于Hi-C 网络的领域识别等任务进行了案例分析，并且证明 NE能够显著优于当前的去噪方法。

3 方法

NE通过基于扩散的方法修改图中连边的原始权重，具体地，其首先定义了转移矩阵 P 和局部化矩阵 T，可分别表示如下：

其中，

表示由其 K 近邻构建的邻域，其中 K 的选择为 20。需要注意的是，由于本文使用了图像数据，因此其定义了一个新的 kernel 来计算图像之间的相似度，其可表示如下：

其中，

为默认值。

可表示如下：

这样，修改后的权重可表示如下：

其中为α正则化参数，t 代表迭代次数。将上式展开，我们有

这样，当

时，我们可以得到其闭式解：

最后，将该得到的权重用于替换原始权重，就可以得到去噪后的网络。

4 实验

本文将NE应用于网络生物学中三个具有挑战性但又重要的问题：基因功能预测，域辨识和细粒度的物种鉴定。在每个实验中，我们分别用NE去噪后的网络与其他方法去噪后的网络进行比较，其他方法有：网络反卷积(network deconvolution，ND)和扩散状态距离(diffusion state distance，DSD)，其中ND通过反扩散过程来去除传递边，DSD通过基于扩散的距离来转换网络。并且，该团队还将结果与Mashup(MU)学习到的特征重构的网络进行了比较。其中MU是一种特征学习算法，基于节点在网络中的稳态拓扑位置学习节点的低维表示。

4.1、基因功能预测

本文评估了原始网络(RAW)和使用MU、ND、DSD和NE方法对组织特异性基因功能预测的性能。实验结果如图，我们观察得到，使用了去噪方法之后的性能皆优于原始网络，并且本文提出的NE方法也显著优于其他方法。

4.2、域辨识

本文评估了域辨识上各方法的性能。图a上一部分是Hi-C基因组相互作用网络中的域识别，表示原始数据的接触矩阵，下一部分是16号染色体一部分Hi-C接触矩阵的热图，表示应用NE后数据的接触矩阵。本文使用归一化互信息(normalized mutual information，NMI)指标，图b是检测到集群的NMI。可以看到，对于原始数据和经过DSD和ND预处理的数据，整体NMI随着分辨率的降低而降低，NE相较于其他算法保持了良好的性能。

4.3、细粒度的物种鉴定

细粒度图像检索的目的是区分类别的细微差异(如帝王蝶和孔雀蝶)，图b可以看到,给定一个查询蝴蝶，原始图像矢量化不能正确地检索到同一类(即同一物种)的其他蝴蝶，而经NE去噪的网络能够正确地恢复查询与其同类邻居之间的相似性。c图为各算法在改变检索图像数量时的物种识别精度结果，曲线代表识别精度，可以看出NE的性能显著优于其他方法。

5 总结

本文提出了一种基于随机游走的扩散方法NE，并将其用于网络去噪。并且，本文对该方法进行了数学上的相关分析并提出了一种闭式解。通过实验表明，本文提出的方法能够有效去除网络中的噪声，显著提高模型的性能。

参考资料

https://www.nature.com/articles/s41467-018-05469-x

Supplementary information：

https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-018-05469-x/MediaObjects/41467_2018_5469_MOESM1_ESM.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-08，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 DrugAI 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度