前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 多视角预测病毒和哺乳动物宿主的关联

Nat. Commun. | 多视角预测病毒和哺乳动物宿主的关联

作者头像
DrugAI
发布2021-07-28 10:47:46
7390
发布2021-07-28 10:47:46
举报
文章被收录于专栏:DrugAI

编译|黄勇 审稿|周珍冉

本次报道论文为发表于Nature Communications的Divide-and-conquer:machine-learning integrates mammalian and viral traits with network features to predict virus-mammal associations。该文章是英国利物浦大学的Maya Wardeh博士等人的研究成果:为预测病毒和哺乳动物宿主的关联,文中构建病毒、哺乳动物和网络三种视角,每个视角独立预测,以增强预测能力。

1 介绍

最近的估计表明,迄今为止人类发现的哺乳动物病毒不到真实存在的1% 。在哺乳动物病毒中,其中一些病毒的宿主范围非常窄,而其他病毒,如狂犬病的宿主范围非常广(理论上狂犬病可以感染任何哺乳动物)。宿主范围预测是判断病毒是否人畜共患,以及对人类是否构成风险的重要依据。例如, SARS-CoV和MERS-CoV冠状病毒都被认为起源于蝙蝠,但其宿主范围包括其他哺乳动物(例如果子狸 , 骆驼)。最近,人们发现 SARS-CoV-2 的宿主范围相对较广,包括:蝙蝠,猫,雪貂,以及一种可能的中间宿主,穿山甲。因此,了解病毒的潜在宿主范围对于防治病毒传染病具有重要意义。

由于人类对自身关注较多,对一般哺乳动物关注较少,病毒与一般哺乳动物之间的关联数据明显缺乏。 比如,已知人类病毒274种,但是平均每种灵长类动物只有7种病毒。即便如此,目前积累的知识仍提供了宝贵的资源。

作者在文中构建一个多视角框架,引用公共基因测序数据库,并使用其中具有已知关系的病毒基因测序数据和动物基因测序数据建立训练集,训练集包含三个角度,分别对应三种预测结果:

(1)对每个哺乳动物物种用病毒特征进行训练,以预测可能与该宿主相关联的病毒。

(2)对每个选定的病毒用哺乳动物特征进行训练,以预测可能对该病毒易感的哺乳动物宿主。

(3)将已知病毒与其哺乳动物宿主作为训练集,构建拓扑网络呈现病毒如何在其哺乳动物宿主间共享的全局视图,以预测其他的病毒与宿主的可能性关系。

训练采用机器学习领域中的复杂网络模型,首先生成一个特征集,其中包含所有关联的潜在模体的计数,然后使用特定的频率阈值计算关联性,评估训练集对每个预测对象模型的相对影响,最后通过预测自然界中可能存在哪些未知的物种水平关联(或已经存在但尚未记录)来评估这些关联被低估的程度。

2 研究成果

2.1 方法简述

预测已知病毒与潜在哺乳动物宿主或易感物种之间未知关联的机器学习驱动框架包括三个不同的视角:病毒、哺乳动物和网络。每个视角都从独特的有利位置(每种病毒、每种哺乳动物以及分别连接它们的网络)产生预测。

哺乳动物视角:对于网络中的每个哺乳动物,给定一组包含病毒特征(例如基因组、传播途径)的特征(预测因子)。

病毒视角:对于网络中发现的每个病毒物种,给定一组特征(预测因子),包括哺乳动物系统发育、生态学和地理分布。

网络视角:给定一组拓扑特征代表二分网络,包含了迄今为止对病毒-哺乳动物关联的大部分知识。

哺乳动物和病毒视角分别为宿主和病毒生成“局部”预测。这些局部预测是通过为每个宿主(具有两个或更多已知病毒)和病毒种类(具有两个或更多已知哺乳动物宿主)训练一套模型而得出的。网络视角则是将已知病毒与其哺乳动物宿主联系起来的网络,呈现了这些病毒如何在其哺乳动物宿主之间共享的“全局”视图。

最终的结果通过多数票进行了合并。作者的投票方法在所有指标上的表现明显优于其每个单独的组成观点,以及两个观点的任意组合。相比于从任何个人视角得出的结果,或通过加入任何两个视角得出的结果,这种全新的方式更好地提升性能,除了能很好地检测记录的关联外,还能对未知关联更有效地预测。

2.2 用例展示

文中所选取的例子分别为西尼罗河病毒(WNV)与棕果蝠(Rousettus leschenaultii)。文章通过这两个用例说明多视角框架的机制,并对每个已知或未知的病毒与哺乳动物之间的关联产生预测。文中首先分别考虑每个透视图,然后展示如何合并这些透视图以产生最终预测。

图1 西尼罗河病毒 (WNV) 和棕果蝠的最终和中间预测

上图分为四个部分,面板A预测易受WNV感染的60种哺乳动物;面板B展示棕果蝠身上存在的50种预测病毒;面板C预测的WNV-哺乳动物关联在每个哺乳动物顺序的三个视角的中值概率;面板D预测每个巴尔的摩组的三个视角中病毒-棕果蝠关联的中值概率。

2.3 哺乳动物与病毒视角

按照所述方法,哺乳动物与病毒视角分别构建相应模型,使用对应的表达特征进行训练,生成局部预测。以哺乳动物视角为例,每个哺乳动物物种都有自己的“局部”模型套件,使用病毒特征(如下表1)进行训练 ,以预测可能与该宿主相关联的病毒。采用这种局部预测的原因有两个:一是宿主易感性、病毒宿主范围的变化;二是类平衡。因此,通过局部训练这些模型,能够确定这些特征对每个宿主和每个病毒的影响,并根据已知哺乳动物宿主的特征为每个病毒合成新的阳性实例。

表1 构建哺乳动物模型的病毒性状和特征

2.4 网络视角

网络视角是病毒-哺乳动物关联的拓扑衍生网络特征,它与上述两个视角不同,它需要构建出病毒在其哺乳动物宿主之间共享的全局视图,通过潜在模体(potential motif)的计数来捕获二分网络的拓扑结构,这些模体捕获了病毒与其哺乳动物宿主间的间接途径,这些途径表明未知关联是否存在,并且能捕获、可量化。作者将这些途径转化为监督机器学习算法可以学习的特征,使之能够直接从网络结构中进行预测,潜在模体的计数仅限于病毒和宿主的三步自我中心网络(ego network)中。作者生成一个特征集,其中包含所有关联的潜在模体计数,并使用该数据集训练了几种机器学习方法。作者简单计算了每个焦点关联的潜在模体出现的次数,然后让机器学习算法检测哪些模体对预测我们网络中的链接问题特别重要。

下图2中,面板A主要展示潜在模体的概念;面板B表示模体空间:网络代表宿主(此处P. leo)和病毒(TBEV)的2步和3步自我中心网络(联合);面板C表示病毒-宿主双部网络中3,4,5节点的潜在模体;面板D说明了二分网络中模体特征的分布(每个焦点关联的潜在模体数);面板E表明模体特征(变量)对网络视角模型(SVM-RW)的变量重要性。

图2 病毒-宿主二部网络中的网络透视-潜在模体

2.5 对于病毒特征与哺乳动物特征的相对重要性的研究

前面已知,在多视角方法中,对于哺乳动物模型使用两种或多种已知病毒为每个哺乳动物物种训练一套模型(n  = 699,如果已知病毒与焦点哺乳动物物种相关,则响应变量 = 1,否则为 0);而对于病毒模型用用两个或多个已知哺乳动物宿主为每个病毒物种训练了一套模型(n  = 556,如果已知哺乳动物与焦点病毒物种相关,则响应变量 = 1,否则为 0)。由此,作者在文中分别评估了病毒性状(表1)对每个哺乳动物模型的相对重要性和哺乳动物特征对病毒模型的相对重要性。就病毒特征的相对重要性而言,训练出的模型可以反过来展示这些病毒特征在单个物种水平和聚合水平对模型做出贡献的变化。就哺乳动物特征的相对重要性而言,训练出的模型能够捕捉到这些特征如何在不同级别(例如巴尔的摩分类或传播途径)对病毒模型做出贡献的变化。

图3 结果(病毒)

上图3所示,面板A表示病毒特征对哺乳动物透视模型的可变重要性;面板B表示与每种病毒相关的已知和新哺乳动物物种的数量(为实现更好的可视化,狂犬病病毒被排除);面板C表示每种野生和半驯化哺乳动物(按哺乳动物顺序分组)的预测病毒数量。

图4 结果(哺乳动物)

上图4所示,面板A表示哺乳动物特征对病毒透视模型的可变重要性;面板B表示与每种哺乳动物相关的已知和新病毒的数量,标记的哺乳动物如下:偶蹄目、食肉目、手足目、灵长目、啮齿目和其他目中每一个的前 4 位(按新病毒数量);面板C表示选定顺序中的前18个属(按预测的野生或半驯化哺乳动物宿主物种的数量)。

2.6 对于哺乳动物宿主范围的研究

文中的研究结果表明,病毒的平均哺乳动物宿主范围为14.33 [4.78, 54.53],检测出的宿主范围相较以往检测的宿主数量平均增加了~3.18 [~1.23, ~9.86]。RNA 病毒的平均宿主范围与DNA 病毒平均宿主范围都有明显增长。表2列出了作者所构建的多视角框架中在巴尔的摩组级别的结果以及病毒的选定家族和传播途径。图3显示了作者的病毒预测的哺乳动物宿主范围以及在物种丰富的哺乳动物感兴趣顺序中每个物种预测的病毒数量的增加。

表2 每个巴尔的摩组、科和传播途径的

易感哺乳动物病毒的预测范围

2.7 验证

首先,所搭建的多视角框架文章中作者以三种方式进行验证:1) 针对一个保留的测试集;2) 系统地删除选定的已知病毒与哺乳动物的关联并试图预测它们;3) 针对外部数据源,包括使用针对野生哺乳动物及其病毒的详尽文献搜索提取的病毒-哺乳动物关联。

其次,文中结果处理分析中的投票方法比较新颖,并且表现优于任何个人观点或组合观点。改善最显著的是F1-score,其中个体视角得分如下:network = 0.104 [0.210-0.051],mammalian=0.115[0.009-0.064],viral=0.181[0.374-0.074]。

此外,作者进行一个系统测试来预测移除的病毒与哺乳动物的关联。在这个测试中,每次删除一个已知病毒-哺乳动物关联,便会重新计算所有输入,并试图预测删除的关联。结果显示,作者设计的框架成功预测了90%左右的移除关联。

最后,框架预测了外部获得的病毒-哺乳动物关联,其中宿主和病毒都包含在作者设计的管道之中,并且将研究工作结合哺乳动物和病毒视角时,有着比较准确的预测效果。

3 总结展望

本文采用分治法研究的多视角框架,将病毒、哺乳动物和网络特征分为三个独特的视角,每个视角独立预测关联来增强预测能力。框架成功帮助作者预测了已知病毒与哺乳动物宿主之间的20,000多种未知关联,这远远超过先前所检测出的关联数量,这表明目前的知识大大低估了野生和半驯化哺乳动物之间的关联数量。同时,文中构建完成的病毒-宿主相互作用的全局试图有助于识别和减轻当前与未来的人畜共患病和动物疾病风险。

之后的研究工作可以通过纳入更多不同的病毒特征来增强框架的预测能力,特别是在详细的遗传学以及病毒的地理分布和相关特征方面。宿主-病毒相互作用的预测因子的整合,例如宿主细胞中特定病毒受体的存在,也将极大地有助于完善模型,并创建可以添加到作者框架中的第四个视角。

参考资料

Wardeh, M., Blagrove, M.S.C., Sharkey, K.J. et al. Divide-and-conquer: machine-learning integrates mammalian and viral traits with network features to predict virus-mammal associations. Nat Commun 12, 3954 (2021). https://doi.org/10.1038/s41467-021-24085-w

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 介绍
  • 2 研究成果
  • 3 总结展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档