首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

构建更好的传染病探测方法:利用机器学习算法确定引发疫情的野生物种

2014年4月,由10位生态学家、4位兽医和1位人类学家组成的团队前往几内亚的美良度村。就在此前,世界卫生组织官员确认了几内亚一系列可疑的死亡病例是由埃博拉病毒爆发引起的。这个团队肩负着调查任务,要确定疫情是如何爆发的。名为埃米尔(Emile)的2岁幼童是如何染上埃博拉病毒,成为首例埃博拉患者的呢?

━━━━

我们认为,人类是因为接触了受感染的动物而感染埃博拉病毒的,因此生态学家一直在寻找携带并传播病毒的动物“宿主”(通常其自身不会患病)。每当埃博拉病毒这类人畜共患病毒爆发时,科学家们便加紧确定宿主,以便公共卫生官员确定传播途径,并在可能的情况下防止更多的“溢出事件”,即病毒从动物宿主传播给人类的事件。这就是今天应对疫情爆发的事后反应模式。在美良度村,埃博拉调查员采访了村民,研究了附近森林中的灵长类动物种群,并捕捉了一些蝙蝠。2014年12月,他们发表了一篇论文,认为小埃米尔可能是从一群以昆虫为食的蝙蝠那里感染了埃博拉病毒,那些蝙蝠藏居住一个树洞里,距当地孩子们经常玩耍的地点不远。但在调查队抵达村子之前,树就已经被烧毁了,蝙蝠不见了,所以调查人员们并不能完全肯定这一点。

以往有关埃博拉病毒宿主的研究对象大都集中在果蝠,而调查队的发现可能会促使科学家研究这种食虫蝙蝠,这也许会使卫生官员对与这种蝙蝠居住地紧密相邻的地区保持高度警惕。有没有办法对抗埃博拉病毒和其他人畜共患病?我们能否提前预测疫情的爆发呢?

作为纽约州米尔布鲁克的卡里生态系统研究所的疾病生态学家,我在研究中使用了计算机建模和机器学习方法来预测未来哪些野生物种可能引发疫情。我的模型创建了潜在宿主的“画像”,揭示了一系列特征,以此区分出哪些特别的物种可能携带对人体有害的微生物。然后,我用算法对从未筛查过会否导致人畜共患病的上百种甚至是数千物种进行分类整理,根据给定物种与画像的相似性,计算其成为病原宿主的可能性,模型给出了一份疑似宿主清单。

我和同事们本着科学探索的精神,以紧迫的使命感开展这项工作。世界各地爆发的传染病越来越多,美国国际开发署估计,新发传染病中约有75%是人畜共患病。如果能够预测哪些物种可能携带能够传播给人类的传染病,我们就可以监控人类与这些生物互动的潜在热点地区。希望有一天,生物学家能够像气象学家预报天气那样预测传染病的爆发。不过其中的一个主要区别在于:气象学家无法阻止风暴的到来,但我们或许能够防止疫情的爆发。

━━━━

要了解迄今为止人类应对传染病暴发的方式为何如此被动,看看埃博拉疫情就知道了。假设你是野生生物学家,试图在刚果热带雨林寻找这种病毒的最初宿主。刚果热带雨林的面积和阿拉斯加差不多,生活着超过1400种哺乳动物、鸟类以及无数种昆虫。如果有能力,你可以尝试对每一种能够捕捉到的动物进行取样检查:常见物种可以制作多个样本,偶尔还可以为少数珍稀物种制作单个样本。

即使是这样,你可能也无法达成目标。宿主物种中只有一小部分种群会被感染,考虑到埃博拉爆发的间歇性,人们认为埃博拉病毒在其动物宿主种群中的流行度非常低。此外,还可能有多个宿主物种,而你却试图在不断变化的动态环境(动物随季节迁徙并因栖息地遭到破坏而迁移)中找到全部宿主。即使找到一只受感染的动物,可能也很难发现埃博拉病毒,因为动物体内的病毒数量可能随季节或动物的应激水平而发生变化。

在以往寻找埃博拉病毒野生宿主的调查中,生物学家已在几百个物种中收集了三万多个个体。虽然已在若干动物的血液中检测到了曾经感染的迹象(即抗体),但尚未在活体动物体内分离出活病毒。生物学家不会放弃探究,但如果有其他方法出现,无疑会受欢迎。

我在研究中使用了机器学习算法,该算法应用大量有关野生动物的非结构化数据,确定对预测宿主物种最有帮助的关键特征。我使用的算法是已经存在数十年的分类与回归树工具的一种延伸。我这项研究的创新之处在于,使用这些方法来应对生态和全球卫生问题面临的巨大挑战。

━━━━

我与乔治亚大学的同事们对啮齿类动物进行了研究,成为了该方法运作方式的实例。目前世界上有超过2200种啮齿类动物,比其他任何哺乳动物都多。啮齿类动物携带的病原体也很多:据我们保守估计,已知可传播1~11种不同人畜共患病的啮齿类动物约有200种。例如,可导致致命肺部疾病的汉坦病毒和导致腺鼠疫的细菌,都有可能给人类带来灾难。

要训练算法找到更多这类病毒携带者,我们输入了80%啮齿动物物种的数据,其余物种的数据随后将用于试验平台。我们给每个物种设定一个二进制标签:“1”表示已知其携带一种人畜共患病毒,“0”表示其宿主身份不明。我们还输入了来自多个不同信息源的信息,如大规模PanTHERIA哺乳动物数据库,该数据库整合了数千次实地研究中有关啮齿动物物种的生理、行为、地理范围、社会结构等数据。

算法创建了一个分类树,具体方法是训练数据、确定分离点(产生截然不同的两个类别的特定变量的值)。算法反复重复这一步骤,创建分叉树枝,直到所有数据都被归到一系列分组柜,即分类树的树叶中。它还可以创建难度稍高的回归树,回归树的树叶并不是简单地展示针对分离点(如“每年一胎”与“每年超过一胎”)的二进制响应;相反,它显示的是连续的值(例如每年一胎、两胎、三胎和四胎)。

研究中,该算法随机选择一个特征,将啮齿类动物分成两个由“1”和“0”组成的同质亚分组,创建分类树。算法已尽其所能,但依然会不可避免地出现分类错误。随后算法会选择第二个特征,然后是第三个特征,以此类推,直到所有的啮齿类动物被分到分类树的不同树叶中。这些特征包括静止代谢率、成年动物体型大小、性成熟年龄、同胎产仔数、年产仔胎数、组群体数量以及另外五十多项类似特征。

这种方法有一个主要的弱点:首先选定的特征对结果影响很大。选择不同特征,会产生不同的分类树,比如选择“组群体数量”或“代谢率”作为第一个特征,则会产生不同的分类树。如果只使用其中一种分类树,我们就不能准确地预测一种新的啮齿类动物是否为人畜共患病毒的疑似宿主,导致预测成功率很低;这样预测的准确率比抛硬币也好不了多少。为了克服这一缺点,我们采用了被称为“boosting”的迭代过程。这里,算法关注的重点是在任何给定的分类树中出现的错误,并在创建新的分类树时优先考虑这些数据。这种方法会生成数百或数千个弱预测树,这些预测树作为一个整体使用时可产生极其准确的预测模型。

我们对20%尚未纳入训练数据集的啮齿类动物测试了这种啮齿类动物分类算法,预测物种作为病原体宿主的准确率达到约90%。当深入地探究算法是使用哪些特征来作出准确预测时,我们发现,它是基于独特的特征剖析图确定人畜共患病宿主的。你可能已经预料到了,算法并没有挑选出存在密切关系的物种。相反,它发现宿主物种的特点是生命周期“发展迅速”:增长率快、性成熟早、繁殖频率高。这一发现与对个体啮齿类动物的深入研究完全相符,表明宿主物种的免疫系统可能不太敏感。这些动物可以容忍病原体的存在,因为它们的模式是“寿命短,死亡早”:他们的免疫系统并不是第一优先级,因为它们只需健康地活到能够繁衍后代即可。剖析还表明,宿主物种生活的地域范围往往较大。这些动物可以在各种生态栖息地生存,也可以很好地适应人为创造的分散、异构环境。

我们的研究不仅产生了科学的见解,还提供了可行的信息。该算法分类整理了2200种啮齿类动物,提供了一份新的疑似宿主清单。一些之前因宿主身份不明而被分为“0”的物种更适合已知的疾病携带者类别“1”。这一点很快就得到了验证。在我们准备发表成果时,其中的两个疑似物种已被确认为新的人类传染病宿主。其中一种是加拿大和美国北部本土物种——红背田鼠(Myodesgapperi),该物种携带导致包虫病(多个器官形成囊肿的一种严重疾病)的寄生虫。研究人员还确定小亚细亚本土的一种田鼠——贡德氏田鼠(Microtusguentheri)是利什曼病(导致皮肤溃疡)的又一宿主。

我们的疑似宿主清单为生物学家提供了一个机会:他们可以尝试实地 “检测”我们的研究结果。而这些实地研究反过来又会为我们的工作提供参考。随着监测的继续以及生物学家发现新的病毒携带者,我们的数据库将越来越丰富,模型的预测将越来越准确。该算法将继续演进发展,继续学习。

现在我们正利用这些方法帮助对抗其他毁灭性疾病。目前,我们正在努力确定还有哪些蝙蝠种类可能是导致出血热的线状病毒(如埃博拉和马尔堡病毒病)的宿主。我们希望这些研究结果能够说明,为何某些蝙蝠能承受那些对人类等灵长类动物而言具有致命性的传染病。

我们的模型已经确定了监控清单上的一些蝙蝠种类。令我们惊讶的是,一些似乎能够携带类埃博拉病毒的物种生活在非洲以外、那些从未有过人类出血热爆发正式报道的国家。研究结果给生物学家提出了一个问题:如果疫情真的没有在这些地区爆发过,那是为什么?它们还给公共卫生官员提出了一个问题:他们是否应该有所担忧?

━━━━

生态学旨在探索在地球上争夺生存空间的数十亿生物,了解它们之间不断变化的复杂的相互作用,而机器学习方法具备该学科所需的一些关键优势。

例如,我们的算法可以处理不完备的数据集。生物学家不可能了解迄今已经编目的160万个物种的一切细节,更不必说尚未编目的数百万物种了。而该算法则将任何特定数据的存在或缺失视为另一种可用作分类树分离点的变量。

此外,我们的方法抵消了可能导致传染病研究结果不准确的取样偏差:在美国和欧洲等富裕地区进行的大量野生动物调查得到了关于这些地区物种的高质量数据。生物学家在研究单个宿主物种时还可能陷入戒备性偏差:越是寻找某种东西,就越有可能找到。因此,他们如果发现沟鼠携带疾病X,很可能也会为疾病Y和Z进行取样,得到的结果也许是一些物种携带大量病毒,而其他物种是否携带病原体却尚未检查。

我们的方法侧重物种的固有特性,可以将这种偏差的影响减到最小。例如,如果算法将注意力集中在体型较小的啮齿类动物,那么将从世界各地抽取物种(因为小型啮齿类动物不仅会生活在富裕国家,一样可能生活在贫穷国家)。利用物种的内在生物学特征预测其是否是宿主,可以避免落入戒备性偏差的陷阱:以能够进行监视的地区为中心作出预测。另一方面,针对数据严重缺乏的情况,能采取的措施不多。如果没有某个物种的数据,也就不可能预测其作为宿主的几率。我们的研究表明,削减基本的科学基金会产生巨大的连锁反应:了解巴布亚新几内亚无名鼠类的生活周期的确是值得的。

机器学习还可以很好地处理复杂性的问题。生态分析可以轻易使用几十个变量,但这些变量之间的相互作用往往不明确。例如,虽然有充分的证据证明动物体型大小和代谢速率有特定的数学关系,可新生幼崽的体型大小与代谢速率的关系却不太清楚。变量越多,要了解其复杂性和隐性的相互作用就越难。

但我们的算法不要求我们为这些相互作用设置任何规则。相反,算法让数据自己去说明。如果特定的变量组合可以提供较高的预测精确度,模型就会识别这些变量并提供给研究人员作进一步说明。算法不关注变量的相互作用;它只关注一个目标,即最大限度地提高预测的准确性。然后人类科学家即可采取进一步的行动。我们的工作是查看对预测最为重要的变量,说明这些变量所揭示的关于人畜共患病宿主的生物学特征。

要在预测甚至预防人畜共患病爆发这一宏伟目标上取得进展,仅了解与哪些宿主接触会传染哪些疾病还不够。生物学家们需要了解的是,特定的物种为什么特别?我们的方法为这个问题提供了一个线索:使一些动物成为致命传染病的携带者和传播者的生物学机制。

当然,人类对疾病爆发也有影响,这些疫情通常是因为人类与野生动物直接接触或家畜与这些野生动物接触引起的。例如在马来西亚,猪被果蝠携带的尼帕病毒感染,人类接触受感染的猪时也被传染了这种病毒。正是由于人类砍伐森林,破坏了这些果蝠的栖息地,它们才开始在果园和猪场觅食。

城市化、森林砍伐和狩猎会继续使人类与可能携带野生新型疾病的野生物种接触。我们同处一个生态系统,而疾病也源于这个复杂的系统。我们才刚刚开始了解这些生态动力学规律。预测宿主物种是相当大的挑战,但我认为这只是挑战的一部分,更大的挑战在于,人类该如何与这个星球上的野生动物和谐共存。

作者:Barbara Han

>>>本文为原创,转载请回复。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180106G0D71J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券