如何使用大数据和机器学习提高疫情初期的决策质量

导语:怎么能在有限的时间内,根据不完整的信息,做出最优的决定,成为了决策者的一大挑战。

此次新型冠状病毒疫情的发展迅速。相比于SARS三个月达到5000个确诊病例,此次疫情只用了不到一个月。

怎么能在有限的时间内,根据不完整的信息,做出最优的决定,成为了决策者的一大挑战。

面对此类挑战,世界卫生组织(WHO)的健康突发事件和风险评估部主任奥利弗·摩根(Oliver Morgan)博士,做过一个很有借鉴价值的研究。

他提出,量化数据工具和机器学习可以提高疫情爆发时期的决策质量。

疫情爆发的三个阶段和数据工具

通过观察过去十年间结核病控制、艾滋病毒预防,以及埃博拉疫情中的经验,奥利弗·摩根把疫情爆发分成了三个阶段,调查阶段、疫情扩大阶段,和干预控制阶段。

同时他总结了多种数据量化工具,包括数据可视化、数据管理、统计分析、全基因组测序、机器学习、地理空间分析等手段。

奥利弗·摩根提出,在疫情爆发的不同阶段可以混合使用以上数据量化工具,提高决策质量,评估决策效果。

【1】调查阶段:用R语言实现数据可视化

调查阶段是对疫情干预的第一步。

此阶段的特征是不确定性强,病例数少,并且病例多来自于对死亡或康复患者的溯源。

这个阶段,最重要的是对疫情和病例进行画像,因为这可以快速指导应对疫情的方法。

数据可视化可以尽早展现出疫情爆发的程度,是一个不错的画像工具。现在很多数据可视化工具正被迅速开发出来,特别是在R语言中。

作为一门计算机编程语言,R适用于统计计算和制图,可完成数据分析、统计建模、数据可视化。

帝国理工大学的Thibaut Jombart博士和一组科学家创建了R程序包OutbreakTools,并定义了新的类别obkData用于存储疫情数据。

obkData可存储的数据类型多种多样,包括:

1)个人数据(年龄,性别,症状发作)

2)带时间戳的样品和记录(拭子,血清学,保藏号等)

3)基因序列

4)联系信息

5)背景环境信息

6)系统进化树

强大的储存功能使得obkData适用于疫情数据的可视化以及后续分析。

比如下图对疫情发生的时间和国别进行了可视化。图中每个黑点代表一个人,横轴为时间,背景中每个颜色代表一个国家。

下图描述了不同性别的疫情患者在城市中的分布情况,其中红色为女性,蓝色为男性。

同时,obkData对感染者接触史的记载可以提前确定那些可能被感染的出行者。这样相关部门可以提前做好医疗服务的准备。

OutbreakTools还包括预测功能,比如下面两图中每种颜色代表不同的传染日期,通过传染强度,预测出疫情的衍生状况。

但是在疫情发展的初期,一个常会遇到的问题就是数据缺失的情况,这还会对疫情预测造成障碍。

这个问题在R和Python(也是一门编程语言)这里迎刃而解。R和Python中有多种方法处理缺失值和异常值,从而更加快速有效地整合信息,为决策者提供支持。

另外,R和Python还可以自动处理数据并减少数据清理、管理和准备的时间,提高疫情时期的决策效率。

【2】疫情扩大阶段:使用全基因组测序(WGS)和机器学习

疫情扩大阶段的重点除了进行人员、物流的部署,更重要的是找到疫情的致病因素,从而抑制疫情扩散。

随着全基因组测序(WGS)可用性的不断提高,科学家可以通过对提取的病例样本进行全基因组测序,分离出病毒,确定潜在的干预方案。

全基因组测序是对未知基因组序列的物种进行个体的基因组测序。测序期间,研究人员收集DNA样本,然后确定组成人类基因组的30亿个核苷酸的身份。

比如在此次新型冠状病毒疫情中,国内的研究团队收集了武汉金银潭医院5例重症肺炎患者的临床数据和支气管肺泡灌洗液(BAL)样本,利用下一代测序技术检测灌洗液中提取的核酸。最后,研究团队分离出病毒并建立起最有可能的系统发育树。

测序结果显示,5个样本均存在一种此前未知的β属冠状病毒(SARS、MERS亦为该属)。

此外,它们都包括一个完整的开放阅读框8基因区域,进一步表明新病毒可能起源于蝙蝠。

截止到2月1日,全球范围内已经测出了大约20个新型冠状病毒基因组序列,它们都非常接近,所分析的病毒没有太多的多样性。这说明,新型冠状病毒不需要突变即可适应和传播。

所以,使用全基因组测序可以得出很多信息。

但是使用全基因组测序数据需要大量计算机算力,处理大量数据以及应用复杂的数据处理和分析方法,这超出了大多数传染病学家的能力,需要数据专家的介入。

机器学习是疫情爆发时可用的另一种工具,尽管目前处于起步阶段。

机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习已被用于分析埃博拉疫情,并与R和Python相似,能处理数据丢失的情况,并对疫情传播趋势做出预测。

世界卫生组织当前使用机器学习从大量在线数据中检测新的公共卫生事件的警报,并使用开源的传染病智能(EIOS)平台,将自然语言处理技术用于数据的处理、分类和组合。

这些新工具的应用可能会进一步扩展至社交媒体数据、消费模式数据、旅行数据等,从而更深入地了解消费者行为与疫情爆发之间的关系。

比如通过手机数据了解人群流动的模式,或通过遥感数据了解环境中存在的风险。

将这些数据源与其他传染病数据分析相结合,可以协助决策者对疫情的发展进行实时监控。

【3】控制干预阶段:通过建模优化干预措施

控制干预阶段特点是强监控,以及不断优化对疫情的干预措施。

有效的疫情干预需要良好的物流计划,以确保物资能够及时输送到最需要的地点。如果低估了疫区的需求,人们可能会因此丧生,疫情可能得不到很好的控制。高估了需求则会增加成本和资源浪费,减少可供给其他疫区的物资。

而如果计算物资需求的时间太长,供应可能会延迟到达,削弱疫情控制措施的效果。

显然,当疫情爆发的规模和演变存在不确定性时,要在物流计划中避免这些问题是特别困难的。通过提高对爆发的量化估计的准确性和及时性,提供物资和医疗服务可以优化对于疫情爆发的应对。

决策者可以通过组织建模人员、运营人员和现场干预团队之间的有效合作来了解疫情的物资供应需求。

在应对2017年孟加拉的白喉疫情时,伦敦卫生与热带医学学院和世卫组织利用实地小组收集的数据对疫情规模进行建模,并估计需要的急诊病床和医疗队的数量。

西非埃博拉病毒爆发期间也使用了量化方法来估计隔离床的需求量。在供应有限时优先分配疫苗等资源也很重要。

奥利弗·摩根博士等的研究表明,大数据和机器学习可以有效管理疫情爆发时期的数据,从而提高疫情爆发时的决策质量。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200204A08JW600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券