AI将帮助我们应对下次流行病，但不是这次！| MIT科技评论

数据科学人工智能

发布于 2022-03-31 15:32:08

3090

发布于 2022-03-31 15:32:08

如果希望 AI 下次发挥作用，有些事情需要改变，而你可能不喜欢这么做。

AI 最先发现疫情的到来，至少故事是这么说的。12月30日，人工智能公司 BlueDot 利用机器学习监测到全球传染病的爆发后，向其客户，包括各国政府、医院和企业，发出预警称中国武汉的肺炎病例出现了不寻常的激增。九天后，世界卫生组织才正式宣布我们大家都知道的 Covid-19。

BlueDot 并不是唯一做出这种预警的机构。波士顿儿童医院一项名为 HealthMap 的自动化服务也捕捉到了这些最初的迹象。总部位于旧金山的 Metabiota 运营的一个模型也是如此。AI 能在世界的另一边发现疾病的爆发是相当惊人的，早期预警可以拯救很多生命。

然而，AI 到底对当前的疫情防控起到了多大的帮助？这是个很难回答的问题。像 BlueDot 这样的公司通常对他们向谁提供信息以及如何使用信息守口如瓶。一个人类团队宣称他们和 AI 在同一天发现了疫情。其他一些把 AI 被当作诊断工具或者帮助寻找疫苗的项目仍处于早期阶段。即使他们成功了，也可能需要几个月才能把这些创新成果交到需要的医疗人员手中。

炒作远远大于实际。在许多新闻报道和新闻稿中出现的类似于“人工智能是对抗疾病的一种强有力的新武器”的说法只是部分正确，而且有可能适得其反。例如，对 AI 的能力过分自信可能会导致不知情的决策，将公共资金输送给未经检验的人工智能公司，而牺牲对药物项目等行之有效的干预措施的投入。这对AI领域本身也不利：过高但失望的预期会导致人们对 AI 的兴趣骤减，并导致缺乏资金支持。对于人工智能来说，这种情况在过去出现过多次。

所以实际情况是：人工智能这次肯定不会把我们从冠状病毒中拯救出来。但如果我们做出一些重大改变，它很有可能在未来的流行病中发挥更大的作用。这些改变大多数都不容易做出，有些甚至是我们不太喜欢的。

人工智能主要能在三个领域发挥作用：预测、诊断和治疗。

1 预测

像 BlueDot 和 Metabiota 这样的公司使用一系列自然语言处理（NLP）算法来监控世界各地不同语言的新闻媒体和官方医疗报告，标记它们是否提到高优先级的疾病，如冠状病毒，或是更流行的疾病，如HIV或肺结核。他们的预测工具还可以利用航空旅行数据来评估交通枢纽中感染者抵达或离开的风险。

结果相当准确。例如，Metabiota 在2月25日发布的公开报告中预测3月3日全球将有127000例累积病例。虽然比实际情况超了约30000例，但是其数据科学主管马克·加利文（Mark Gallivan）表示这仍然在误差范围之内。报告还列出了最有可能报告新病例的国家，包括中国、意大利、伊朗和美国。可见，这个预测结果确实不错。

其他机构也关注社交媒体。位于北卡罗来纳州夏洛特的数据分析公司 Stratifyd 正在开发一种人工智能系统。该系统可以扫描 Facebook 和 Twitter 等网站上的帖子，并与多个官方数据源进行交叉比对，包括美国国家卫生研究院、世界动物卫生组织和全球微生物识别数据库（储存基因组测序信息）。

这些公司的工作的确令人印象深刻。这也显示了近年来机器学习的进步。几年前，谷歌曾试图用其命运多舛的流感追踪系统 Flu Tracker 预测疫情，但因并没有预测到2013年的流感高峰而遭到搁置。如今什么发生了改变？主要是软件监测更广范围的信息源的能力大大提升了。

无监督机器学习也很关键。它能让人工智能在噪音中识别模式（而不是在预选的样本上训练），从而找出你可能没有想到的结果。Stratifyd 首席执行官汪晓宇（Derek Wang）表示：“当你做预测时，你是在寻找新的行为方式”。

但是有了预测结果之后该怎么办呢？BlueDot 的最初预测准确地指出了病毒传播途径中的几个城市。这本可以让当局做好准备，向医院发出警报，并采取遏制措施。但随着疫情规模的扩大，预测变得不那么具体。Metabiota 关于某些国家将在下周受到影响的警告可能是正确的，但很难知道如何处理这些信息。

更重要的是，随着疫情的发展，所有这些方法都变得不那么准确。主要是因为 AI 很难获取到关于 Covid-19 的可靠数据。新闻来源和官方报道提供了不一致的说法。人们对症状和病毒如何在人与人之间传播感到困惑。媒体可能夸大事实，当局可能贬低事实。而且，预测一种疾病可能从几十个国家的数百个地点传播到哪里，远比预测最初几天疫情可能在哪里传播要艰巨得多。“噪音总是机器学习算法的敌人”，汪晓宇说到。事实上，马克·加利文承认Metabiota 的每日预测在最初的两周左右更容易作出。

马克·加利文表示，最大的障碍之一是缺乏诊断测试。他说：“理想情况下，我们需要立即检测新型冠状病毒，并至少每天对每人进行一次检测”。我们也不知道人们在家工作、自我隔离、洗手或不洗手的行为，会有什么影响。如果你想预测下一步会发生什么，你需要对现在发生的事情有一个准确的描述。

医院内部的情况也不是很清楚。数据和 AI 咨询公司Pactera Edge的艾哈迈尔·伊纳姆（Ahmer Inam）表示，如果公共卫生数据没有像美国等许多国家那样被锁在政府机构内，那么预测工具会表现得更好。这意味着人工智能必须更多地依赖在线新闻等现成的数据。他说：“当媒体发现一种潜在的新的医疗状况时，已经太晚了”。

但是，如果 AI 需要更多可靠数据源才能在这一领域发挥作用，那么获取这些数据的方式可能会引起争议。我采访过的一些人强调了这种令人不安的权衡：为了从机器学习中获得更好的预测，我们需要与公司和政府分享更多的个人隐私数据。

Apixio 公司的医学博士兼首席执行官达伦·舒尔特（Darren Schulte）认为，应该开放美国各地的医疗记录，以便进行数据分析。这可以让人工智能自动识别出由于潜在条件而受到Covid-19 感染风险最大的个体。资源可以集中在那些最需要的人身上。舒尔特表示，读取病历和提取救治信息的技术已经存在。问题是，这些信息分散在多个数据库中，并由不同的医疗服务进行管理，这使得它们更难分析。他说：“我想把人工智能投入数据海洋中，但现实是数据位于许多小湖泊中。”

国家间卫生数据也应该共享，艾哈迈尔说：“病毒不会只在某个地缘政治边界范围内活动。”他认为，国际协议应该迫使各国发布诊断和住院的实时数据，然后这些数据可以输入到全球范围的流行病机器学习模型中。

当然，这种想法可能只是一厢情愿。世界不同地区对医疗数据有不同的隐私规定。许多人已经在让第三方访问我们的数据方面犹豫不决。新的数据处理技术，如差分隐私和在模拟数据中进行训练，可能会提供一种新的解决方法。但这些技术仍在改进中，就国际标准达成一致仍然需要更多的时间。

对目前而言，我们必须充分利用现有的数据。汪晓宇给出的答案是，确保人类能够理解机器学习模型所表达的内容，确保摒弃那些听起来不真实的预测。他说，“如果一个人过于乐观或依赖一个完全自主的预测模型，这是会出问题的。” AI 可以在数据中找到隐藏的信号，但人类必须将这些点连接起来。

2 早期诊断

除了预测流行病的进程外，许多人希望能够借助 AI 来识别感染者。人工智能在这方面有着良好的记录。用于检查医学图像的机器学习模型可以捕捉到人类医生错过的疾病的早期征兆，从眼疾到心脏病再到癌症。但这些模型通常需要大量的数据来学习。

过去几周，网上已经发布了一些预印本论文。这些论文表明机器学习可以从肺组织的CT扫描中诊断出 Covid-19。西挪威应用科技大学机器学习和医学成像专家 Alexander Selvikvåg Lundervold 表示，如果经过训练，能够在图像中发现疾病的征兆，我们可以期待人工智能最终能够在患者身上检测到Covid-19的迹象。但目前尚不清楚成像是否可行。首先，在感染后的一段时间内，疾病的体征可能不会在扫描中显示出来，这使得它作为早期诊断并不十分有用。

中国湖北省负责危重 COVID-19 患者的呼吸科专家范忠杰博士，正在阅读CT扫描图像。

更重要的是，由于到目前为止可获得的训练数据太少，很难评估在线发布的方法的准确性。大多数图像识别系统，包括那些在医学图像上训练过的系统，都是从最初在 ImageNet 上训练过的模型调整而来的。ImageNet是一个广泛使用的数据集，包含了数以百万计的日常图像。Lundervold 说：“要对一些接近 ImageNet 数据的简单数据进行分类，比如狗和猫的图像，只需很少的数据就可以完成，但对于医学图像中的细微发现，则需要更多的数据。”

这并不是说它不会发生，人工智能工具有可能被用来检测未来疾病爆发的早期阶段。但我们应该对今天人工智能医生诊断 Covid-19 的许多说法持怀疑态度。同样，共享更多的患者数据将有所帮助。机器学习技术也将有所帮助，即使只有很少的数据可用，也能让模型得到训练。例如，少样本学习（人工智能可能从少数结果中学习模式）和迁移学习（人工智能已经接受过做一件事的训练，可以很快适应做类似的事情）是有希望的进步。但这些技术仍在发展过程中。

3 万灵药

如果使用 AI 来帮助研发疾病治疗方法，数据也是必不可少的。识别潜在候选药物的一种技术是使用生成设计算法，生成大量候选结果，然后对它们进行筛选，以突出那些值得更仔细研究的结果。例如，这项技术可以用于快速搜索数百万个生物或分子结构。

斯坦福国际研究院（SRI International）正在合作开发这样一种 AI 工具。它利用深度学习来产生许多新的候选药物，然后科学家可以评估其疗效。这改变了药物发现的游戏规则，但要让好的候选药物成为可行的治疗方案，还需要几个月时间。

理论上，AI 也可以用来预测冠状病毒的进化。艾哈迈尔设想可以利用无监督学习算法来模拟所有可能的进化路径。然后你可以在混合疫苗中加入潜在的疫苗，看看病毒是否会发生变异从而产生耐药性。他说，“这将使病毒学家领先病毒几步，并创造疫苗，以防这些末日突变发生。”

这是一个令人兴奋的可能性，但却是一个遥远的可能性。我们还没有足够的信息来说明病毒是如何变异的，因此这次还不能模拟它。

同时，最终的障碍可能是管理者。汪晓宇表示，“我最想改变的是决策者和 AI 之间的关系。”人工智能将无法预测疾病爆发本身，无论它得到多少数据。他说，让政府、企业和医疗领域的领导人相信这些工具，将从根本上改变我们对疾病爆发的反应速度。但这种信任需要从一个现实的角度出发，即人工智能现在到底能做什么，不能做什么。只有这样，下次我们才可能会做得更好。

充分利用人工智能需要大量的数据、时间和许多不同的人之间的智能协调。所有这些现在都极度缺乏。

作者 Will Douglas Heaven，来源2020年3月12日MIT科技评论。英文原文地址如下： https://www.technologyreview.com/s/615351/ai-could-help-with-the-next-pandemicbut-not-with-this-one/?from=timeline&isappinstalled=0

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-03-27，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习