麦肯锡专家赐你三枚锦囊：搭建高质量医学 AI 研究项目

文章来源：企鹅号 - 机器之能

来源 |Harvard Business Review

编者按：这是一篇发表与《哈佛商业评论》的医学研究案例。文章作者包括 Rafiq Ajani，麦肯锡位于马萨诸塞州沃尔瑟姆的办事处的合伙人，并领导该公司的北美知识中心；Arnaub Chatterjee，麦肯锡北美知识中心的高级专家，也是哈佛医学院的教学助理；Aniketh Talwai，麦肯锡北美知识中心的专家；Jack Zhang，麦肯锡北美知识中心的专家。

这些专家集中介绍了麦肯锡北美知识中心与一家制药公司在非霍奇金淋巴瘤（NHL）领域的合作临床研究，通过机器学习技术对于患者的电子健康记录数据分析与其他数据融合处理分析，实现预测患者病情发展趋势以及寻找最优治疗方案。

基于该案例的实战经验，麦肯锡北美知识中心的专家们提取出构建医学领域 AI 研究项目过程中最为核心的三项指导原则，包括如何搭建完整的团队架构、如何整合有效数据集合以及多次迭代与验证开发的重要性，以供其他药物研发公司或者医疗研究机构分享和参考。

在医疗保健领，越来越多的真实数据域让研究人员兴奋不已。据估计，健康数据量每年增长 48％，而过去十年来，个人医疗数据的收集和体量正呈现高速发展的态势。

在这些数据中，电子健康记录（EHR）提供了产生新见解和重塑理解患者护理的的最大机会之一。（一份完整的电子健康记录通常包括患者的过敏史、医疗保险信息、家族遗传病史、免疫状况、身体状况或疾病信息、服用药物清单、住院记录、手术信息等。）

此前，分析 EHR 数据的瓶颈在于需要能够在短时间内处理大量数据的工具。当下，人工智能，更具体地说，机器学习，这已经开始打破计算能力的瓶颈，开始重塑药物研发和医学成像等领域的研究模式，但这只是个开始，如今，机器学习的触角开始伸向医疗保健领域。

下面来看看我们和一家制药工作的合作项目。该项目将机器学习应用于 EHR 和其他数据，以预测某种非霍奇金淋巴瘤（NHL）患者转向后期治疗可能出现的特征以及触发因素。该公司希望更好地了解该疾病的临床进展以及在患者病程的每个阶段最为适合的治疗方式。

从该公司的案例中，我们提取出将机器学习技术用于医学领域研究项目的三项关键指导原则，以帮助其他药物研发公司或者医疗研究机构搭建高质量的医学 AI 项目。

1、吸引到精准的利益相关者，才能产生有意义的假设以及获得来自组织的支持。

虽然很多时候，我们怀着满腔热情直接冲向数据并开始分析。但在此之前，更为关键的第一步是列出必须回答的关键业务问题并提出假设。构建一张完整的、可操作的假设列表，将帮助分析团队明确测试和证明或者反驳假设所需的数据类型。

重要的是要了解整个企业职能团队的关键利益相关者的观点，以确保假设包含正确的专业知识并为公司提供最高价值。这也有助于建立对分析的支持和信任。

在这种情况下，制药公司将其品牌、医疗和商业情报小组人员引入团队。当患者必须从一种疗法转移到另一种疗法时，为其可能发生的状况作出假设，同时分析这些转变背后的的触发因素。

例如，在试图推测疾病进展快速或缓慢的原因时，医疗团队对疾病的临床了解做出贡献，品牌团队则提供公司相关治疗产品的方案的解读以及医生如何使用它们，以及商业智能团队解释方案所使用的分析方法和数据集，还有目前业界对于该疾病的治疗和疾病课程的理解。

2、最佳数据集可能是数据集的组合。

确定一个广泛且丰富的数据集对于正确训练机器学习算法至关重要。在肿瘤学中尤其如此，在很长的历史时间内收集到许多患者，需要大量的变量集合，才能够以进行有效的分析。这其中包括年龄，性别，诊断史，药物和治疗史，实验室价值观和医院遭遇。

在我们的合作案例中，制药公司的分析小组意识到其内部数据没有捕获到足以预测患者转变的变量。因此，该小组采用了一种策略，在该策略中，它使用内部和外部数据，将肿瘤学特定的，集成的，结构化的 EHR 数据集与一些已经重复实验得到验证的公开数据进行融合。

所有数据都被拼接在一起并送入自动功能发现（AFD）机器学习引擎。该引擎能够在数小时内测试数百万个假设。该引擎探索了患者数据每个可能的变化，以查看是否有任何变量与向后期治疗效果具有统计学上的显著相关性。

从主题专家那里收集的见解有助于确保 AFD 结果具有临床相关性。例如，当结果表明升高的肝功能标志物与疾病进展相关，并且得到了医务人员的证实。虽然这不是他们之前考虑的因素，但在临床上是可能的。

3、反馈循环和多次验证是获得良好结果的关键。

往复多次的测试和学习过程对于开发精确模型至关重要。该制药公司的分析小组测试了 200 多项实验室数据值，主要覆盖慢性并发症和病史。机器学习有助于识别和筛选出引发病变的关键变量组合。

验证和改进模型将能够避免无关变量的干扰，以及减少变量的数量。

经过数周的迭代学习和验证，我们成功开发了一个模型来预测从初始诊断到后期治疗的进展。具体而言，机器学习能够从患者的治疗过程，实验室数据和用药病历中提取出特征值和触发因素，并且经过验证的特征值可用于对患者发生病变的概率和各种可能性进行评分和排名。

这些模型揭示了许多重要的见解，包括：

*选择实验室结果的异常，例如升高的肝功能指标，在某些情况下，可能预示着患者的病情恶化或转移到一下阶段，其可能性高达 140％。

*持续性治疗的患者转入下一病情阶段的可能性将降低 20％。

通过应用正确的数据，组织流程和临床知识，机器学习和人工智能可以在制药和医疗保健方面发挥重要作用。尽管现在看来仍存在一些局限性。例如，它可能很难解释一些复杂的模型所能得出的结论，并且标记最饥饿的模型所需的大量数据集可能是非常费力的。

然而，目前这些限制正在得到解决，比如，LIME（Local Interpretable Model-agnostic Explanations，局部可解释模型的不可知解释，用来理解复杂机器模型做出决策的方法的一项工具。）等技术有助于显示模型推理。与此同时，我们也在努力使用机器学习本身来标记数据集。

随着限制的开放，制药和医疗保健的机会将大大增加。那些已经开始利用机器学习的公司将拥有利用机器学习创造更为为先进的基础设施和流程。

发表于: 2018-10-292018-10-29 12:14:05
原文链接：https://kuaibao.qq.com/s/20181029B0RKVZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

麦肯锡专家赐你三枚锦囊：搭建高质量医学 AI 研究项目

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐