整个医疗保健链中的利益相关者正在寻求将人工智能(AI)纳入其决策过程。从早期药物开发到临床决策支持系统,已经看到了AI如何提高效率和降低成本的示例。本文讨论了应优先考虑的一些关键因素,以使AI在整个医疗保健价值链中成功集成。特别是,研究者认为对模型的可解释性的关注对于深入了解潜在的生物学机制并指导进一步的研究至关重要。此外,讨论了在任何AI框架中集成各种类型的数据以限制偏差,提高准确性并为医学的跨学科性质建模的重要性。
1
从实验室到临床的AI应用
近年来,人工智能技术在医疗保健研究中的使用急剧增加。产生和存储前所未有的大型数据集以及扩大计算规模的能力使AI蓬勃发展。大数据革命最大程度地增强了AI的子领域机器学习(ML),其中学习是通过暴露于预先存在的大型数据集来驱动的。这些发展共同为AI创造了新颖而令人兴奋的机会,可以在多个阶段积极影响医学领域。
图1人工智能在医疗领域中的应用。
AI最直接转变的医疗保健子领域是在皮肤病学、放射学或病理学等领域中基于图像的诊断方法。在一项开创性研究中,Esteva等人利用Google Inception卷积神经网络(CNN)架构从皮肤病变图像中对非黑色素瘤和黑色素瘤皮肤癌进行分类,并获得了与专家同等的结果。在最近的一项研究中,Campanella等人展示了AI如何通过使用针头活检病理切片的数字化图像作为模型中的特征来准确地区分前列腺癌。
这些方法都使用了一种称为深度学习(DL)的ML类型,它是深度超过三层的神经网络,是计算机视觉领域的重要组成部分,旨在广泛模拟人脑中神经元的活动。传统上训练神经网络时,特征(在模型中输入的不同数据)和每个特征的重要性之间的关系是未知的。因此,每层中每个神经元的权重是随机分配的。但是,这可能会导致训练时间变慢,因为一个人的模型必须从头开始“学习”这些关系。预训练神经网络,使用先前训练过的模型的权重初始化网络的能力允许更健壮的模型,这些模型可以更快地进行训练,从而使其非常适合复杂的多维问题。尽管DL经常因缺乏可解释性和计算成本而受到批评,但这些方法显示出的准确性与受过训练的临床医生相当,或在某些情况下优于训练有素的临床医生。
AI驱动的诊断背后的主要驱动力之一是可用于训练算法的大量图像。电子健康记录(EHR)是大数据的另一个来源,为基于AI的分析提供了巨大的潜力。EHR提供了一个独特的机会来利用广泛的时间序列患者数据,其中包括有关诊断、治疗、复发和合并症的信息。毫不奇怪,人工智能研究人员已经利用这些数据使用线性模型和神经网络创建了预测模型,用于各种患者护理问题,例如患者再次入院或发生特定医疗事件的风险。
除了DL,线性模型对于在医学中采用AI也是必不可少的。线性模型有很多不同的种类。但是,它们都依赖于这样的事实,即特征与所预测的变量之间存在潜在的线性关系。这个基本原理无疑限制了线性模型在复杂情况下的适用性。但是,它使研究人员可以清楚地了解每个功能对预测的影响,从而使其难以解释。因此,这可能很有吸引力,尤其是在生物学中,需要对底层机制有清楚的了解。例如,在临床试验空间内,Geeleher等人训练了线性模型来利用患者的遗传状况预测药物疗效。近年来,线性模型已成为理解基因组学对药物功效的影响的标准方法。
还建议使用AI为患者创建工具,而不是专门为临床医生和/或研究人员创建工具。具体来说,已经引入了聊天机器人,该机器人利用称为自然语言处理(NLP)的AI的专门领域,以帮助一般医学素养和诊断。Comendador等。创建了Pharmabot,这是一款专门为帮助父母或患者解释通用儿科药物的机器人。其他示例包括Ni等人的工作,其中他们创建了聊天机器人Mandy,该聊天机器人将便利与初级保健患者进行访谈以自动化患者摄入并开始诊断过程(图1)。总体而言,面向患者的应用程序是合并AI的一个有趣领域,它有可能完全改变当前的患者护理模式。
受AI影响的医学的另一个主要领域是早期/临床前药物开发,该领域受高失败率困扰,其中超过98%的所有临床前资产在投放市场之前就失败了。随着高通量筛选和基因组技术的出现,研究人员变得更容易获得可以输入到AI框架中的大规模,受控实验数据集。最近,我们的小组和其他研究人员表明AI可以利用庞大而多样的数据集来解决药物开发的多个阶段,例如识别新的靶标或药物候选物,将现有化合物定位为新的适应症或根据预测的不良事件使候选化合物脱险(图1)。
对AI驱动的药物发现的兴趣最近导致了许多财团的努力。例如,逆向工程评估和方法对话(DREAM)项目组织了各种挑战,重点是临床前研究问题,向社区开放以建立和测试计算模型。2014年,DREAM项目与美国国家癌症研究所(NCI)合作开放源代码,以利用基因组和蛋白质组学数据预测乳腺癌中的药物敏感性。最近,阿斯利康(AstraZeneca)与DREAM合作,利用高通量功效数据围绕药物组合协同效应的预测提出了新的挑战,其中顶级方法预测了大多数协同药物组合,其错误率与生物学重复相同。
总而言之,我们已经看到了如何使用广泛的AI算法(线性模型,神经网络,NLP等)来利用多种数据类型来解决医学多个方面的问题。
2
何时以及如何使模型可解释
何时承担可解释性的重担
关于AI(尤其是DL)与医学的集成的最大批评之一是认为AI是“黑匣子”。这是指这些算法如何进行预测时缺乏明确性和透明度,这归因于DL要求大量变量(即每个神经元的权重)和复杂的基础结构(体系结构,损失函数,激活函数等)。缺乏模型的可解释性导致科学界显着地退缩,因为很多时候,预测背后的“原因”与预测本身一样重要。这是该领域内一个经过认真辩论的主题,其中许多都指向由于伪像而实现高精度的模型示例。例如,如果一个人试图预测患者的白细胞计数并使用一天中的时间作为输入,那么这可能会导致表面上较高的准确性,因为AI知道后来抽血会导致白细胞计数较低。该结果是由混杂影响所驱动的,在大多数医院中,深夜抽血大多是在紧急情况下进行的,在紧急情况下患者更可能有较低的白细胞计数。尽管此类因素可能有助于提高报告的准确性,但它们在前瞻性预测中实际上没有用。
当前,有大量的研究工作正在打开难以解释的模型的黑匣子。许多人希望为临床任务建立可解释的DL模型可以帮助加速这些方法在现实世界中的实施。如果临床医生可以轻松地理解为什么模型预测了某种诊断/预后,他们将更愿意将其用于实际患者,因为他们可以减轻对模型完全基于伪影进行预测的担心。但是,在诸如AI在诊断中的应用的情况下,建议的工作流程将用于预测模型以指导人类决策,而医师/医学专家会审查每个单独的预测,因此限制了模型完全透明的必要性。例如,当前正在进行的一项临床试验(临床试验编号:NCT03705650)正在测量EchoGPS(一种由AI驱动的软件)在非超声检查专家从超声图像中检测某些心脏疾病时的有效性。该软件仅在评估超声时指导医疗专业人员,而不是替代人类的诊断。当然,当牺牲任何数量的可解释性时,都需要权衡取舍,尽管准确性可能更高,但是可能会保留系统性的偏差,否则可能会被捕获。因此,在选择如何优先考虑模型可解释性时,了解给定模型将如何应用于现实环境中非常重要。
可解释性和透明度特别重要的医学领域之一是临床前和早期药物开发。这里需要可解释的模型,不仅要避免模型依赖无关变量的可能性,而且要揭示潜在的作用机理,更好理解可能会导致更好的药物定位和毒性意识,最终助长下一代候选药物的产生。因此,旨在回答诸如“该药物是否具有毒性”或“该药物对哪种疾病有效”之类的方法的方法应确保可以清楚地阐明模型背后的原因。对模型可解释性的这种尽职调查和优先级排序可以通过更全面地了解化合物、靶标或疾病来增强AI驱动的药物开发。
模型选择
模型的可解释性可以通过多种方式实现。但是,模型的选择和合理的特征工程可能会产生最大的影响。根据预测性能(通过测试集或交叉验证)确定多次选择模型。根据模型和基础数据,更适合使用不同的指标。例如, AUROC是常用的性能指标;但是,它可能会引起误导,并且会在类别严重失衡的问题上人为地夸大其词。这些模型的性能将通过AUPRC更好地衡量。研究者探索了通过EHR预测2型糖尿病患者深度模型选择的概念。他们的工作表明,评估各种不同的性能指标可以确定最合适的模型。但是,很多时候可以根据基础数据来缩小选择要测试的模型的类型。选择正确捕捉特征之间关系的一类模型将导致更好的性能和更高的清晰度。
线性模型的可解释性
线性模型通常被认为是ML模型中最透明的一类,因为可变系数可以用来表示每个特征对输出的影响。结合了套索和岭回归罚分的一种线性/逻辑回归弹性网络已被广泛用于癌症中的生物标志物预测。由于其可解释性。ENCAPP是一种基于弹性网络的算法,在预测癌症的预后方面具有显着的预测能力,并着重强调了模型中的重要变量如何代表生物标志物候选物。当线性模型适合当前的问题时,它们是一种强大的方法,可实现强大的模型可解释性。
非线性模型的可解释性
尽管线性模型是可以解释的,但是当问题本质上是非线性时,它们的精度会很低。随机森林是一种基于决策树的方法,是一种广泛使用的非线性模型,可用于解释。基于决策树的模型通常可用于输出共识树,具有明确定义的决策点,使科学家能够了解预测背后的潜在原因。基于决策树的模型已成功地预测了药物性质。通过共识树或特征重要性分析,模型透明性的额外小步骤将广泛有益于这些模型的实用性。
很多时候,当使用非线性相关且本质上复杂的数据类型时,就需要更复杂的模型类型,例如神经网络。正如Wainberg等解释说,神经网络可以对变量相互作用进行建模并输出假设的中间变量,这些中间变量是隐藏层中神经元的值。Pawlowski等人证明了倒数第二层代表复杂特征的用途,当时他们使用这种特征工程技术对显微镜图像中的单个细胞进行了分类。最终,彻底表达变量之间关系的能力使DL在处理复杂数据类型时成为有吸引力的选择。
特征选择
特征工程是提高任何算法的预测能力的另一个关键步骤,并且可以提高模型的清晰度。由于拥有大量可用数据,因此必须谨慎选择功能,这不仅需要确保模型性能,而且还要确保模型的可解释性。如果忽略或错误处理了特征选择,则在不同模型类型之间可能会发生许多陷阱。例如,数据泄漏是一个问题,当包含取决于您的预测变量的功能或在预测时否则无法使用的功能时,将导致性能指标膨胀,最终导致模型无用,而与模型类型无关。此外,从DL模型中提取特征(涉及将最后一层的值用作特征)已成为图像分析中广泛使用的技术。尽管这种方法可以产生大量的信息功能,并为模型准确性带来有利的结果,但除非进行了适当的尽职调查,否则通常不清楚这些功能代表什么。如果不强调创建可解释的工具,那么其中许多因素很容易被忽略。
通常根据特征对预测能力的影响来选择特征,这种方法可能会忽略其他关键特征,例如现场的先验知识和数据可访问性。很多时候,在创建/测试预测模型的过程中进行特征选择会确认以前已知的关联,例如BRCA1预测会发展为乳腺癌或卵巢癌。但是,当评估大型数据集时,即使经过实验验证的关联也可能被数据的整体噪声淹没。因此,整合专家知识的努力可以确保预测是由潜在的生物学机制驱动的,从而使该模型不仅更具解释性,而且更加可靠。最近,Javanovic等通过结合使用传统选择技术和领域知识发现的特征,利用Tree Lasso正则化模型来预测小儿再入院。他们发现,与使用传统的套索模型相比,此结果模型更易于解释,而性能没有明显损失。这凸显了一个事实,即可解释性不需要与预测能力的权衡取舍。但是,应该指出的是,完全或过于依赖专家知识可能会加剧已知的系统偏见并限制科学发现。因此,对特征重要性的详尽搜索对于确保完整的模型透明度和生物学理解至关重要。
与其他方法类似,可以以简单的方式为神经网络完成特征贡献的识别。一种常见的技术是向后传播所有神经元以分配其贡献。在处理图像数据时,可以使用反向传播创建显著图,该显著图可以直观地表示每个特征的重要性。当前和未来的临床面临算法可通过合并诸如此类的特征选择技术来受益,以帮助提高模型的可靠性,并确保它们不基于噪声或系统偏差。
3
多样性丰富模型的重要性
跨数据类型的多样性
大数据时代已影响到科学的大多数方面,从而为AI提供了通过大量数据类型进行丰富训练的机会。不幸的是,许多当前的模型方法将其自身局限于特定的数据类型。尽管这些模型已经获得了高性能,并已证明在药物开发和临床流程中发挥了重要作用,但缺少各种数据类型的整合。过去的研究中,研究者已经展示了如何结合各种类型的数据来提高许多早期问题的整体预测能力和可解释性。例如预测基因的必要性和药物毒性。正如Cheng等人(2003)所述,异质特征的结合可以更好地捕获潜在的机制。通过预测药物相互作用来证明这一点。虽然此示例着重于早期发现,但具有更多样化数据的预测能力的增强和预测模型的可解释性适用于所有AI。当试图回答药物开发和临床决策中的未解决问题时,真正的跨学科方法是获得完整理解并获得最准确和可靠结果的唯一方法。
合并各种数据类型虽然对预测模型有价值,但必须谨慎进行,以避免常见的陷阱。由于增加的特征或更高级的模型体系结构,多样化数据集成中的一个共同挑战是增加了模型复杂性。一个例子是多视图学习,这是一种增强模型体系结构以集成各种特征类型的方法,由于其灵活的体系结构,在神经网络中尤其常见。尽管多视图模型已经在医学上取得了成功,例如胎儿超声图像,但它们的训练难度更大,并且可能更容易过拟合。复杂模型中的一个普遍问题。但是,只要牢记这些挑战,合并各种数据类型将对将来的医学模型有益。
样本间的差异
除了合并各种特征之外,利用各种不同的样本还可以提高模型的适用性和整体性能。通常,确保将噪声限制在数据范围内会导致问题,即没有足够大的人口来创建有意义的预测模型。因此,只有适当地包含不同的样本,AI的广泛应用才有可能。例如,在药物开发领域,Yuan等人提出了一种多任务模型来预测不同癌症类型之间的药物疗效。由于对癌症类型和药物化合物之间的深入研究,应该对模型进行针对特定药物或癌症类型的训练。但是,通过利用多任务方法模型可以从所有这些样本中获得的信息中受益,最终实现更好的性能。多任务方法的应用在用于药物开发的AI中得到了发展。这在很大程度上可以归因于其胜过先前模型并避免诸如过度拟合之类的陷阱的能力。因此,未来在医学中的AI应用应集中在样本多样性的纳入上,以丰富性能并确保模型的广泛适用性。
4
结束语
到目前为止,从实验室到临床的ML和AI应用都非常强大。但是,随着该领域的不断发展,有许多事情要牢记。为了确保AI在医学上的应用发挥出最大的潜力,重要的是生物学必须始终处于模型和实验设计的最前沿。在早期药物开发的情况下,可以通过在预测算法中优先考虑可解释性来实现,从而了解潜在的生物学机制。虽然辨别生物学机制对于更多面向患者的应用可能不太重要,但强调可解释性将有助于确保模型可靠且基于真实信号。在某些情况下,可以设想,将可解释的AI应用于病理图像将揭示以前看不见的模式,例如细胞之间的距离以及基质成分的重要性等。医学天生就是跨学科的,应该反映在用于预测算法的特征和样本中,从而允许以系统地理解问题,并在许多情况下提高准确性。测量模型性能的时代结束了。模型评估必须同时考虑性能和可解释性。
药物发现已进入下一个领域,我们只看到即将到来的变化的开始。我们相信,随着AI在药物开发领域的进步,实验工作将通过AI而不是反之为基础。例如,使用高度可解释的模型可以帮助您确定哪些特征最有用,从而可以相应地设计实验筛选。此外,通过透明的AI努力,我们可以开始了解药物背后的机制,从而可以进行更精确的临床试验。在许多情况下,阻止患者接受挽救生命的疗法的唯一原因是对这些药物缺乏透彻的了解。我们必须利用AI赋予我们的设计能力,
虽然构建可解释,高度预测和强大的模型是医学界成功进行AI研究不可或缺的一部分,但它依赖于可重复的工作。代码共享和释放使用的数据集是确保预测模型的可解释性和总体有效性的关键。高性能ML库已经使AI研究普遍化,并允许不仅使用这些模型,而且还被各种研究人员所理解。除了开源代码之外,还需要使用所有使用的数据集来了解各种特征如何相互作用和影响模型,因此是构建可解释模型的必要步骤。模型的可解释性不仅限于创建这些工具的研究人员,而是整个领域的要求。
总体而言,人工智能已经在医学的各个领域取得了长足的进步,从药物发现到临床决策。我们认为,只有在我们继续优先重视生物学理解和数据/模型多样性以及预测性能的前提下,这些进步才会继续增长。
参考资料
The Missing Pieces of Artificial Intelligence in Medicine. Coryandar Gilvary,Neel Madhukar,Jamal Elkhader,Olivier Elemento.Trends in Pharmacological Sciences.Elsevier.August 2019