摘要
机器学习在临床肿瘤学中越来越常用,可以用于癌症的诊断、预测患者的治疗效果以及辅助制定治疗计划。本文综述了机器学习在临床肿瘤学工作流程中的最新应用。我们回顾了这些技术在医学成像和液态/实体肿瘤活检分子数据方面的应用,用于癌症的诊断、预后和治疗设计。我们讨论了开发针对成像和分子数据所带来的不同挑战的机器学习的关键考虑因素。最后,我们审查了被监管机构批准用于癌症相关患者使用的机器学习模型,并讨论了提高机器学习的临床实用性的方法。
背景介绍
在过去的十年中,机器学习在医学领域,特别是肿瘤学方面得到了广泛应用。癌症是一组复杂、异质性和常见的疾病,提供了一系列具有挑战性的诊断问题和丰富的多模态数据。这使得临床肿瘤学成为机器学习的有前途的领域,机器学习利用数据来学习数据集的模式和结构(有关机器学习简介的内容,请参见机器学习入门部分)。特别是,丰富的成像和分子数据促进了机器学习的应用,以将这些数据源与早期癌症检测、癌症进展监测和确定最佳治疗方法相关联。
医学成像已经成为一种革命性的工具,革新了癌症诊断。特别是,医学成像可以进行非侵入性、廉价和可扩展的癌症检测、定位和监测。放射学图像以及其他成像模态,如皮肤图像或结肠镜检视频,用于筛查和诊断。组织样本的病理学图像用于确认癌症诊断并确定预后因素,如癌症亚型。放射学和病理学图像均可通过信息化疗或免疫治疗的选择以及辅助放射治疗规划来指导治疗。随着医学成像越来越成为临床肿瘤学工作流程的基础,成像数据的数量通常比临床医生处理的速度更快。因此,人们希望使用自动化方法来处理医学图像,以减轻临床医生的工作负担,加速时间敏感图像的分析,并减少临床医生的错误。计算机视觉领域的机器学习进展已经被应用于医学成像,并已经在临床肿瘤学中展现了巨大的潜力,可以快速而准确地分析各种成像模态。
虽然影像学可以提供癌症护理的许多方面的信息,但分子特征可以更精细地了解患者的癌症状态。特别是随着癌症治疗越来越具有针对性和机制性,这一点变得越来越重要。液体活检(测量非侵入性生理样本中如血液或尿液中的分子生物标志物)已经成为一种有前途的方法,用于为癌症诊断分析肿瘤状态。液体和实体肿瘤活检也使得能够序列分析肿瘤状态并确定与耐药性、复发和不良生存结果相关的肿瘤演变和异质性特征成为可能。由于液体和实体肿瘤活检提供了丰富的信息,因此机器学习在从丰富的分子特征中预测临床结果和癌症状态方面起着重要作用。
在本文中,我们探讨了应用于临床肿瘤学的机器学习的最新进展。我们重点关注已在临床环境中部署或接近部署的比较成熟的机器学习技术。虽然有大量的机器学习发展用于更基本的癌症研究和药物发现,但我们在此不进行涵盖。由于影像学和分子数据是临床肿瘤学中两个主要的数据模式,具有不同的机器学习挑战,因此我们结构化地讨论影像学机器学习和分子机器学习。对于每种模式,我们讨论机器学习的主要应用和经常使用的机器学习模型和技术类型。由于许多这些机器学习模型正在从实验室转向临床,因此我们还回顾了批准癌症诊断机器学习方法的监管过程。我们突出了该类最近批准的基于机器学习的设备的例子,并讨论了获得批准所需的临床研究。然后,我们讨论如何改进机器学习模型的设计和评估,以建立对与癌症相关的机器学习的信任,进一步促进临床应用。最后,我们概述了医学和机器学习中的新兴技术,这些是未来临床肿瘤学研究的有前途。
机器学习在分子癌症诊断、预后和治疗方面的应用
近年来,样本处理、基因测序和分子技术的最新进展产生了来自实体肿瘤活检和分子液体活检的丰富数据集,旨在检测循环细胞自由肿瘤DNA(cfDNA)。机器学习模型在将这些数据集映射到临床输出方面发挥了关键作用。首先,我们概述液体活检和实体肿瘤数据集,并讨论它们的独特特点如何影响所使用的机器学习模型。我们将重点关注机器学习模型如何应用于基因组数据的三级分析。然后,我们概述了机器学习模型如何应用于促进基于液体活检和实体肿瘤的诊断、预后、治疗选择和肿瘤监测。这些进展概述如图下所示,已经推动了一个快速发展的领域,引起了巨大的临床和商业兴趣。
传统机器学习算法 vs 深度学习
传统机器学习算法有许多形式,大多数被设计用于处理表格数据,其中每个数据点都有一组明确的特征(例如,病人的年龄或基因突变状态),用于预测标签。其中一种常见的算法称为随机森林,由一组决策树组成,每棵树基于训练数据构建,对输入特征进行一系列二进制决策,最终预测数据点的标签。另一个算法是支持向量机(SVM),它在由输入特征定义的坐标系中学习一条直线(或多维空间中的超平面),将数据点分成两类。回归模型学习输入特征的线性组合,用于预测连续标签(例如,线性回归)或二元标签(例如,逻辑回归)。
随着图形处理单元(GPU)的日益普及和强大,一种名为深度学习(DL)的机器学习子领域已经在许多预测任务中取代了传统机器学习。DL模型的核心组件是神经网络,它由一个或多个层次的单元组成,称为神经元,它们计算输入的加权和,然后应用非线性函数。因此,这些神经元层次计算了一个称为嵌入的输入表示,然后由最终的神经元层次用于做出输出预测。与传统机器学习模型相比,DL模型更加灵活,并且由于DL的特征工程需求较少,它们能够处理更广泛的非结构化数据类型,包括图像、文本和语音。但是,DL模型通常需要更多的训练数据,因此传统机器学习模型仍然有用,特别是对于数据受限或表格任务。为了处理非表格数据,神经网络的架构(例如,神经元或层次或神经元之间的连接数)被修改以适应所需的数据类型。卷积神经网络(CNN)主要用于处理图像。图神经网络(GNN)处理图数据,例如细胞-细胞相互作用图。递归神经网络(RNN)和变形金刚网络分析顺序数据,例如遗传序列或图像序列。这些模型类别中的每个都有许多特定的模型架构,例如CNN的ResNet或U-Net以及RNN的LSTM或GRU。这些模型使用随机梯度下降进行优化。图1说明了常见的传统机器学习
基于图像的肿瘤诊断、预后和治疗的机器学习。
早期的机器学习方法使用手工提取的图像特征,例如肿瘤形状或纹理异质性,这些特征是从图像中计算得出的。然后将这些特征用作传统机器学习模型(例如支持向量机(SVM)或随机森林)的输入,以进行临床预测。从2010年代初开始,一类名为深度学习(DL)的机器学习模型开始成为主流的机器学习方法。DL模型可以自动从图像中学习特征以进行临床预测,从而同时减少了精心制作图像特征的需求,同时显着优于基于特征的机器学习模型。这些模型可应用于几乎所有的医学成像模式,包括X射线和MRI用于放射学,H&E染色用于病理学,皮肤损伤图像用于皮肤病学以及结肠镜检视频用于胃肠病学。在这里,我们讨论了机器学习,主要是深度学习,应用于三个临床阶段的示例:风险分层,诊断以及预后和治疗计划。图2说明了基于图像的机器学习模型流程和每个临床阶段。虽然我们单独讨论每个阶段,但值得注意的是,一些机器学习方法通过病理图像进行同时诊断和预后预测等跨越这些边界的预测。
获得监管批准的癌症诊断设备
未来的发展方向
新的生物医学技术和机器学习技术正在快速涌现,这将改变机器学习应用于癌症诊断的方式,并可能显著提高这些模型的预测能力和临床实用性。
生物医学数据
生物医学进步使医生能够获得越来越详细的患者医疗数据。在病理学中,新的多重蛋白质组学技术,如CODEX131,可同时染色40-100个蛋白质,提供比传统染色技术如H&E染色和免疫荧光技术更详细的细胞和蛋白质组成的组织视图。类似地,空间转录组学132提供了一个关于病理样本中RNA转录物空间分布的视图,从而将另一种组学数据融入到图像中。从肿瘤微生物组中的测序数据可能作为肿瘤学的诊断工具,因为科学家们了解了细菌在癌症中的作用。133来自免疫系统的数据,如T细胞受体序列,也可以根据机体对肿瘤的反应提供癌症的诊断线索。134利用这些新数据来源的机器学习方法可能能够做出更准确和特异性的预测。
影像学和分子数据
通常提供患者癌症的互补信息,因此将这两种数据源整合起来可以改善ML对诊断、预后和治疗的预测。一种将两者结合的方法是通过生物医学技术,例如CODEX和空间转录组学,它们将空间解析的蛋白质组学和转录组学数据叠加到图像上,使模型能够以图像形式处理组学数据。另一个有前途的方向是开发多模型,它们融合多个ML模型,将多种数据类型(图像、基因组、临床记录等)结合起来进行更好的预测。多模型可以更全面地了解每位患者,并将多个弱信号组合成强信号,从而更好地确定患者的诊断或最佳治疗方案。例如,Vanguri等人使用多模型来预测非小细胞肺癌患者对PD-(L)1阻断的反应,该模型结合了医学影像、组织病理学和基因组特征,优于单模型。尽管开发多模型存在许多挑战,例如跨模态连接数据和处理具有不完整数据的患者,但这些模型可能证明非常强大,因为它们可以像医生一样在多个信息源之间推理。
ML方法学
新的ML模型已经出现,它们改进了通常用于癌症诊断的标准深度学习架构,例如卷积神经网络。其中一些模型已经清晰地证明了预测准确性的提高。其中最好的例子是变压器模型,它最初是为自然语言处理而设计的。变压器模型已经被修改并应用于病理图像。另一个趋势是将基于图像的数据重新构想为图,并应用GNN。例如,Wu等人将组织样本的图像转换为细胞图,其中每个细胞是图中的一个节点,并且相邻的细胞之间有边连接。应用于这些图的GNN可以进行诊断和预测,这些预测可能比基于图像的预测更具有稳健性,对细胞之间的相互联系更敏感。另一个选项是使用生成型ML模型对现有ML模型的性能进行改进,通过生成学习合成新的数据,这些数据看起来与真实训练数据相似。生成模型还可用于在不同的数据格式之间进行翻译,例如从医学图像生成文本报告。
本篇综述所讨论的技术进步展示了机器学习在利用最新的生物医学数据上,改变临床肿瘤学领域的潜力。随着机器学习方法的进一步改进并经过适当的监测和监管审查验证,它们可能很快被广泛采用以改善患者的癌症护理。
以上内容来源于:https://doi.org/10.1016/j.cell.2023.01.035