转变癌症诊断：Path-BigBird 用于病理学报告的人工智能方法

GPUS Lady

发布于 2024-03-25 14:11:38

1300

发布于 2024-03-25 14:11:38

文章被收录于专栏：GPUS开发者

美国能源部橡树岭国家实验室（Oak Ridge National Laboratory）和路易斯安那州立大学（Louisiana State University）的研究人员与美国国家癌症研究所（National Cancer Institute，简称NCI）合作，开发了一种长序列AI转换器，能够处理数百万份病理报告，为研究癌症诊断和管理的专家提供更准确的癌症报告信息。

“我们的目标是尝试看看我们是否可以自动从这些病理报告中提取特定癌症部位信息的过程，并将其转化为国家级癌症发病率报告的结构化数据，”ORNL计算科学与工程部的研究科学家Mayanka Chandra Shekar说。

该团队的工作最近发表在《临床癌症信息学》上。

论文地址：https://ascopubs.org/doi/10.1200/CCI.23.00148

研究背景 仅在 2023 年，美国估计就将诊断出 190 万例新发癌症病例，估计将发生 609,000 例与癌症相关的死亡。为了深入了解癌症发病率和生存率，美国国家癌症研究所（NCI）的 SEER 计划通过 19 个全人群癌症登记处收集信息，作为无偏见人群水平研究的主要来源。病理报告是用于肿瘤病例表型分析的主要信息来源。传统上，癌症登记员手动审查病理报告，从中提取重要的表型信息。然而，这种人工审查导致了 NCI 癌症发病率报告的显着延迟。

“我们想建立一个语言模型，我们可以问，'我们能否构建一些能够理解病理学语言的东西，并帮助我们创建预测建模或信息提取模型，这些模型基本上可以从病理学报告中提取癌症部位、子部位和其他关键细节？'”Chandrashekar说。

目前，这些癌症登记处是手动更新的，在癌症发病率和报告之间留下了两年的差距，这意味着如果全国癌症发病率增加，研究人员必须等待两年才能认识到这一关注领域。

研究目的

深度学习（DL）和自然语言处理（NLP）的最新进展使得从病理报告中近乎实时地自动提取信息成为可以实现的目标。分层自注意力网络（HiSAN）模型目前在 SEER 注册表的生产中使用，以自动从大约 25% 的记录中提取信息。6在过去的 2 年中，该领域的新发展为增加可以高精度自动编码的病理报告的比例提供了新的机会。

手术病理报告对于癌症诊断和管理至关重要。为了近乎实时地从病理报告中准确提取有关肿瘤特征的信息，研究团队探讨了使用特定领域的Transformer模型来理解癌症病理报告的影响。

挑战

传统的分类模型在监督深度学习框架内运行，其特点是固定架构仅适应特定的训练任务。这种僵化的框架给使经过训练的模型适应新的预测任务带来了挑战。因此，对于每个提取任务，必须从头开始训练使用相同基础数据的新模型，从而增加计算成本。大规模语言模型通常使用 transformer 模型体系结构，它通过提取文本中的固有模式来提供解决方案，这些模式可用于初始训练任务之外的其他监督或无监督学习任务。使用预训练权重的无监督学习可以捕获数据中的潜在模式，但对结果很幼稚。这种方法与传统的深度学习监督模型形成鲜明对比，在传统的深度学习监督模型中，权重是通过使用结果驱动的模式识别来产生的。transformer 的无监督特性为BERT等通用域变压器模型创造了机会和 GPT，在通用文本语料库上进行训练。通用领域 transformer 为下游任务的结果驱动微调模型创建了一个可访问的加速框架。

近年来，专业化生物医学和临床 transformer 的发展将 transformer 模型的适用性扩展到医疗保健领域。这些模型已经在各种数据集上进行了训练，包括 PubMed 摘要、来自电子健康记录（EHR）的公开可用的去识别化临床记录，例如 MIMIC。通过对特定于医疗保健的数据集进行训练，临床转换器可以捕获特定领域的模式和术语，从而使他们能够执行医疗诊断、EHR 分析、临床文本分类和实体识别等任务。值得注意的是，Clinical BigBird 模型通过利用具有稀疏注意力机制的训练，在医学文本中实现了较长序列的最先进的性能。

在这项研究中，研究团队评估了 transformer 模型从病理报告中提取信息的有效性。因为之前的一项研究发现对病理报告进行微调的通用域转换器未能优于基准 HiSAN 模型，研究人员通过使用 BigBird 架构开发用于病理报告的域特定转换器来重新审视这个问题。为了描述这种特定领域的病理学转换器 Path-BigBird 的影响，他们还评估了 Clinical BigBird 的性能，它是使用相同的转换器架构在更通用的临床笔记语料库上预训练的。

方法

AI Transformer 模型在大量数据上进行训练，并将其“转换”为对科学家有用且易于消化的信息。在橡树岭领导力计算峰会超级计算机上使用安全的 CITADEL 框架，在百万兆次级计算项目和使用监测数据和可扩展癌症人工智能（MOSSAI）计划建模结果的支持下，ORNL 的研究人员使用专门的Transformer 模型处理了 270 万份癌症病理报告。

研究人员通过使用来自六个 SEER 癌症登记处的 270 万份病理报告构建了一个病理学转换器模型 Path-BigBird。然后，他们将 Path-BigBird 的不同变体与两种计算密集度较低的方法进行比较：分层自注意力网络（HiSAN）分类模型和现成的临床转换器模型（Clinical BigBird）。团队使用五个病理学信息提取任务进行评估：部位、亚部位、偏侧性、组织学和行为。使用宏观和微观 F 评估模型性能1分数。

结果

团队发现 Path-BigBird 和 Clinical BigBird 在所有任务中的表现都优于 HiSAN。临床 BigBird 在现场和偏侧性任务上表现更好。Path-BigBird 模型的版本在两个最困难的任务上表现最佳：子站点（micro F1得分 72.53，宏观 F1得分 35.76 分）和组织学（micro F180.96分，宏F1得分为37.94）。与HiSAN模型相比，最大的性能提升是在组织学方面，Path-BigBird模型增加了micro F1得分 1.44 分和宏 F1得分3.55分。总体而言，结果表明，具有从精心策划和去标识化数据中派生的词汇表的 Path-BigBird 模型是性能最佳的模型。

结论

本研究做出了三项贡献：

（1）研究人员引入了一种开发病理学文本特定于Path-BigBird模型的方法，

（2）研究人员在大型病理学报告数据集上针对临床BigBird和HiSAN基线测试了Path-BigBird模型的多个版本，

（3）研究人员确定了Path-BigBird优于HiSAN和临床BigBird的案例，并评估了对未来研究的影响。

通过有效处理来自数百万份病理报告的信息，Path-BigBird 有可能简化病理信息提取的速度和准确性，并超越传统的深度学习方法来收集重要信息，例如识别癌症部位、组织学，并提高人群水平癌症发病率报告的准确性。

Chandrashekar说：“我们目前部署的深度学习模型已经自动编码了癌症登记处处理的约23%的报告，为研究人员节省了宝贵的时间，以寻求近乎实时的癌症报告。她补充说，这一进步为创建一种全面的模型病理学语言打开了大门，该语言可以比以往任何时候都更快地成功执行任务。

影响力

“使用这种模式开辟了一个全新的世界，”Chandrashekar说。“我们可以使用相同的模型来提取生物标志物和其他复发性癌症问题，因为现在它能够理解病理学特定的语言。我们可以将其扩展到我们开始的重点之外，“她补充道。

研究的转折点出现在团队意识到需要更广泛的语言范围才能使 AI 模型更准确地运行时。通过将更多的临床语言与病理报告相结合，Chandrashekar 和她的团队在准确性和性能方面都有了显着提高。

“这给了我们一个空间，让我们明白，有限的词汇量可能会限制我们理解某些任务中行为的细微差别，”Chandrashekar说。“同时，包括更多的词汇量将创建一个更好的模型来执行正常任务，以及更难的任务。

人工智能模型中融入的包容性语言反映了为该团队聚集的广泛研究人员，他们花了两年时间研究这个项目。

Chandrashekar 补充道：“我们的团队包括来自自然语言处理专家、高性能计算科学家和流行病学家的人，所以我们是一个完全跨学科的团队，我们必须了解，'被问到什么，我们能否安全地大规模运行它？'”

研究人员已经测试了 Path-BigBird 模型的基本信息提取任务。他们了解了 BERT 和 GPT 等流行模型的 transformer 模型的潜力，他们希望扩展和适应对人口健康有用的下游任务，例如实体识别、基本文本的位置和问答系统。Path-BigBird模型也可以成为一个转折点，因为它可以更清楚地了解癌症趋势，并促进对高危社区的公共卫生干预。

Chandrashekar说，该团队的注意力现在已经转移到实施模型要完成的新任务上，例如识别生物标志物，癌症复发率以及癌症发病率报告的其他方面。

“我们正试图看看我们是否可以使用一个类似的模型，而不必经过大量的培训，看看我们如何在这些事情上扩展它，”她说。“考虑到行业构建大型语言模型的速度，我们正试图了解如何利用这些知识，看看我们是否可以将现有模型用于我们的特定用例。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-03-21，如有侵权请联系 cloudcommunity@tencent.com 删除

模型