前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !

MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !

作者头像
AIGC 先锋科技
发布2024-07-20 10:21:35
2010
发布2024-07-20 10:21:35
举报
文章被收录于专栏:AIGC 先锋科技

近期人工智能(AI)的进步在医疗保健领域催生了重大突破,特别是在改进诊断程序方面。然而,以往的研究往往受限于有限的功能性。 本研究介绍了MiniGPT-Med,这是一个源自大规模语言模型并针对医疗应用定制的视觉-语言模型。MiniGPT-Med在包括X射线、CT 扫描和 MRI在内的各种成像模式中显示出卓越的多功能性,增强了其实用性。 该模型能够执行包括医疗报告生成、视觉问题回答(VQA)和医学图像中的疾病识别等任务。其对图像和文本临床数据的综合处理显著提高了诊断的准确性。 作者的实证评估证实了 MiniGPT-Med 在疾病定位、医疗报告生成和VQA基准测试中的优越性能,这代表着在缩小辅助放射学实践差距方面迈出了重要的一步。 此外,它在医疗报告生成上的表现达到了最先进水平,比之前最佳模型的准确率高出 19%。MiniGPT-Med 有望成为放射学诊断的通用接口,提高广泛医疗成像应用中的诊断效率。 作者的模型和代码已公开提供 https://github.com/Vision-CAIR/MiniGPT-Med 。

1 Introduction

图像文本数据在各个领域的数量激增以及视觉语言建模的进步为生成式预训练领域的研究开辟了道路。这个创新时代以GPT-4(Achiam等人,2023)和Gemini(团队等人,2023)等多模态模型的涌现为标志。这些进步意味着作者在处理和理解复杂数据方面的能力向前跃进了一步。尽管取得了这些进展,但在医疗领域采用多模态大型语言模型(LLM)仍然有限。医疗领域对数据复杂性、敏感性和特定性的独特要求凸显了需要量身定制的办法来发挥LLM在转变医疗研究和实践中的潜力。已经推出了许多为医疗应用设计的模型,但它们通常针对特定任务表现出高度的专门化。这种专业化限制了它们的适应性,尤其是在执行多样化的医疗应用时。例如,像Med-Flamingo 和 XrayGPT(Thawkar等人,2023)这样的模型主要是为医疗报告生成和医疗视觉问题回答等任务而定制的。然而,它们在需要视觉定位技能的关键领域(医疗领域的至关重要组成部分)如疾病检测方面缺乏能力。为了弥补这一不足,作者推出了MiniGPT-Med,一个能够熟练处理定位和非定位任务的统一模型。作者推出了MiniGPT-Med,这是一个为医疗领域的各种任务而设计的多功能模型,包括但不限于医疗报告生成、医疗视觉问题回答和疾病识别。MiniGPT-Med建立在大型语言模型(LLM)的架构之上,这些模型已经展示了出色的生成能力和广泛的语文学,包括医学知识。借鉴LLM在广泛的视觉语言应用中的成功,如最近的Zhu等人(2023年);Chen等人(2023年);Li等人(2024年)的研究所示,作者的模型采用了类似于 MiniGPT-v2 的设计,使用LLaMA-2语言模型作为通用接口。此外,作者融入了不同的任务标识符,以提高模型准确执行各种医疗视觉语言技能的能力。通过广泛的实验,作者证明了作者的模型在医疗视觉语言任务范围内表现出强大的性能,包括医疗报告生成、医疗视觉问题回答和疾病检测。作者将作者的模型与专业化和通用化 Baseline 模型进行了基准测试,结果显示作者的方法在所有评估任务中取得了强大的成果。值得注意的是,在医疗报告生成领域,作者的模型达到了最先进的表现,BERT-Sim上超过最佳 Baseline 模型19%,CheXbert-Sim上超过5.2%。这表明作者的模型在多样化的医疗视觉语言任务上具有强大的生成能力。

作者的贡献如下:

  1. 作者推出了MiniGPT-Med,这是一个为放射学图像的异质性量身定制的模型,包括X射线、CT扫描和MRI。这个模型擅长处理各种视觉语言任务,包括疾病识别、医疗视觉问题回答和医疗报告生成。
  2. 通过全面评估,作者在定位和非定位任务上对作者的模型进行了评估,并辅以专家手动评估。研究发现,MiniGPT-Med在大多数基准测试中提供了具有竞争力的性能,超过了通用和专用模型,特别是在医疗报告生成方面取得了最先进的结果,超过最佳 Baseline 19.0%。

2 Background

图1:MiniGPT-Med的多样化能力。它可以进行疾病检测、医学视觉问题解答和医疗报告生成。MiniGPT-Med有效地与广泛的放射学数据(X射线、CT扫描和MRI)合作,并擅长诊断许多疾病。

将视觉数据与大语言模型对齐:大语言模型领域最近的进展,如GPT-4的发布,增强了LLM的解释和生成能力。这种进步体现在LLaVA(Liu et al., 2023)、Flamingo(Alayrac et al., 2022)和MiniGPT-v2(Chen et al., 2023)等模型中。LLaVA旨在通过多种多模态指令增强大语言模型对视觉内容的理解。这种理解上的增强对于整合不同形式的数据输入至关重要。相比之下,Flamingo在少量数据的情况下快速适应新任务方面表现出卓越的能力。这个模型有效地管理了包含视觉和文本元素的序列。另一方面,MiniGPT-v2在单一模型框架内展示了增强的多模态能力。这是通过特定任务的训练和将视觉标记与大语言模型结合的专门架构实现的,与LLaVA和Flamingo的目标很好地对齐。

融合视觉语言模型以增强医疗诊断:视觉-语言模型最近的工作在医疗保健应用中取得了显著的改进,特别是在医学图像分析和诊断报告生成方面。在医疗诊断中利用VLM标志着医疗行业的重大进步。这些模型结合了计算机视觉和语言处理,以更好地分析X射线、计算机断层扫描(CT)和MRI等医疗图像。医学领域更专业的应用,如LLaVA-Med (Li et al., 2024) 和MedBERT (Rasmy et al., 2020),在将结构化电子健康记录整合到疾病预测任务中显示出希望。MedVQA (Canepa et al., 2023) 展示了医学视觉问题解答和图像分析能力。此外,对于分类和解释任务,Med-Flamingo (Moor et al., 2023)、MedVis (Shen et al., 2008) 和MedMCQA (Pal et al., 2022) 展示了少样本学习、视觉解释和医学AI领域特定问题解答的重要性。LLaVA-Med和Med-Flamingo都专注于医学背景下的多模态对话式AI和少样本学习,使用大规模数据集并在视觉问题解答方面表现出能力。BioViL (Bannur et al., 2023)、BioBERT (Lee et al., 2019) 和BioGPT (Luo et al., 2022) 都已经解决了更领域特定的语言模型预训练。BioViL强调文本语义以增强生物医学视觉-语言处理。对放射学应用的专业模型强调也表现在MedKLIP (Wu et al., 2023a)、XrayGPT (Thawkar et al., 2023b) 和BERTHop (Monajatipoor et al., 2021)上,所有这些都展示了实现高诊断准确性的挑战。特别是MedKLIP通过将医学知识整合到视觉-语言预训练中,为改进疾病分类提供了创新。XrayGPT将医学视觉编码器与大语言模型结合,以结合视觉和文本分析,从放射学数据生成精确的摘要,而BERTHop在胸部X射线的小数据集上展示了诊断性能。此外,CheXagent (Chen et al., 2024)、CheXNeXt (Rajpurkar et al., 2018) 和CheXpert (Irvin et al., 2019) 的贡献在胸部病理检测方面设定了基准。虽然每一项工作都提出了独特的方法,但它们的共同目标是通过对AI模型的改进来增强放射学分析。

3 Method

Model architecture

作者的模型架构如图2所示,由三个关键组成部分构成:视觉 Backbone 网络、线性投影层和大型语言模型。以下是每个组件的详细描述:

视觉编码器。 在作者的方法中,作者采用了EVA(Sun等人,2023年)作为模型的主要视觉 Backbone 网络。EVA(Sun等人,2023年)是一个高性能的视觉编码器,由于其能够处理复杂的图像结构和变化,因此特别适用于放射学数据。在整个训练过程中,这个视觉 Backbone 网络在训练期间保持冻结状态。放射学图像通常是高分辨率的,作者以448448的图像分辨率训练模型。作者还对位置编码进行插值以适应更高的图像分辨率。

大型语言模型(LLM)。 作者采用了LLaMA2-chat(7B)(Touvron等人,2023年),一个开源的语言模型,作为主要的语言模型 Backbone 。这个LLM已经通过学习大量的语言知识学习了广泛的医学知识,作者将它视为处理许多医学视觉-语言任务的统一接口。例如,LLM可以帮助生成详细的医学报告,也可以在医学领域对肿瘤进行精确的定位。

视觉语言对齐。 作者采用了MiniGPT-v2(Chen等人,2023年)的架构,并通过将视觉编码器中的视觉标记进行拼接来提高效率,这种技术特别有利于处理高分辨率的医学图像。这种方法涉及将四个相邻的视觉标记合并为一个嵌入,然后通过线性投影层将其映射到语言模型的特征空间中。

Prompt Template.

作者采用了提示模板,使作者的模型能够很好地处理许多不同的医疗视觉-语言技能,如视觉问答、图像字幕、指代表达式理解(REC)、指代表达式生成(REG)、疾病检测和基于图像的字幕生成。语言模型在处理许多不同的视觉-语言任务时可能会经历高度幻觉和混淆。例如,当被要求识别潜在的肺肿瘤时,它可能会错误地关注并描述血管或心脏中的钙化区域。因此,为了避免在这些多任务环境中的歧义,作者在训练框架中添加了特定于任务的标记。作者在指令模板中遵循了类似于MiniGPT-v2Chen等人(2023)的指令设计,如下所示:

任务标识符

指令[/INST]

作者在表1中展示了不同的提示模板,以演示作者的模型如何通过任务标识符有效地处理不同的任务。

Region grounding representation.

在涉及目标空间位置的技能定位中,例如疾病检测和基于实体的图像字幕生成,作者采用边界框的文本表示。这种表示使作者能够将空间位置整合到输入语言模型的文本中。作者将边界框坐标在[0,100]范围内进行归一化。

4 Experiments

该实验旨在评估MiniGPT-Med在准确分析及描述复杂医学影像数据方面的有效性,应用于如肺癌检测、报告生成以及问答能力等领域。作者使用包括X光、MRI和CT扫描在内的全面放射学图像数据集,对MiniGPT-v2的第三阶段进行了微调,涵盖了一系列医疗状况,以提升各种技能。

Dataset Setup

缺乏高质量的医疗数据集是深度学习在医学成像领域的一个重大挑战。为了解决这个问题,作者优先收集了专注于放射学,特别是肺部疾病以及一般医疗信息的全面数据集。作者的目标是收集包括X光片、CT扫描和MRI图像在内的多样化且广泛的医疗图像。此外,作者还通过整合带有边界框的图像、采用问答格式的数据集以及用于报告生成的数据集来增强数据集。这些补充将支持模型训练和发展的所有必要技能。

收集的数据集包括MIMIC(Johnson等人,2019年)、NLST(癌症成像档案馆,2023年)和SLAKE(医学视觉问答(Med-VQA),2023年)、RSNA(北美放射学会,2018年)和RadVQA(OSF,2023年)。以下是这些医疗数据集的详细信息:MIMIC 数据集包括377,110张图像和227,835份医疗报告。在作者的研究中,作者从XrayGPT(Thawkar等人,2023a年)获得了预处理后的MIMIC数据集,该数据集包括114,539张去身份化的胸部X光图像(JPG格式),每张图像都附有相应的放射学报告。其中,171,085张图像和报告用于训练,而43,454张图像和报告用于测试。这个数据集用于报告生成任务。

NLST 这个数据集用于检测任务,包括7,625张精心标注的低剂量CT扫描图像,用于检测肺癌,特别标记以定位结节的位置。作者从完整的3D体积中提取了显示结节的2D CT切片。这些用于训练的标注来自于Sybil(Mikhael等人,2023年)的工作。

SLAKE 这个数据集用于训练接地(grounding)和视觉问答(VQA)任务,包括579张描绘各种身体器官的放射学图像,以及3,543组不同的问答对,用于训练。

RSNA 作者使用RSNA数据集来评估肺炎检测任务。RSNA数据集包括1,218名至少有一种或以上肺炎条件的患者。作者在该数据集上进行零样本评估,用于疾病检测任务。

RadVQA 包括315张放射学图像,均匀分布在 Head 、胸部和腹部,每张图像都配有多组问题和答案,共计2,248组问答对。这些问题分为11个不同的类别:异常、属性、检查方式、器官系统、颜色、计数、物体或条件的存在、大小、平面和位置推理。一半的回答是封闭式的(即,是/否),而其余的回答是开放式的,通常需要一个单词或短语的回答。作者在RadVQA数据集上进行零样本评估。

Training Details

在作者的实验中,作者使用MiniGPT-v2(陈等人,2023)的预训练权重(阶段3之后)初始化作者的模型,并在整个训练过程中保持视觉编码器冻结。作者微调线性投影层,并使用LoRA(低秩适应)(胡等人,2021)来微调LLAMA-2(图弗隆等人,2023)大型语言模型。该模型使用交叉熵损失函数进行训练,并使用AdamW优化器进行优化。作者的数据集包含124,276张医疗图像,每张图像的分辨率为448x448像素,未应用数据增强。整个训练在单个NVIDIA A100 GPU上进行了100个周期,最大学习率为1e-5。训练持续大约22小时。

Baseline models

在本研究中,作者对MiniGPT-Med在三个不同任务上的表现进行了评估:医疗报告生成、疾病检测和医疗视觉问答(VQA)。作者将作者的模型与专业模型和通用模型进行了比较。专业模型指的是那些只能执行接地(grounding)或非接地任务的模型。通用模型则是指那些能够执行包括接地和非接地任务在内的各种任务的模型。

  • 对于医疗报告生成任务,作者将MiniGPT-Med与专业模型进行了比较,包括在视觉语言任务和上下文学习能力方面表现出色的Med-Flamingo(Moor等人,2023)和LLaVA-Med。此外,作者还与专门针对放射学的RadFM(Wu等人,2023b)以及为胸透分析设计的全新视觉语言模型XrayGPT进行了比较。此外,作者还评估了MiniGPT-Med与专注于提高胸透解读能力的CheXagent的表现。同时,作者还与在一般视觉语言数据上训练的通用模型MiniGPT-v2和Qwen-VL(Bai等人,2023)进行了比较,这些模型在多个以视觉为重点的理解基准测试中表现出色。
  • 疾病检测任务中,MiniGPT-Med与在视觉语言医疗数据集上预训练的专业模型进行了比较,包括BioVil(Bannur等人,2023)、MedKLIP和GLoRIA,以及通用模型MiniGPT-v2和Qwen-VL。
  • 医疗VQA任务中,作者比较了MiniGPT-Med与专门针对医疗VQA挑战的模型,如MedVINT(Zhang等人,2023)、OpenFlamingo(Awadalla等人,2023)和Med-Flamingo(Moor等人,2023),特别是在零样本场景下,使用RadVQA数据集。此外,作者的工作还与通用模型MiniGPT-v2和Qwen-VL进行了比较,以全面评估MiniGPT-Med的表现。

Evaluation Metrics

在作者的研究中,作者调整了评估方法,以便与使用MiniGPT-Med解读放射学图像所需的不同技能保持一致。为了评估模型生成放射学报告的能力,作者采用了两种指标:BERT相似度(BERTsim)和CheXbert相似度(CheXbertSim)。BERTsim用于评估模型生成的放射学图像描述与专家提供的基准真值标注之间的语义相似性。这涉及使用BERT模型嵌入基准真值和生成的句子,然后计算这些嵌入之间的余弦相似度。相比之下,CheXbert-Sim被选中用于评估模型在复制专业医学报告标准方面的准确性。它是BERT模型的专门版本,经过在临床文本上的微调,它在编码后计算每对对应句子嵌入的余弦相似度。对于视觉问题回答(VQA)方面,作者专门使用BERTsim来衡量模型响应的语义准确性。此外,作者还采用了交并比(IoU)作为定位指标,这是一种量化模型在放射学图像中精确定位和识别特定特征或异常(如在RSNA数据集中的肺炎)的精确度的度量。

Medical Report Generation

在作者的综合研究中,作者利用Johnson等人(2019年)提供的全面MIMIC数据集,评估了MiniGPT-Med模型在医疗报告生成的有效性。这一评估的结果在表5中概述,表明MiniGPT-Med模型超越了专门的和通用的 Baseline 模型。特别值得一提的是,MiniGPT-Med在BERT-Sim和CheXbert-Sim指标上,分别以21.6和5.2的显著优势领先于领先的专门模型CheXagent Chen等人(2024年)。这一性能不仅展示了MiniGPT-Med在医疗报告生成领域的卓越性,也强调其在很大程度上超越顶级通用模型的实力——在BERT-Sim上高出19个百分点,在CheXbert-Sim上高出9个百分点。这些发现巩固了MiniGPT-Med作为前沿工具的地位,证明了其在医疗报告生成方面的有效性。

Disease Detection

表3中的数据表明,与一系列基准模型相比,MiniGPT-Med的表现颇具竞争力。MiniGPT-Med的交并比(IoU)得分为0.26,不仅比通用模型高出16%,而且其性能指标与专业模型持平。在这些专业模型中,最高的IoU得分是0.31。作者的MiniGPT-Med在所有基准模型中取得了具有竞争力的结果,并在疾病检测性能方面表现出色,凸显了其作为医疗领域一个多用途且有效的工具的潜力。

Medical Visual Question Answering

本研究使用RadVQA(OSF,2023s)基准测试,评估了作者的模型MiniGPT-Med与各种 Baseline 模型的对比,结果如表4所示。MiniGPT-Med取得了显著的成绩,得分为0.58,超过了包括MiniGPT-v2(Chen等人,2023)在内的通用模型,以及像OpenFlamingo(Awadalla等人,2023)和Med-Flamingo(Moor等人,2023)这样的专业模型。这一性能不仅展示了MiniGPT-Med相对于众多模型的优越性,还表明它能达到与领先的专业模型MedVIN(Zhang等人,2023)相当的成果,后者准确度为0.62。MiniGPT-Med能够超越或匹配多个专业和通用模型的表现,凸显了其作为开发先进医疗视觉问答模型基础的重要潜力。

Radiology Expert Evaluation

作者的研究采用严格的人类主观评估协议,由两位高级放射科医师对MiniGPT-Med进行了评估。他们从MIMIC数据集的测试套件中评估了50个随机样本,重点关注模型的鲁棒性、细致性和准确性。评估围绕三个问题展开:Q1:生成的报告与您的专家判断的一致性如何?Q2:生成的报告中医疗内容的详细程度如何?Q3:生成的报告在诊断病理方面的准确性如何?

作者将在附表5中呈现结果。结果显示,高达 76% 的人工医疗报告被评为高质量。另有 19% 被评为中等质量,仅有5%被评为低质量。这种分布强调了模型在合成医疗报告方面的能力,这些报告不仅符合专业标准,而且在细节和诊断准确性方面表现出色。这些发现强调了MiniGPT-Med在医疗报告流程增强中的潜力,表明它在生成临床相关报告方面具有显著的可靠性和有效性。

Qualitative Evaluation

在本节中,作者全面展示了 MiniGPT-Med在生成医疗报告和执行解释性任务中的能力。首先,图2(a)说明了模型从图像数据生成详细医疗报告的能力。此外,模型能够准确识别并用边界框描绘特定的异常,如图2(b)所示。另外,图2(c)展示了接地(grounding)技能,模型解释每个生成的单词并在目标周围绘制边界框。此外,图2 (d) 详细说明了模型在引用和定位用户指定的异常时的精确性。此外,图2(e)展示了识别功能,模型利用目标坐标提供详细的医疗描述。最后,图2(f)呈现了模型的视觉问答(VQA)功能,突显了其在回答医疗问题时的有效性。

5 Limitation

MiniGPT-Med 由于缺乏多样化和高质量的训练数据集,其覆盖的疾病范围受限。为了改进,作者需要更丰富和更多样的数据集,以及更先进的视觉 Backbone 网络和底层大型语言模型的提升。该模型偶尔会生成不准确的治疗报告,并且不恰当地将症状与疾病关联起来,这种现象被称为虚构。此外,它还难以区分人体内植入设备的人工制品和医学图像中的异常。图4展示了一个 MiniGPT-Med 未能正确识别肺炎位置的数据样本。绿色边界框下的目标是真实情况,红色边界框下的目标是错误检测。该模型容易将设备植入物误认为是异常。这个缺点常导致误诊。特别是当AI遇到包含植入物的X射线或MRI时,它可能将这些误认为是异常。

6 Conclusions

在本研究中,作者介绍了 MiniGPT-Med,这是一个专为放射诊断应用设计的多模态模型。它处理各种医学视觉-语言任务,如生成医疗报告、检测疾病以及回答基于视觉的医疗问题,通过使用不同的任务标识符来高效地导航这些任务。MiniGPT-Med 在接地和非接地任务上都优于 Baseline 模型,在 MIMIC-CXR 医疗报告生成任务上取得了最先进的表现。

放射学家的评估显示,大约 76% 生成的报告具有首选质量,突显了模型的优越性。

未来的计划包括整合更多样化的医疗数据集,提高对复杂医学术语的理解,增强可解释性和可靠性,并进行广泛的临床验证研究,以确保在真实医疗环境中的有效性和安全性。

参考

[1].miniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Background
  • 3 Method
  • Model architecture
  • Prompt Template.
  • Region grounding representation.
  • 4 Experiments
  • Dataset Setup
  • Training Details
  • Baseline models
  • Evaluation Metrics
  • Medical Report Generation
  • Disease Detection
  • Medical Visual Question Answering
  • Radiology Expert Evaluation
  • Qualitative Evaluation
  • 5 Limitation
  • 6 Conclusions
  • 参考
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档