ChatCAD：使用大型语言模型对医学图像进行交互式计算机辅助诊断

医学处理分析专家

发布于 2023-09-20 18:42:49

9250

最近大型语言模型 (LLM) 展示了在临床应用中的潜力，提供了宝贵的医学知识和建议。比如像ChatGPT这样的对话LLM，已经顺利通过了部分美国医学执照考试。然而，LLM在处理图像方面还是存在困难，这使得解读医学图像中的信息是具有挑战性的，而医学图像中包含丰富的支持临床决策的信息。另一方面，用于医学图像的计算机辅助诊断(CAD)网络通过使用先进的深度学习算法来支持临床决策，这在医学领域取得了重大成功。本文介绍了一种将LLM集成到医学图像CAD网络中的方法。所提出的框架使用 LLM 通过总结和重组以自然语言文本格式呈现的信息来增强多个CAD网络的输出，例如诊断网络、病变分割网络和报告生成网络。目标是将LLM的医学领域知识和逻辑推理的优势与现有医学图像CAD模型的视觉理解能力相结合，为患者创建一个比传统CAD系统更加用户友好和易于理解的系统。未来，LLM的医学知识还可以用于提高基于视觉的医学图像CAD模型的性能。

建立医学影像到文本的桥梁策略：1) 将检查图像（例如 X 射线）输入经过训练的CAD 模型得到输出；2）将这些输出（通常是张量）转换成自然语言；3）使用语言模型对结果进行归纳，得出最终结论；4) 基于视觉模型的结果和语言模型中预训练的医学知识，进行有关症状、诊断和治疗的对话。

1）、上述分类网络，病灶分割网络产生的结果是向量和mask，这是无法被LLM所理解的。

2）、将向量或mask翻译成用于LLM的提示语句。例如对于分类网络输出有如下所示的三种提示语句类型，提示语句1类型是疾病和对应概率分数，这与放射科医生的报告是有很大区别的，因为具体的诊断评分在临床环境中并不经常使用。提示语句2类型是一个评级系统，将提示语句1的具体分数转换成疾病严重程度。提示语句3类型是简明提示，在提示中报告诊断分数高于0.5的疾病。如果疾病概率都小于0.5，则提示“未发现”。一般提示语句2和提示语句3都是可以接收和理解的。

3）、然后将这些文本形式的结果连接在一起，作为LLM的输入提示词，LLM会总结所有CAD网络的结果。如上图所示，改进的报告结合了所有三个网络的结果，提供了对患者状况的清晰简洁的总结，突出了肺炎的存在和左下肺叶的感染程度。

4）、可以利用LLM广泛而强大的医学知识来提供交互式解释和医学建议。例如，基于图像和生成的报告，患者可以询问适当的治疗方案或定义医学术语，例如“气腔实变”。或者根据患者的描述，LLM可以解释为什么会出现这种症状。通过这种方式，患者可以更有效地深入了解他们的症状、诊断和治疗，可有效帮助患者降低临床专家的会诊成本，还可以显著提升在线医疗保险服务质量。