语言模型(LMs)在医学领域展示了专家级推理和记忆能力。然而,计算成本和隐私问题正在成为广泛实施的障碍。 作者为医学应用引入了phi-3-mini的轻量级适应版MedMobile,这是一款38亿参数的模型,能够在移动设备上运行。 作者证明,MedMobile在MedQA(USMLE)上得分为75.7%,超过医生的通过分数线(约60%),且接近于其大小的模型得分的100倍。 作者随后进行了一系列仔细的消融实验,并证明思路链、集成和微调能够带来最大的性能提升,而检索增强生成则没有显著改进。 GitHub: https://github.com/nyuolab/MedMobile
近年来,语言模型(LM)在医疗领域展现出显著的潜力,因为它们具有快速决策的能力和推理和知识的能力[1, 2, 3]。然而,大规模适配语言模型面临几个障碍,包括安全问题和模型服务的巨大计算成本[4, 5]。此外,最强大的大型模型是封闭源的,这阻碍了特定领域的适应[6]。为了克服这些障碍,作者在开源的3.8亿参数语言模型phi-3-mini上进行微调,该模型来自医疗领域的数据。作者将这个经过微调的模型命名为MedMobile,因为这种大小的模型可以在移动设备上运行,并具有廉价的推理成本[7]。MedMobile使用人工筛选的数据(由人类专家编辑)和人工生成的合成数据(由GPT-4和教科书生成)进行微调,展示了小型语言模型可以模拟特定任务的能力,使用来自更大模型(具有高度准确率的合成数据)的人工生成的数据。作者选择使用人工生成的数据,这与原始phi工作一致,这表明小型语言模型可以在较少的数据和参数下发展推理能力[7]。据作者所知,MedMobile是第一个在MedQA[8](一个包含大量USMLE风格的问题的集合)上达到及格分数(约60%)的语言模型,实现了75.7%的准确率。
使小型语言模型在USMLE风格和其他医学任务上实现优越性能是一个活跃的研究领域[9,10]。由于语言模型架构的进步、更高质量的训练数据和新的 Prompt 工程技术的出现,最近开源的7-8亿参数模型(如Meerkat[9]和UltraMedical Llama 3.1[10])在USMLE风格问答(图2A)上取得了通过分数,甚至超过了比它们大几倍的模型,如GPT-3.5(175B)[11],这是两年前的最先进水平。Meerkat[9]是第一个达到这一里程碑的7亿参数模型,它专注于通过由GPT-4.0生成的合成教科书问题来改进小型模型。另一系列模型UltraMedical[10]扩展了这一工作,在大规模上生成合成问题,并涵盖MultiMedQA[12]中的所有问题类型。通过在合成数据上进行有监督微调(SFT)可以显著改进通用语言模型。在这方面,借助大型模型的支持来增强小型语言模型,已成为实现低计算要求下的优越性能的领先方法。
由于在移动设备上超过50亿参数后,AI模型的生成速度显著降低,功耗增加[13],作者使用术语“移动设备大小”来指代小于50亿参数的模型。在此背景下,MedMobile是第一个通过USMLE的移动设备大小模型。为了实现这一点,作者选择phi-3-mini作为作者模型的基础,因为它在与其他大小的模型相比具有增强的推理能力[7]。表现出优越推理能力的模型通常使用思路链(CoT)技术,该技术通过使用一系列逻辑步骤来模拟人类类似的推理,以达到准确的最后结论。
前沿语言模型,如GPT-4,会明确地输出得出答案的逐步过程。通过使用GPT-4(即它用来得出最后结论的逻辑过程)的思路链来微调phi-3-mini,作者保留了通用的推理能力,并获得了医学领域的知识,部分地提炼了GPT-4的高级问题解决过程和知识到phi-3-mini[14]。尽管MedMobile的性能没有超过GPT-4,但它通过使个人能够在口袋里携带一位经过认证的临床助手,实现了临床上的重大进步。
表格1:MultiMedQA中的多项选择题(MCQ)评估数据集部分。
任务 | # of MCQs | 任务概述 |
---|---|---|
MedQA (USMLE) | 1273 | USMLE医学执照考试的MCQ |
MedMCQA | 4183 | 基于印度医学入学考试(NEET,AIIMS)的MCQ |
MMLU (临床知识) | 265 | 临床知识MCQ |
MMLU (医学遗传学) | 100 | 医学遗传学MCQ |
MMLU (解剖学) | 135 | 解剖学MCQ |
MMLU (职业医学) | 272 | 基于USMLE的职业医学MCQ |
MMLU (大学生物学) | 144 | 大学生物学MCQ |
MMLU (大学医学) | 173 | 大学医学MCQ |
PubMedQA | 500 | 带有相应PubMed摘录的研究问题(是/否/可能) |
540B参数[16].医学领域的开源模型由Llama 3.1 UltraMedical 70B主导,该模型达到85.4%的准确率。在小于10B参数的范围内,Llama 3.1 UltraMedical 8B在SOTA上居于首位,准确率为76.1%。在“移动大小”的模型中,作者定义为小于5B参数,因为显著更高的量化、较慢的 Token 生成和计算需求[13]超越了5B参数阈值,MedMobile比先前的SOTA提高了20%以上的准确度。作者注意到,在小于5B参数的空间中,一段时间内没有显著的发展,MedMobile是首个突破这一类阈值的模型。面板D)显示了组件逐步消融研究。作者在面板B中添加了 Pipeline 中的单个组件,并在继续之前评估它们对模型准确率的影响。通过这种方法,作者在MedQA测试集上的准确率从 Baseline 57.5%提高到75.7%。
在过去几年里,几种技术在各种基准测试上的语言模型问答性能得到了改进[14, 17]。然而,作者发现针对作者上下文的验证性技术缺乏,因为一种技术,如k-shot prompting,可能只对特定大小、领域或技术组合有效。为了确定作者 Pipeline 中积极贡献的组件,作者逐个添加组件并进行每次添加后的评估(图2D)。在组件测试后,作者开发了基于SFT、CoT、响应集成和 Prompt 优化的最终 Pipeline (图1B)。尽管 Baseline phi-3-mini在MedQA上达到57.5%的分数,添加CoT(+2.4%)、集成响应(+7.4%)并执行SFT(+8.4%)后,MedMobile在MedQA上的准确率达到75.7%。在这个过程中,作者注意到一些有前途的 Pipeline 组件在医学问答推理中没有产生积极影响,例如使用示例的k-shot prompting(-9.4%)和检索增强生成(RAG)(-12.6%)等,这可能是由于输入 Token 长度增加。这种改进相对于下一个最好的子5B参数语言模型VOD(55.0%的MedQA准确率)有了显著提高。MedMobile在MultiMedQA上的准确率与医学领域的SOTA模型相当,参数数量是其两倍多。事实上,MedMobile在MultiMedQA的9个评估任务中,有6个超过了UltraMedical 8B(目前参数数量最高的子10B语言模型,MedQA准确率55.0%)。据作者所知,MedMobile也是第一个在MedQA上通过USMLE-like问题的最小模型。
MedMobile展示了开发出对复杂医疗场景具有解释能力的响应能力,详细考虑了可能影响治疗的多种患者症状的复杂组合(图1C)。有明确的逐步逻辑CoT响应的划分,证明了从GPT-4中提取医学知识并保留推理能力。然而,作者注意到基于词输出长度(见补充图1B)的性能下降。这可能归因于在制作更长的响应时模型CoT的损失,因为经过微调的小模型倾向于具有较弱的推理能力和较弱的CoT。这可以与phi-3-mini Baseline 进行比较,后者在其包含的不同词输出中具有更一致的准确性。然而,在几乎所有bin中(无论输出长度),MedMobile都优于phi-3-mini,这突显了领域特定知识的优势以及MedMobile在医疗任务上的性能提升。
相反,与流行的文献不符,作者没有使用许多大型语言模型所采用的 Prompt 工程方法,包括检索增强生成(RAG)和k-shot Prompt 。作者实现了这些技术(见补充图3),但它们并没有带来任何显著程度的改进。作者推测,这主要是由于小型语言模型的上下文窗口限制所导致的,并注意到这是未来研究有趣的障碍 [7]。
作者的工作存在一些限制。尽管作者在MedMobile规模上展示了显著的改进,但任何大小的模型在医学任务上仍具有优越性能。因此,可以忽略订阅费用和上传受版权保护的患者健康信息的问题,GPT-4可以用于快速可靠的在线推理。作者还注意到,MedMobile在现实世界的临床和患者接触部署尚未得到评估,留给未来的工作。最后,在本文中,MedMobile仅针对语言进行训练,无法接收图像输入。
这项工作可以通过在Phi-3-vision的基础上构建视觉语言模型(VLMs)来轻松扩展。VLMs具有超人的预测能力和新颖的模式识别,但由于与高分辨率成像相关的大数据量,其训练和推理成本过高[19, 20]。使用较小的域特定模型,如MedMobile,可以降低这些日益增长的计算成本。与此同时,作者也注意到新型成像方法的出现,这些方法提供了机器学习模型可以利用的新维度数据,例如光声成像提供光谱信息到单个 Voxel 或剪切波弹性成像提供有关组织刚度的信息[21, 22]。考虑到这些模式在新型成像模式下(例如光声成像或剪切波成像)增加的数据量(例如光声成像的光谱数据或剪切波成像的组织刚度数据),较小的语言模型可能有助于促进新、前沿的洞察和模式,这些洞察和模式通常对人类隐藏,同时提高计算时间。与成像模式的改进、VLM模式识别和移动基础的机器学习平台(如苹果的新的苹果智能[23])的增加相结合,作者设想了一种用于移动设备大小的VLMs的方法,该方法围绕可访问性为中心,医生和患者可以用他们的iPhone拍照,并从专家 Level 的、精心调整的LLM中获得洞察,而不会损害个人安全,也不需要大量的计算能力。
近年来其他领域的研究也表明,在多语言模型 Agent 系统[24]的帮助下,基准准确率得到了有效提高。未来研究的一个有前景的方向可能是将MedMobile作为多语言模型系统的一部分,将问题解决划分为多个MedMobile的迭代。在这样一个集成中进一步优化GPT-4在各个 Agent 上的性能,可能会带来显著的准确率提升。
高度准确、专家 Level 的移动设备语言模型,如MedMobile,在低和中等资源设置中具有前景,因为它们降低了计算要求,并具有更快的推理时间[25, 26, 27],同时也有助于将大型技术公司的LLM(语言模型)技术普及到拥有大量计算预算的公司和团体之外。虽然作者主要开发这项工作是为了其在医疗领域的应用,但移动设备语言模型和相关技术可以应用于任何领域,以训练专家 Level 的移动助手。作者希望这项工作和作者的开源代码库能够为医生和患者带来有益的移动设备语言模型的发展。
为了确定一个语言模型在医学领域的能力,作者在MultiMedQA上评估该模型,MultiMedQA是一个包含医学问题的多数据集[12]。MultiMedQA由8个单独的数据集组成,这些数据集从USMLE风格的问诊(MedQA)到大学生物学(MMLU College Biology)不等,如图1A所示。作者选择在这些数据集上进行评估,因为USMLE风格的问题需要医学推理和知识达到专家水平,同时也要测试模型在处理其他数据集的医学任务时的能力。在PubMedQA上的测试也展示了MedMobile在研究相关医学问题上的能力。这些结果在补充表1中显示。
为了将phi-3-mini的 Baseline 参数训练到医学领域,作者使用了UltraMedical数据集,这是一个包含超过40万个合成和手工筛选的单选题[10]的集合。特别是,作者将phi-3-mini通过GPT-4的CoT对每个问题进行指令微调,从GPT-4的更大参数集中进行知识蒸馏。为了进行SFT,作者在UltraMedical数据集上训练phi-3-mini,在4个A100节点上进行3个周期,总共83小时。作者还使用了学习率和有效批处理大小为32。
为了确保 Prompt 的流畅和有利,作者使用了TextGrad [15],这是一个用于改进 Prompt 语的多语言模型系统。TextGrad通过利用一个更强的模型(在本例中,作者使用GPT-4)来自动开发较小语言模型的 Prompt 的改进。GPT-4作为优化模型,生成新的 Prompt 模板。然后,根据MedMobile在 Prompt 上的生成准确性计算损失。尽管TextGrad为phi-3-mini Baseline 找到了改进的 Prompt 语,但它也支持MedMobile在没有额外 Prompt 指令的情况下表现最好。由于该模型的大小限制了上下文窗口功能,很可能会导致额外的文本只阻碍了模型在已经训练的特定领域内进行推理的任务。通过利用GPT-4的CoT响应来微调MedMobile,MedMobile在不需要额外 Prompt 的情况下展示了高度的医学推理能力。
MedMobile 还被评估了其他 Prompt 方法,如 k-shot Prompt 、检索增强生成、BM-25 搜索以及额外的 Prompt 技术。为了开发检索型 Prompt 方法,作者输入了 Harrison's Principles of Internal Medicine, 21e [28] 的段落。作者尝试了各种检索型场景,例如 BM-25 的 lucine 实现、基于余弦相似度的 RAG 与嵌入 MedCPT 的问句和段落相结合的方法,以及使用两者分数选择最佳上下文段落的方法。然而,作者注意到这些添加并没有显著提高模型性能。
EKO得到了国家癌症研究所的早期外科科学家计划(3P30CA016087-41S1)和W.M. Keck基金会的支持。作者想要感谢Nader Mherabi和Dafna Bar-Sagi博士,他们一直支持纽约大学医学AI研究。作者感谢迈克尔·康斯坦丁诺、凯文·杨和纽约大学朗诺高性能计算(HPC)团队,他们为作者提供基本的计算资源支持。
EKO 构思并指导了这项研究。KV 设计了 MedMobile LLM 的流水线。KV、JS 和 AA 实现了和训练了 LLM。KV 评估和测试了 LLM。JS 协助 LLM 的服务和部署。KV 撰写了原始草稿。KV、AA、DAA、EKO 修订并通过了稿件。所有作者均修订并批准了稿件。
披露:EKO和DA报告与Sofinnova Partners的咨询收入。EKO报告了Eikon Therapeutics和Artisight Incorporate的股权。其他作者与本文无关的个人信息、财务或机构利益。
当前研究中生成的或分析的数据集可在nyuolab/MedMobile仓库中找到,https://github.com/nyuolab/MedMobile。模型权重可在https://huggingface.co/KrithikV/MedMobile上找到。
[0]. MedMobile: A mobile-sized language model with expert-level clinical capabilities.