前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nature | 大型语言模型编码临床知识

Nature | 大型语言模型编码临床知识

作者头像
DrugAI
发布2023-09-19 14:48:56
3310
发布2023-09-19 14:48:56
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自google天团的一篇语言模型应用的论文。大型语言模型(LLM)展示了令人印象深刻的能力,但在临床应用方面的门槛较高。评估模型的临床知识的尝试通常依赖于基于有限基准的自动化评估。在这里,为了解决这些局限性,作者提出了MultiMedQA,这是一个结合了六个现有的医学问答数据集(涵盖专业医学、研究和消费者查询)以及一个新的在线医学问题数据集HealthSearchQA的基准测试。作者提出了一个人类评估框架,对模型答案进行多维度评估,包括事实性、理解力、推理能力、可能的危害和偏见。此外,作者对Pathways Language Model(PaLM,一个拥有5400亿参数的LLM)及其经过指令调整的变体Flan-PaLM在MultiMedQA上进行评估。使用一组提示策略,Flan-PaLM在每个MultiMedQA多项选择数据集上实现了最先进的准确性,包括在MedQA上达到了67.6%的准确率(美国医学执照考试类型的问题),超过了先前的最佳水平超过17%。

最近大型语言模型(LLMs)的进展为重新思考人工智能系统提供了机会,其中语言作为人工智能与人类交互的工具。LLMs是大型预训练的人工智能系统,可以在多个领域和各种任务中重新利用,而只需进行最少的调整。这些具有表达能力和交互能力的模型能够从医学语料库中编码的知识中以大规模学习到普遍有用的表示方法。这些模型在医学领域有许多令人兴奋的潜在应用,包括知识检索、临床决策支持、关键发现总结、分诊患者、解决初级护理问题等等。然而,医学领域的安全关键性质要求对评估框架进行深思熟虑的开发,使研究人员能够有意义地衡量进展,并捕捉和减轻潜在的危害。这对LLMs尤为重要,因为这些模型可能会生成与临床和社会价值观不符的文本生成(以下简称为“生成物”)。例如,它们可能会产生令人信服的医学错误信息,或者包含可能加剧健康差距的偏见。为了评估LLMs在医学中编码临床知识的程度并评估其潜在应用,作者考虑了回答医学问题的能力。这个任务具有挑战性:提供高质量的医学问题答案需要理解医学背景、回忆适当的医学知识,并与专家信息进行推理。现有的医学问答基准测试经常局限于评估分类准确性或自动化自然语言生成指标,并不能提供现实临床应用所需的详细分析。这就产生了对一个广泛的医学问答基准测试的需求,以评估LLMs在回答问题的准确性、推理中使用专业知识的程度、有用性、精确性、健康公平性和潜在危害等方面的表现。

图 1

文章整体贡献如图1琐所示。作者创建了MultiMedQA,这是一个用于回答涵盖医学考试、医学研究和消费者医学问题的基准测试,并且MultiMedQA上评估了PaLM及其经过指令调整的变体Flan-PaLM。通过使用一组提示策略,Flan-PaLM在MedQA(美国医学执照考试(USMLE))、MedMCQA、PubMedQA和MMLU临床主题上超过了最先进的性能。特别是在MedQA(USMLE)上的改进超过了先前的最佳水平超过17%。接下来,作者提出了指令提示调整,进一步将Flan-PaLM与医学领域对齐,产生了Med-PaLM。在人类评估框架下,Med-PaLM对消费者医学问题的回答与临床医生给出的答案相比较好。

模型预测能力

图 2

如图2所示,Flan-PaLM 540B模型在MedQA,MedMCQA和PubMedQA数据集上超过了先前的最先进性能。先前的最先进结果来自Galactica(MedMCQA)、PubMedGPT(MedQA)和BioGPT(PubMedQA)。每列上方显示了准确率百分比。

作者对三个多项选择数据集(MedQA、MedMCQA和PubMedQA)进行了多个消融实验,以更好地理解结果并确定对Flan-PaLM性能贡献最大的关键因素。

在所有模型规模上,作者观察到经过指令调整的Flan-PaLM模型在MedQA、MedMCQA和PubMedQA数据集上优于基线的PaLM模型。在这些实验中,作者使用提示文本对模型进行少量示例的提示。在PubMedQA数据集中,改进效果最为显著,8B的Flan-PaLM模型比基线的PaLM模型提高了30%以上。在62B和540B变种模型中也观察到类似的显著改进。这些结果表明指令调整的明显优势。

通过将模型从8B扩展到62B和540B,可以获得显著的性能改进。当将模型从8B扩展到540B时,观察到性能提升了大约2倍,无论是在PaLM还是Flan-PaLM模型中。这些改进在MedQA和MedMCQA数据集中表现得更为显著。特别是对于Flan-PaLM模型,540B变种的性能比62B变种提高了超过14%,比8B变种提高了超过24%。

作者没有观察到在MedQA、MedMCQA和PubMedQA多项选择数据集上使用思维链推理路(COT)提示策略相比标准的少量示例提示策略的改进。这可能是因为存在许多可能的思维链推理路径导向特定答案,而抽样一个路径可能无法产生最准确的结果。

目前已经有研究表明,当COT提示策略降低性能时,自一致性可以发挥作用。作者将自一致性应用于MultiMedQA,在每个三个多项选择数据集中将思维链答案解释路径(解码)的数量固定为11个,然后选择最一致的答案。使用这种策略,可以观察到Flan-PaLM 540B模型在MedQA和MedMCQA数据集上相对于标准的少量示例提示策略有显著的改进。特别是在MedQA数据集上,自一致性带来了超过7%的改进。然而,自一致性导致了PubMedQA数据集性能的下降。

大型语言模型(LLMs)能够生成长、连贯和复杂的文本。然而,它们也可能生成事实上不准确的陈述。特别是在医学领域,这些失效模式需要经过仔细审查,在实际应用中,不太可能为真实的生成物应该被忽略。相反,我们可能希望在需要时转向其他信息来源或专家意见。因此,LLMs在回答中传达不确定性估计是一种解决方案。虽然LLM输出序列的不确定性测量仍然是一个开放的研究领域,但作者探索了一个简单的代理作为初步方法来衡量LLM的不确定性和陈述准确性之间的关系。作者创建了一个选择性预测任务,使用与自一致性相匹配的解码数量作为不确定性的度量,并在模型没有适当自信时使用该度量来保留答案。作者使用具有思维链提示和自一致性的Flan-PaLM 540B模型的41个解码进行了实验。可以观察到随着推迟比例的增加(即要求更高的自信度来提供预测),模型在MedQA上的性能提高,当推迟比例为0.45时,准确率达到82.5%(图3)。

图 3

随后作者从HealthSearchQA随机选择了100个问题,从LiveQA选择了20个问题,从MedicationQA选择了20个问题,作为进行详细人工评估的较小的长形回答基准。这些问题反映了真实世界中消费者对医学信息的查询。这些选定的问题与用于生成Med-PaLM的指示提示调整的示例不重叠。作者请一组临床医生为这些问题生成专家参考答案,然后使用Flan-PaLM和Med-PaLM(两个540B模型)生成答案。每个答案由一名临床医生评估。为了减少不同临床医生之间的变异对研究结果的推广能力的影响,评估小组由九名临床医生组成(分别位于美国、英国和印度)。使用非参数bootstrap方法来估计结果的任何显著变化,其中使用了1,000个bootstrap副本来生成每个集合的分布,并使用95%的bootstrap百分位间隔来评估变化,在图4-6中进行了可视化展示。

图 4

图 5

图 6

通过统计,作者认为临床医生的答案在92.9%的问题上与科学共识一致,而Flan-PaLM的答案只有61.9%与科学共识一致(图4)。对于其他问题,答案要么与共识相悖,要么没有共识存在。这表明仅仅进行通用的指示提示调整是不足以产生科学和临床基础的答案的。然而,92.6%的Med-PaLM答案被认为与科学共识相符,展示了指示提示调整作为一种对齐技术的优势,能够产生科学基础的答案。

为了了解Med-PaLM的医学理解、知识检索和推理能力,作者请一组临床医生评估答案是否包含正确或不正确的医学阅读理解、医学知识检索和医学推理能力的证据(例如一个或多个示例)。正确和不正确的证据被并行评估,因为单个长篇答案可能同时包含正确和不正确的理解、检索和推理的证据。再次,专家生成的答案优于Flan-PaLM生成的答案,但通过对Med-PaLM进行指示提示调整,性能有所提高(图5)。这一趋势在用于评估这些能力的六个子问题中均观察到。例如,对于正确检索医学知识的证据,可以发现临床医生的答案得分为97.8%,而Flan-PaLM得分为76.3%。然而,经过指示提示调整的Med-PaLM模型得分为95.4%,缩小了与临床医生之间的性能差距。

结论

结果表明,回答医学问题的强大性能可能是LLMs与有效的指示提示调整相结合的一种新兴能力。在生物医学语料库上训练语言模型的研究已经有了几次尝试,特别是在PubMed上。这些尝试包括BioGPT(355B)、PubMedGPT(2.7B)和Galactica(120B)。作者的模型在PubMedQA上能够超过这些模型的性能,而无需进行任何特定数据集的精调。此外,规模和指示精调的好处在MedQA数据集上更加明显。基于这些结果,我们可以得出结论,随着模型规模的扩大,医学回答能力(知识检索、阅读理解和推理能力)得到了提高。

然而,作者对消费者医学问题回答数据集的人工评估结果明确表明,仅仅通过扩大规模是不够的。即使是像Flan-PaLM这样强大的语言模型也可能生成不适合在安全关键的医学领域使用的答案。然而,Med-PaLM的结果表明,指示精调是一种数据和参数高效的对齐技术,对于提高准确性、事实性、一致性、安全性、伤害和偏见等方面非常有用,有助于缩小与临床专家之间的差距,并使这些模型更接近真实世界的临床应用。

参考资料

Singhal, K., Azizi, S., Tu, T. et al. Large language models encode clinical knowledge. Nature (2023).

https://doi.org/10.1038/s41586-023-06291-2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-10 09:30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档