Nat. Mach. Intell. | 面向精神科临床实践的领域适配大语言模型

DrugAI

发布于 2026-05-08 19:49:12

190

DRUGONE

精神障碍影响着全球近十亿人，但精神科医疗资源长期受限于专业人员短缺以及高度依赖经验的决策模式。尽管近年来大语言模型取得显著进展，其在精神健康领域的应用大多面向患者端，缺乏与真实临床流程的深度对齐。

研究人员提出了 PsychFound，一个面向临床医生、经过领域适配的大语言模型，用于支持精神科临床实践。该模型基于专家整理的精神医学语料以及 64,588 条真实电子病历，通过三阶段训练框架构建，整合了专业知识、临床推理能力以及覆盖诊断、治疗与长期管理的完整任务能力。

在回顾性评估中，PsychFound 在三类专业知识测试和五类临床任务基准中均取得最佳表现。在真实世界前瞻性研究中，使用该模型辅助的住院医师在诊疗质量、诊断准确性、用药合理性及文书效率方面均显著提升。此外，多层级精神科医生评估表明，其临床推理能力已达到主治医师水平。这些结果表明，PsychFound 可作为一个具备可解释性的专家级决策支持系统，有望提升精神科医疗的一致性、效率与规范化水平。

精神障碍已成为全球疾病负担的重要组成部分，其影响甚至超过心血管疾病和癌症。在中国，终生患病率达到 16.6%，进一步加剧公共健康压力。与此同时，精神科医生数量严重不足，尤其在中低收入地区更为突出。

除了人力资源匮乏，精神科诊疗还高度依赖医生经验，且疾病本身具有高度异质性，这导致临床实践差异显著，难以实现标准化医疗。

精神医学的一个关键特点在于其高度依赖文本信息，例如病史、精神状态评估以及长期病程记录。这些非结构化数据既包含丰富信息，也增加了医生的认知负担。正因如此，精神科成为自然语言处理与大语言模型极具潜力的应用场景。

尽管已有一些模型用于自杀风险评估、心理分析或咨询辅助，但多数仍面向普通用户，而非服务临床医生，缺乏对诊断决策、差异诊断、个体化用药和长期管理的支持能力。

基于此，研究人员提出 PsychFound，旨在构建一个真正服务临床医生、覆盖完整精神科工作流程的统一模型。

方法

研究人员构建了两个核心数据集：PsychCorpus（多层级精神医学知识语料）与 PsychClinical（真实临床病例数据）。在此基础上，设计了三阶段模型开发框架。

首先，通过知识注入阶段，使模型掌握系统化精神医学知识；随后，通过强化学习增强临床推理能力，使模型能够进行结构化诊断思考；最后，通过真实病例微调，并结合治疗药物监测、药物基因组学分析及相似病例检索，使模型能够适配真实临床流程。

在评估方面，研究人员采用双重策略：一方面进行回顾性基准测试，评估模型在知识与任务上的表现；另一方面开展真实世界前瞻性研究，将住院医师随机分为使用模型与不使用模型两组，对比临床表现与患者结果。

此外，还设计了医生阅读研究，以评估模型在临床推理层面的能力。

图1：PsychFound 的数据来源与三阶段训练框架。

图2：模型评估体系与临床流程整合。

结果

专业知识能力评估

PsychFound 在精神医学知识测试中表现出显著优势，整体准确率达到 96.2%，明显超过所有对比模型。其在概念、诊断、治疗及伦理等多个知识维度均取得最高表现。

这一结果说明，领域知识注入显著提升了模型的专业性，使其具备接近专家级的知识掌握能力。

临床任务整体表现

在包含 300 个案例的 PsychBench 评估中，PsychFound 在五类核心任务（文本理解、初步诊断、鉴别诊断、用药推荐和长期管理）中均取得最高综合得分。

尽管模型规模仅为 7B 参数，其性能仍明显超越更大模型，表现出极高的参数效率。

任务级别表现分析

临床文本理解与生成

模型在文本生成质量（BLEU、ROUGE、BERTScore）上显著领先，并在诊断信息完整性方面接近满分。这表明其能够高质量整理复杂病历信息。

但错误主要集中在起病模式判断及症状总结上，尤其是在病程复杂或波动较大的病例中。

初步诊断

在 ICD-10 分类任务中，PsychFound 平均准确率接近 90%，在所有疾病类别中保持领先。

这一能力体现了模型对精神疾病分类体系的深度理解。

鉴别诊断

模型在区分不同精神疾病方面表现出较高敏感性与特异性，在多个评价指标上均优于其他模型。

错误主要来源于：

伴随症状误判；
核心症状识别不足；
病程推断错误。
用药推荐

PsychFound 在推荐覆盖率、匹配度及首选药物一致性方面均优于对比模型。

但模型倾向于给出较为保守的治疗方案，部分情况下低估病情严重性。

长期病程管理

在处理长时间跨度的病历信息时，模型在语言指标和医学实体识别上均表现最佳。

主要错误来源于：

长距离信息记忆不足；
细节信息遗漏。

图3：模型在知识与任务评估中的整体表现。

图4：五类临床任务的性能对比。

跨语言能力

在英文病例测试中，模型仍保持较高诊断准确率，说明其具有良好的跨语言泛化能力。

但在人格障碍等类别上表现较弱，主要原因是训练数据中该类病例较少。

消融实验

研究表明：

仅有知识或仅有推理能力的模型表现显著下降；
同时具备知识与推理能力时性能最佳。

这说明临床模型必须同时具备“知道什么”和“如何思考”。

图5：消融实验与模型推理对比。

对输入变化的敏感性

模型能够根据患者信息的细微变化动态调整诊断结果，例如：

是否存在精神病性症状；
是否有躁狂史；
病程是否复发。

这一能力体现了其接近临床医生的推理逻辑。

真实世界前瞻性研究

在真实临床环境中，使用 PsychFound 的医生表现出：

更高的诊断准确率（72% vs 41%）；
更高质量的鉴别诊断；
更合理的用药；
更快的文书完成速度。

但患者短期疗效未显著改善，说明模型主要提升的是决策效率而非直接治疗效果。

医生评估与用户反馈

在 60 名精神科医生评估中，PsychFound 的表现与主治医生相当。

用户调查显示：

超过 95% 认为易于使用；
85% 认为可降低工作负担；
总体满意度接近 87%。

图6：真实世界临床研究与医生评估结果。

讨论

本研究展示了一个关键趋势：通用大语言模型只有经过领域适配，才能真正进入临床实践。

PsychFound 的成功在于三个方面的结合：

一是高质量精神医学知识的系统注入，使模型具备专业基础；

二是结构化推理能力，使其能够进行类似医生的诊断思考；

三是与真实临床流程的深度融合，使其具备实际可用性。

然而，模型仍存在一些局限，例如在长期信息记忆、复杂病例理解以及部分疾病类别上的表现仍需提升。此外，其对患者结局的影响仍需长期研究验证。

总体来看，该研究表明，大语言模型可以从“辅助工具”进一步演化为“临床协作伙伴”，在提升医疗效率与标准化方面具有重要潜力。

整理 | DrugOne团队

参考资料

Wang, R., Liu, S., Zhang, L. et al. A domain-adapted large language model to support clinicians in psychiatric clinical practice. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01224-w