作者呈现了Eir-8B,这是一个具有80亿参数的大型语言模型,专门设计用于提高泰语文本处理医学任务的准确性。该模型关注于为医护行人和患者提供明确且易于理解的答案,从而提高诊断和治疗过程的效率。 作者进行了人类评估以确保模型符合护理标准并提供客观答案。为了优先考虑数据安全性,该模型部署在医院的内部网络中,确保了高度的安全性和更快的处理速度。内部API连接采用了加密和严格的认证措施以防止数据泄露和未经授权的访问。 作者在四个医学基准上评估了几个具有80亿参数的开放源大型语言模型:MedQA,MedMCQA,PubMedQA和MMLU的医学子集。 作者使用了最佳 Baseline 来开发Eir-8B。作者的评估采用了多种问答策略,包括零样本、少样本、连续思维推理和集成/自洽投票方法。作者的模型比商业可用的泰语大型语言模型提高了10%以上。 此外,作者还为泰国的18个临床任务开发了增强模型测试,作者的模型超过了GPT-4o性能的11%。
近年来人工智能(AI)和大型语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的进步,大大提升了各种功能的使用效率,如客户服务、语言翻译和内容生成。在这个背景下,AI在多个领域,尤其是医疗领域的辅助作用具有尤为重要的意义。
本研究旨在探讨如何利用AI提取无结构化医学数据中的宝贵洞见,通过在泰国医疗保健领域运用AI来实现这一目标。这些洞见对于提高人口健康管理、临床试验、药物发现,最终改善患者结果和医疗服务交付,具有重要意义。
LLMs能在电子健康记录和数字医学数据集中识别关键数据点,对于新药和治疗方案的开发有着重要作用。零样本学习的能力使LLMs能够通过简单的指示适应新任务,即使没有事先接触。高级技术如因果推理(CoT)[37]增强了模型的深度推理和决策能力,在复杂问题解决任务中提高了准确性。另外,基于代理的建模方法通过将子任务分配给各种子代理来高效管理复杂任务,优化了数据处理。
尽管LLMs具有这些优势,但其通用性可能引发重大的隐私问题,尤其是在医疗领域,患者信息的保密性至关重要。在保持LLMs的可靠性和可用性的同时,确保其隐私保护的坚固性,仍然是一个需要解决的至关重要的问题。
尽管LLMs在各个领域都取得了成功,但在医疗保健领域的表现往往不尽如人意,主要是由于缺乏特定行业的培训。初步研究结果表明,将LLMs直接应用于像生物命名实体识别(NER)和关系提取(RE)等任务,与专业模型相比,表现不佳。另外,将LLMs引入医院系统引入了隐私风险,因为许多LLM只能通过外部API访问,上传敏感患者数据的实用性不高。
在泰国,泰语自然语言处理技术的发展仍然处于初级阶段。泰语语法复杂,各种习语表达也带来了巨大的挑战,在创建有效语言模型方面。此外,高质量的泰语语言资源仍然是一个不断面临的问题。
作者假定,通过在适度规模的、泰语医疗特定的数据集上进行额外的训练,强大的语言模型可以有效地适应泰语。为此,作者引入了Eir-8B,这是一个起初基于LLaMA 3.1 Instruct-8B进行修改的8亿参数模型[5]。作者从泰国Exam [1]这个基于泰语语言考试的基准测试,评估了模型在泰语领域的掌握能力。作者还探索了如何将LLaMA 3.1 Instruct-8B进行微调,以遵循泰国语言的指示,增强其在泰语特定任务中的可用性和性能。
作者使用泰语翻译数据集和医学术语数据集,比较了使用泰语指示进行微调的模型在机器翻译、抽象性总结和问答等任务中的Zero-Shot能力。作者的目标是开发一个适用于医疗领域的特殊模型——Eir-8B,该模型经过了广泛的预训练,以加强其医疗知识,并对泰语医疗术语和英语有深入的理解。作者的最终目标是,通过为泰国医疗保健背景定制的模型,推动泰国的个性化医疗。
近年来,自Chat GPT推出以来,基于Transformer模型的自然语言处理(NLP)潜力已经得到了有效展示。这些模型利用各种来源的大型数据集,如维基百科、BooksCorpus、Common Crawl (CC)和MC4,生成具有现实感和自然感的文本。目前,支持泰语的模型持续发展。然而,当考虑在泰国特定领域如医疗保健领域中的应用时,现有工作仍然不足以满足需求。该领域的相关研究包括:
台风[31]是一个专门为泰语开发的大型语言模型(LLMs)系列。本报告讨论了开发泰国 LLMs 的挑战和见解,包括数据准备、模型预训练、指令调优和评估。尽管预训练数据有限,但台风利用持续训练从强大的 LLM 中转移知识。这些模型使用泰国 Exam 进行评估,这是一个基于泰国高中生和专业人士考试的基准。经过对泰国指令的微调,台风在泰国表现优异,超过了其他开源的泰语语言模型,并实现了在泰语中与 GPT-3.5 相当的表现,参数仅为 70 亿。
Open ThaiGPT [36] 是由 Llama2 [35] 开发的,拥有70亿个参数。它的分词器已经通过添加24,554个额外的泰语词汇扩展,以提高泰语生成性能。该模型已在泰语语言数据和已被翻译的命令数据集上进行了进一步的训练。虽然模型的权重已经公开,但一些详细信息仍有限制。
在医学语言模型领域,例如日语和汉语模型,其性能指标(MedBench)值得关注。BioMistral于2024年2月发布,采用Mistral-7B进行了连续1.5个epoch的医学文档(30亿个 Token )预训练,并经过指令微调。目前,医疗领域中的语言学习模型(LLM)主要是由私人模型主导,而这些模型通常难以获取。在该领域中,最有效的模型是GPT-4和MedPalm-2。
在科学和生物医学研究领域,最近的一些研究如DARE[29],PubMedBERT[32],SciBERT[14],BioNLP[3],BioBERT[22],ScholarBERT[12]和BioGPT[26]表明,使用精心构建的科学和生物医学数据集进行语言模型对于分类和生成任务具有有效性。
尽管这些模型展现出了有前途的结果,但通常比像GPT-4和MedPalm这样的大型LLM更小、范围更窄。尽管取得了进步,但在医疗领域的专业LLM应用,如增强临床评估和总结复杂的 medical communications,仍面临特定的挑战。
值得注意的是,所有的这些模型都尚未具备足够强大支持泰医学语言的能力,这在医疗保健领域因为风险偏置,有毒性,不准确的表现和指导方向错误而成为一个重要的且急迫的缺口。
Eir-8B模型的开发是一个复杂的过程,尤其是在为泰国创建一个专门针对医疗领域的语言模型方面。具有独特语言结构的泰语,在医学领域中的专业词汇非常有限。这个限制迫切需要创新的训练方法来实施有效的训练。
作者采用的一个关键策略是将翻译的英语医疗术语整合到泰语模型中。例如,"ventilator"或"intubation"这些术语被纳入模型。这种方法使得模型能够更好地理解和处理在广泛使用但缺乏地道泰语对应词的医学术语。
此外,作者主要依靠生成合成数据。这种合成数据在解决实际世界数据要么不存在,要么不足够的空白方面发挥了关键作用。通过将现有医疗文档的信息与新产生的内容相结合,作者能够构建一个更全面的数据集,从而显著提高了模型的准确性和总体性能。
尽管开发过程需要大量的时间和努力,但是结果非常值得。Eir-8B模型表现出强大的性能,现在准备整合到泰国的医疗系统中,旨在通过提供更全面的医疗服务,推动全国范围内的医疗水平提升。
作者决定了通过使用一个详细的、高质量的临床医疗保健数据集来提高泰国答案的质量。这个数据集包含10万个页面,泰英两语种(各占50%)分布均匀。此外,作者还融入了ICD-10知识来提高模型对泰国医疗背景和术语的理解能力。在需要扩充的部分数据集上,作者应用了合成数据生成技术,以确保达到最高可能的准确性。本过程如图1所示。
医学问题回答:这需要阅读理解能力,并成为衡量LLM在医学领域能力的标准。所使用的数据集包括MedQA[17], MedMCQA[2], PubMedQA[17], MMLU medical-subset[11],这些数据集都与医学和生物学相关。这些数据集对于研究和评估专业医学知识至关重要,比如医学考试问题和需要理解医学研究的问题。
MedQA数据集包含美国医师执照考试(USMLE)的多个选择题,评估美国医生的通用医学知识和推理能力。它包括开发集中的11,450道问题和测试集中的1,273道问题,每道题提供4或5个答案选项。
MedMCQA是来自印度医学入学考试(AIIMS/NEET)的QA数据集,涵盖了24k个医疗主题和21个医学领域。其中包括开发集中的超过187,000道问题和测试集中的6,100道问题,每道问题都提供4个答案选项和一个解释。它评估了模型的医学知识和推理能力。
PubMedQA是一个带有专家标注的封闭式QA数据集,其中包含1000个专家标记的问答对,每个问答对都与PubMed文摘相关。该任务是根据文摘给出的Yes/No/Maybe回答。数据集分为开发集中的500个问题和测试集中的500个问题,评估模型在科学生物医学文献上的理解和推理能力。
单气球镜检查在社区环境中是否有效和安全?
2007年3月至2011年1月期间,作者对66名患者进行了88次单气球镜检查。疾病包括但不限于:评估贫血/消化道出血,小肠IBD和腔梗阻。在进行DBE评估前,有43名患者使用了视频胶囊内镜(VCE)。平均年龄为62岁。32名患者为女性,15名为非裔美国人;44名患者接受直进和44名患者接受回肠镜。
平均每名患者进行直进DBE的时间为107.4 ± 30.0分钟,距离幽门为318.4 ± 152.9厘米。平均每名患者进行回肠镜的时间为100.7 ± 27.3分钟,距离ileococal阀达到168.9 ± 109.1厘米。对出血源进行电凝固治疗的有20名患者(30.3%),进行组织学检查的有17名患者(25.8%)和治疗Crohn's病相关小肠梗阻的有4名患者(6.1%)。在DBE之前有33次VCE检查,74.4%的患者经内镜证明确诊断。在3例患者中,DBE显示的发现VCE未记录。
答:是
解释:DBE在具有可比产量、有效性和并发症率的社区环境中与具有相似特征的三级转诊中心的DBE进行比较,两者在安全性和有效性上具有相等的效果。
本文介绍了泰国的高质量标准数据集如何被用作生成额外的问题集。这种方法不仅提高了问题与答案生成的全面性,而且确保了信息的准确性和及时性。通过采用RAG,作者可以集成来自各种来源的数据来创建能够有效满足用户需求的问题与答案集。详细说明如下:
作者使用了检索增强生成(RAG)技术,从泰国的优质标准数据集中衍生出额外的数据集。这种方法不仅提高了问题与答案生成的全面性,而且还确保了信息是准确且最新的。通过使用RAG,作者可以集成来自各种来源的数据来创建问题与答案集,这些答案集能够有效地满足用户的需求。关于这个方法和生成的数据的具体细节已经在图2中详细阐述。
作者通过创建额外的266,080个问题-答案对,在作者的医学合成数据集中为指示调整进行了扩展。这些对已经纳入了合成数据集和最终的监督训练数据中。这个全面的数据显示了医学和一般微调数据,以及合成数据,从而增强了模型的医学知识和其对泰国语言上下文的理解。#### 3.2.3 数据过滤 Pipeline
作者应用了DEITA[24]技术,对得分在0到10之间的进行了评估,如图3和4所示。然后,所有低于7的分数被移除以过滤掉低质量的数据,这意味着分析和评估仍然准确可靠。
Eir-8B在电子病历系统中的角色涵盖多种任务,包括命名实体识别(NER),该任务专注于识别和分类主要信息,如病人姓名、医疗状况、药品和其他关键数据。此外,AI可以帮助管理病人数据,进行医疗分析、诊断和治疗结果预测,使医护行人能够更快、更准确地做出决策。
为了实现这些目标,作者确定了18个关键领域(请参见表2),AI可以在其中有效应用,为将AI整合到各种医院运营中提供一个实用的框架。这些类别有助于根据医疗需求定制AI应用,确保工作流程无缝而高效。
总之,将AI与HIS结合不仅减轻了医护工作行人的工作负担,还提升了患者护理的质量,从而使医疗交付更加高效和精确。
作者还开发了一个具有特定医疗知识评估和分析的预测模型和咨询系统[16],并将其专门针对泰国进行增强。这个模型使用了开源的PMC病人数据集,重点关注ICD-10、诊断、治疗计划、护理诊断和出院摘要等关键医疗领域,基于泰语输入。适应过程从预训练临床笔记开始,使模型学习语言和医疗文档模式。然后,在临床指示上进行微调,以提高其理解和生成准确临床指南和协议的能力。此全面提升旨在提高泰国背景下患者评估和医疗结果。此过程的详细信息见表1和表3。
本节提供关于大型语言模型(LLMs)以及将其与医疗领域特定要求对齐所采用的技术的概述。作者首先详细阐述了预训练阶段使用的训练语料库的开发。接着,作者概述了用于改进模型性能的模型调整方法。最后,作者讨论了用于模型合并的方法。
LLaMA 3.1 Instruct-8B 用于研究中训练模型时被选择,是因为其在与其他种类(如 Mistral-7B 和 Gemma 2 9B)的比较中,在多个领域表现出优异的性能。在许多关键指标上,LaMA 3.1 表现出色:代码(人类评估 72.6,超过 Mistral-7B 的 50.0 和 Gemma 2 9B 的 54.3),数学(GSM8K 75.6,高于 Mistral-7B 的 76.7 和 Gemma 2 9B 的 84.7),推理(ARC挑战 83.4,超过 Mistral-7B 的 74.2 和 Gemma 2 9B 的 87.6),工具使用(BFCL 76.1,优于 Mistral-7B 的 60.4 和 Gemma 2 9B 的 70.8),以及多语言(MGSM 68.9,超过 Mistral-7B 的 29.9 和 Gemma 2 9B 的 53.2)。这一比较证明了 LLaMA 3.1 Instruct-8B 的高效性和可靠结果,使其成为对多样化和复杂数据处理要求强大性能和准确性的研究的首选。
经验研究显示,特定任务中基础模型的性能受到提示工程的影响显著。为了提高结果,作者采用三种技术结合使用。其中,少样本提示对模型性能有显著影响。在评估GPT-4解决医疗挑战的有效性时,作者将提示限制为基本上下文学习方法,如一次性提示和五次提示[37],这展示了GPT-4在几乎没有输入时如何出色地表现。
思维链(CoT)[37]提示,使用样本答案的逐步推理,将复杂问题分解为更小的步骤,增强了基础模型精度。将CoT推理步骤集成到少样本ICL提示中,如Med-PaLM,其中医学专家为复杂医疗挑战创建了CoT提示,改善了结果。作者使用配有问答训练数据的双向GPT-4自动生成思维链提示,发现GPT-4能够为复杂医疗问题自动生成高质量思维链提示。集成[37],通过平均、投票或多数投票等方法结合多个模型运行结果,从而产生更准确或稳定的结果。这种方法进一步提高了性能。自一致集成技术采用随机方法生成多个输出,然后将它们汇总为多数决策。调整“温度”参数,允许控制输出多样性,更高温度引入更多随机性。通过重新排列或配置少样本提示组件,集成可以降低基础模型对顺序的敏感性,从而提高输出稳定性。
这些结合技术在MedQA、MedMCQA、PubMedQA和MMLU医学子集等医疗基准测试上的表现显著提高,取得了优越的结果。使用的具体提示可以在附录A中找到。
在本小节中,作者概述了使用低秩自适应(LoRa)技术[13] fine-tune 预训练模型 LLaMA 3.1 Instruct-8B 的训练过程。训练细节覆盖了模型结构、数据集准备、训练配置和评价指标。
模型结构:研究中使用的基模型是 LLaMA 3.1 Instruct-8B,这是一个具有80亿参数的大型语言模型。模型的结构由32个变形器层组成,每个层都有自注意力机制和前馈神经网络[5]。作者使用LoRa通过将权重矩阵分解为低秩表示来减少可训练参数的数量。具体地,LoRa矩阵的秩设置为256。
数据集准备:为了进行fine-tuning,作者使用了由各种泰国和英语医疗内容以及泰国考试组成的的数据集。数据集通过去除得分低的数据和先前提到的数据预处理进行了准备。训练集包含266,080个样本,词表大小为2,048个字符。
训练配置:模型使用了以下配置:
模型合并 Fine-tuning之后,作者采用了一种模型合并策略将LaMA-3.1-8B-instruct模型与fine-tuned模型合并。作者使用Spherical Linear Interpolation(SLERP)方法合并模型,每个分配50%,使用Mergekit工具[8]。
为了评估Eir模型(Enhanced IR Model)的潜力,作者开发了两种变体:专门针对阅读电子健康记录(EHR)数据的Eir-8B模型 [Eir-8B,专门用于文本分类任务。Eir-8B-prob],以及关注问题回答任务的Eir-8B-prob模型。作者使用 [7] Language Model Evaluation Harness [7],将这四种模型与领先的医学语言模型进行了比较。测试结果显示,Eir模型在得分上超过了其他所有模型。值得注意的是,Eir-8B-prob模型比Typhoon-v1.5x-8B-instruct得分高10%,比GPT-3.5 Turbo 1106 高14%。而Eir-8B模型在得分上比Typhoon-v1.5x-8B-instruct 高2.8%,比GPT-3.5 Turbo 1106 高5.3%。为评估Eir模型在处理泰国语方面的能力,作者在Seacrowd [25] 基于大型语言模型(LLMs)的标准评估方法的基础上,对泰国语数据进行了测试。主要目标是评估该模型在泰国语问答方面的能力,并验证它没有经历显著的遗忘或灾难性知识损失。结果(表5)显示 M3EXAM 得分达到0.458,这个正面的结果反映了该模型在泰国语评估方面的满意性能。
此外,作者创建了一个专门用于评估医学翻译性能的数据集。考虑到泰国医学术语经常包含转音术语,可能需要以英文形式呈现而非直接翻译成泰语,医学专业人士可能难以有效使用模型生成的输出。为了解决这个问题,作者采用了BLEU评分技术进行评估[30]。如表6所示,Eir-8B模型在所有测试模型中取得了61.10 / 100的BLEU评分 [BLEU评分,最高,与翻译比例接近1。0,表示文本长度接近最优化。
最后,作者开发了一种使用泰国语言数据评估模型在医疗领域应用的临床调整模型增强测试。该测试还提供其他领域的额外训练机会。测试涵盖18个类别,如表7所示。作者在0到10的范围内使用GPT-4o对四个不同模型的答案进行评分。Eir-8B模型,作为一种临床调整模型增强,得到了平均7.11的分数,比GPT-7o高11%。在15个类别中,EIR-8B的最高平均分。它在医学翻译、医学泰语提取和医学ICD预测等类别中分别排名第二,仅次于GPT-4o。
Eir-8B 是一种专门针对泰国医学领域的特定语言模型,展示了先进的医学推理和在这些专业基准上的改善性能。
通过持续训练于精心选择的、高质量医疗资源,包括更新的临床指南,Eir-8B在泰语医学语言能力方面超越了所有相似规模的泰国医学领域的最新模型。
值得注意的是,它还在泰国语言医学基准上的通用和医学任务方面超越了所有开源语言模型。
该模型与用于管理训练数据集的基本工具和开源分布式训练库一同发布。这种方法确保了现实世界评估的可用性,同时使进一步改进和有指导的学习成为可能。
[1].Eir: Thai Medical Large Language Models.