编译 | 于洲
今天我们介绍由蒙特利尔大学MILA - Quebec人工智能机构的Yu Song发表在arXiv上的工作,该工作提出了MatSci-NLP,用于评估自然语言处理(NLP)模型在材料科学文本上的性能的自然语言基准。该工作从公开可用的材料科学文本数据构建基准,以涵盖七个不同的NLP任务,包括传统的NLP任务(如命名实体识别和关系分类)以及特定于材料科学的NLP任务(如合成动作检索以及涉及创建材料的合成程序)。研究了在不同科学文本语料库上预训练的基于BERT的模型,以了解预训练策略对理解材料科学文本的影响。在低资源训练设置下的实验表明,在科学文本上预训练的语言模型优于在一般文本上训练的BERT。此外,该工作提出了一种统一的文本到模式的MatSci-NLP多任务学习方法,并将其性能与专门针对材料科学期刊进行预训练的模型MatBERT进行了比较。在对不同训练方法的分析中,发现提出的受问答启发的文本到图式方法始终优于单任务和多任务NLP微调方法。
背景介绍
材料科学要求对各种科学学科有深入的理解,而最近机器学习和机器学习与材料科学的交叉领域的进展为开发材料科学文本的自然语言处理(NLP)模型创造了机会。存储在期刊文章、专利和技术报告等文本格式中的大量知识为开发NLP工具提供了巨大机会。这些工具可以加速新材料的发现、合成和应用推广,包括清洁能源、可持续制造和设备等各种应用领域。
然而,针对材料科学文本开发和评估NLP模型存在挑战。材料科学的跨学科性质以及科学语言理解领域缺乏高质量标注数据和广泛模型基准,使得该领域对NLP研究充满了趣味性和严峻性。因此,研究人员正积极参与数据集创建、模型训练和领域特定应用,推动应用于材料科学的NLP研究不断发展。
在这个背景下,本文提出了MatSci-NLP作为材料科学领域NLP任务的基准。该基准旨在开发相关的语言模型,以促进新材料系统的发现,并加深对现有和新材料的性质和行为的理解。本文随后分析了在MatSci-NLP基准上预训练的各种基于BERT的模型的性能。
本文的创新与贡献:
MatSci-NLP 基准
通过MatSci-NLP的创建,本文的目标是将多个研究工作中的一些碎片数据汇集在一起,以实现广泛的材料科学NLP基准。大规模、高质量和多样化数据集的可用性仍然是应用现代NLP以有意义的方式推进材料科学的主要障碍。这主要是由于数据标签的高成本和材料科学的异质性。考虑到这些挑战,本文通过统一各种公开可用的、高质量的、小规模的数据集来创建MatSci-NLP,以形成一个基准,用于微调和评估材料科学应用的现代NLP模型。MatSci-NLP由表1所示的七个NLP任务组成,涵盖了广泛的材料类别,包括燃料电池、玻璃、无机材料、超导体以及与各种材料相关的合成程序。
表1:MatSci-NLP Benchmark元数据集中的NLP任务集合
MatSci-NLP中的一些任务有多个源组件,这意味着数据来自多个数据集(例如NER),而许多任务来自单个源数据集。MatSci-NLP中的数据遵循标准的基于JSON的数据格式,每个样本都包含相关的文本、任务定义和注释。这些可以依次重构为不同的输入模式,例如图1所示的输入模式,包括1)input:与任务描述和指令联合的主要文本;2)Output:查询和标签。语言模型的输入包括共享文本(绿色)以及相关的任务细节(蓝色表示NER、橙色表示事件提取)。共享文本可以包含多个任务的相关信息,并多次成为语言模型输入的一部分。
图1:在MatSci-NLP上应用的不同问答启发文本输入模式(Task-Schema, Potential Choices, Example)的示例
接下来,本文更详细地描述了MatSci-NLP中的任务:
MatSci-NLP中包含的任务是基于公开可用的、高质量的注释材料科学文本数据,以及它们与将NLP工具应用于材料科学的相关性而选择的。传统的NLP任务(NER、关系分类、事件论点提取、段落分类、句子分类)使材料科学研究人员能够更好地处理和理解相关的文本数据。领域特定任务(SAR、槽填充)使材料科学研究能够解决具体挑战,例如寻找材料合成程序和现实世界的实验计划。
统一的文本到模式语言建模
如图1所示,给定的文本片段可以包含跨不同任务的多个标签。鉴于MatSci-NLP基准的这种多任务特性,本文提出了一种新的统一的任务模式多任务建模方法,如图2所示,该方法涵盖了MatSci-NLP数据集中的所有任务。
图2:用于跨七个任务应用的MatSci-NLP文本理解的统一文本到模式方法
该方法以统一的文本到模式建模方法为中心,该方法可以通过统一的格式同时预测多个任务。底层语言模型架构由模块化组件组成,包括特定领域的编码器模型(例如MatBERT、MatSciBERT和SciBERT)以及基于Transforer的通用解码器,每个组件都可以轻松地与不同预训练的特定领域NLP模型交换。与seq2seq和文本到文本方法相比,统一的文本到模式模型为训练和评估语言模型输出提供了更结构化的格式。这对于MatSci-NLP中的任务特别有帮助,因为许多任务可以被重新表述为分类问题。例如,NER和Slot填充是词元级别的分类,而事件参数提取则需要对某些参数的角色进行分类。
通过允许语言模型利用模式的结构来预测正确答案,文本到模式方法所施加的结构还简化了比如事件提取之类的复杂任务。利用模式的结构来解码和评估语言模型的输出,统一的文本到模式方法减轻了多任务场景中常见的错误传播,实现了跨多个任务的知识共享,并且经过微调的语言模型能够在更广泛的基于文本的教学场景中进行推广。
如图1所示,模型基于四个通用组件构建文本数据:文本、描述、指令选项和预定义的答案模式。文本指定作为语言模型输入的来自文献的原始文本;描述根据包含任务名称和任务参数的预定义模式描述给定文本的任务;指令选项包含与任务相关的核心解释,强调三种不同类型:可能的答案选择、任务对应的输入/输出对示例以及如图2所示预定义的答案模式;答案描述每个任务的正确标签,格式为预定义的答案模式,可以根据任务的数据结构自动生成。
评估MatSci-NLP上语言模型的性能需要确定解码器生成的文本在给定任务的上下文中是否有效和有意义。为了保证评估的一致性,本文采用了一个包含两步的约束解码过程:1)根据模型的输出结构,通过图2所示的预定义答案模式过滤掉无效答案;2)将模型的预测与特定任务的注释给出的最相似的有效类进行匹配。例如,对于图1所示的NER任务,如果模型的预测词元为“BaCl2 2H2O materials”,则将其与NER标签“material”相匹配,然后将其作为计算损失和评估性能的最终预测。这种方法本质上是将每个任务重新表述为分类问题,其中基于MatSci-NLP中任务的标签提供类。然后,本文基于模型输出的匹配标签应用交叉熵损失进行模型微调。匹配过程通过不要求预测的标记与任务标签的精确匹配,简化了语言建模的挑战。这反过来又在微调损失函数中产生更容易理解的信号。
实验结果
本文的分析主要集中在两个问题:研究领域特定语言模型作为编码器的有效性以及分析不同输入模式在解决MatSci-NLP任务中的影响。具体来说,首先研究了语言模型和语言模式在低资源环境下的性能,然后通过使用来自MatSci-NLP基准的有限数据对不同的预训练BERT模型进行微调。这种低资源设置使得学习问题更加困难,因为模型必须在少量数据上进行泛化。此外,这种设置近似于在材料科学中很常见的使用非常有限的注释数据进行模型训练。在实验中,本文将MatSci-NLP中的数据分成1%的训练子集和99%的测试子集进行评估。所有评估的编码器模型都没有在实验之前接触微调数据,因此必须依赖于在各自的预训练过程中获得的知识。本文使用在微调期间未暴露的MatSci-NLP测试分割上的语言模型预测的微观F1和宏观F1分数来评估实验结果。
语言模型的域内预训练如何影响MatSci-NLP任务的下游性能?
如表2所示,本文可以收集到以下见解:
表2:对不同领域特定文本数据预训练的各种基于BERT的编码器模型应用统一Task-Schema设置的低资源微调结果
首先,特定领域的预训练影响模型性能。本文在低资源设置下对在特定领域语料库上预训练的各种模型进行了微调,并观察到:
其次,MatSci-NLP中的不平衡数据集使性能指标倾斜:在所有任务中,微观F1得分明显高于宏观F1得分。这表明MatSci-NLP中使用的数据集一直是不平衡的,包括在二元分类任务中,从而使微观F1得分高于宏观F1得分。除ScholarBERT外,所有模型在案例中的表现都优于对主导类的默认猜测。虽然不平衡的数据集可能近似于材料科学文本分析的一些现实用例,例如提取专门的材料信息,但高度不平衡可能会在评估模型性能时产生误导。为了减轻不平衡数据的潜在负面影响,本文提出了三种简单而有效的方法:1)加权损失函数:这涉及对损失函数进行加权,以给予少数类更高的权重;2)类平衡采样器:如Pytorch在内的深度学习框架具有类平衡的批采样器,可以在训练过程中对每个批内的少数类进行过采样,这可以间接帮助解决类不平衡问题;3)模型架构调整:可以调整模型架构及其超参数以更加强调少数类。
情境数据模式和多任务处理如何影响低资源训练环境下的学习效率?
为了评估图1中提出的文本模式的有效性,本文评估了四种不同的QA启发模式:1)没有解释——这里模型只接收任务描述;2)潜在选择——这里模型接收任务给出的类标签;3)示例——模型接收一个正确答案的示例;4)任务模式(Task-Schema)——模型接收本文提出的文本模式。
表3:在不同领域特定文本数据上预训练的各种基于BERT的编码器模型在不同训练设置下所有MatSci-NLP任务之间的综合结果
根据表3所示的结果,本文得出以下结论:
首先,文本到模式方法对所有语言模型都有更好的表现。总体而言,本文提出的任务模式方法在MatSci-NLP基准测试中的所有任务中表现最佳。问答启发模式(“No explanation”、“Potential Choices”、“Examples”、“Task-Schema”)比传统的单任务设置、单任务提示和MMOE多任务方法下的微调效果更好。这适用于MatSci-NLP中所有任务的所有模型,显示了受问答启发的结构化语言建模的有效性。
第二,模式设计影响模型性能。结果表明,预训练模型和输入格式对性能都有影响。虽然所有科学模型使用任务模式方法优于一般语言训练的BERT,但BERT在其他文本到模式设置和传统训练设置中优于一些模型,主要是ScholarBERT和BioBERT。然而,BERT在MatSci-NLP中所有任务的所有模式设置上的表现不如更强的模型(MatBERT, SciBERT, MatSciBERT),这进一步强调了特定领域模型预训练对材料科学语言理解的重要性。
结论
本文提出了MatSci-NLP,这是基于公开数据构建的材料科学语言理解任务的第一个广泛基准。本文进一步提出了文本到模式的多任务建模,以提高模型在低资源设置下的性能。利用MatSci-NLP和文本到模式建模,对各种科学语言模型的性能进行了深入分析,并将文本到模式语言建模方法根据处理预训练模型和处理文本模式的指导原则与其他输入模式进行了比较。总的来说,本文发现预训练模型的选择对MatSci-NLP任务的下游性能有很大的影响,并且任何类型的科学文本的预训练语言模型通常比一般文本的预训练语言模型表现得更好。MatBERT通常表现最好,这突出了使用高质量领域特定语言数据进行预训练的好处。本文发现可以通过改进文本模式来展示使用结构化语言建模进行微调的潜力,从而实现显著的改进。所提出的编码器-解码器架构,以及所提出的多任务模式,也可以用于NLP的其他领域,包括科学和非科学领域。
局限性
该工作仍面临以下局限:
参考资料