前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MatSci-NLP: 释放自然语言处理在材料科学中的力量

MatSci-NLP: 释放自然语言处理在材料科学中的力量

作者头像
DrugAI
发布2023-09-19 14:23:25
发布2023-09-19 14:23:25
4990
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 于洲

今天我们介绍由蒙特利尔大学MILA - Quebec人工智能机构的Yu Song发表在arXiv上的工作,该工作提出了MatSci-NLP,用于评估自然语言处理(NLP)模型在材料科学文本上的性能的自然语言基准。该工作从公开可用的材料科学文本数据构建基准,以涵盖七个不同的NLP任务,包括传统的NLP任务(如命名实体识别和关系分类)以及特定于材料科学的NLP任务(如合成动作检索以及涉及创建材料的合成程序)。研究了在不同科学文本语料库上预训练的基于BERT的模型,以了解预训练策略对理解材料科学文本的影响。在低资源训练设置下的实验表明,在科学文本上预训练的语言模型优于在一般文本上训练的BERT。此外,该工作提出了一种统一的文本到模式的MatSci-NLP多任务学习方法,并将其性能与专门针对材料科学期刊进行预训练的模型MatBERT进行了比较。在对不同训练方法的分析中,发现提出的受问答启发的文本到图式方法始终优于单任务和多任务NLP微调方法。

背景介绍

材料科学要求对各种科学学科有深入的理解,而最近机器学习和机器学习与材料科学的交叉领域的进展为开发材料科学文本的自然语言处理(NLP)模型创造了机会。存储在期刊文章、专利和技术报告等文本格式中的大量知识为开发NLP工具提供了巨大机会。这些工具可以加速新材料的发现、合成和应用推广,包括清洁能源、可持续制造和设备等各种应用领域。

然而,针对材料科学文本开发和评估NLP模型存在挑战。材料科学的跨学科性质以及科学语言理解领域缺乏高质量标注数据和广泛模型基准,使得该领域对NLP研究充满了趣味性和严峻性。因此,研究人员正积极参与数据集创建、模型训练和领域特定应用,推动应用于材料科学的NLP研究不断发展。

在这个背景下,本文提出了MatSci-NLP作为材料科学领域NLP任务的基准。该基准旨在开发相关的语言模型,以促进新材料系统的发现,并加深对现有和新材料的性质和行为的理解。本文随后分析了在MatSci-NLP基准上预训练的各种基于BERT的模型的性能。

本文的创新与贡献:

  • MatSci-NLP基准:本文构建了材料科学领域NLP的第一个广泛基准。该基准涵盖了几种NLP任务和材料应用,并提供了总结和数据来源。
  • 文本到模式多任务处理:开发了一组受问答设置启发的文本输入模式,用于对语言模型进行微调。分析了在这些设置以及传统的单一和多任务微调方法下,模型在MatSci-NLP上的性能。此外,还提出了一种新的任务-模式输入格式,用于联合多任务训练,该方法提高了所有微调后语言模型的任务性能。
  • MatSci-NLP分析:本文分析了在不同科学和非科学文本语料库上预训练的各种基于BERT的模型的性能。特别研究了领域内预训练语言模型对MatSci-NLP任务下游性能的影响。实验证明了MatBERT(在材料科学期刊上训练的BERT模型)通常表现最佳,强调了为材料科学语言模型策划高质量的预训练语料库的重要性。

MatSci-NLP 基准

通过MatSci-NLP的创建,本文的目标是将多个研究工作中的一些碎片数据汇集在一起,以实现广泛的材料科学NLP基准。大规模、高质量和多样化数据集的可用性仍然是应用现代NLP以有意义的方式推进材料科学的主要障碍。这主要是由于数据标签的高成本和材料科学的异质性。考虑到这些挑战,本文通过统一各种公开可用的、高质量的、小规模的数据集来创建MatSci-NLP,以形成一个基准,用于微调和评估材料科学应用的现代NLP模型。MatSci-NLP由表1所示的七个NLP任务组成,涵盖了广泛的材料类别,包括燃料电池、玻璃、无机材料、超导体以及与各种材料相关的合成程序。

表1:MatSci-NLP Benchmark元数据集中的NLP任务集合

MatSci-NLP中的一些任务有多个源组件,这意味着数据来自多个数据集(例如NER),而许多任务来自单个源数据集。MatSci-NLP中的数据遵循标准的基于JSON的数据格式,每个样本都包含相关的文本、任务定义和注释。这些可以依次重构为不同的输入模式,例如图1所示的输入模式,包括1)input:与任务描述和指令联合的主要文本;2)Output:查询和标签。语言模型的输入包括共享文本(绿色)以及相关的任务细节(蓝色表示NER、橙色表示事件提取)。共享文本可以包含多个任务的相关信息,并多次成为语言模型输入的一部分。

图1:在MatSci-NLP上应用的不同问答启发文本输入模式(Task-Schema, Potential Choices, Example)的示例

接下来,本文更详细地描述了MatSci-NLP中的任务:

  1. 命名实体识别(NER):NER任务要求模型从材料科学文本中提取摘要级信息,并识别实体,包括材料、描述符、材料属性和应用等。NER任务使用包含“null”标签的非实体跨度预测给定文本跨度si的最佳实体类型标签。
  2. 关系分类:在关系分类任务中,模型为给定的跨度对(si, sj)预测最相关的关系类型。
  3. 事件参数提取:事件参数提取任务包括提取事件参数和相关的参数角色。由于给定文本可能有多个事件,因此需要指定事件触发器,并要求语言模型提取相应的参数及其角色。
  4. 段落分类:在段落分类任务中,模型确定给定段落是否属于玻璃科学。
  5. 合成动作检索(SAR):SAR是一项材料科学领域的特定任务,它定义了八个动作术语,要求模型将词标记分类到预定义的动作类别中,明确地识别一种合成动作来描述合成过程。
  6. 句子分类:在句子分类任务中,模型根据数据识别描述相关实验事实的句子。
  7. 槽填充:在槽填充任务中,模型根据预定义的语义有意义的实体集从特定的句子中提取槽填充符。在任务数据中,每个句子描述一个实验框架,模型预测该框架中的槽。

MatSci-NLP中包含的任务是基于公开可用的、高质量的注释材料科学文本数据,以及它们与将NLP工具应用于材料科学的相关性而选择的。传统的NLP任务(NER、关系分类、事件论点提取、段落分类、句子分类)使材料科学研究人员能够更好地处理和理解相关的文本数据。领域特定任务(SAR、槽填充)使材料科学研究能够解决具体挑战,例如寻找材料合成程序和现实世界的实验计划。

统一的文本到模式语言建模

如图1所示,给定的文本片段可以包含跨不同任务的多个标签。鉴于MatSci-NLP基准的这种多任务特性,本文提出了一种新的统一的任务模式多任务建模方法,如图2所示,该方法涵盖了MatSci-NLP数据集中的所有任务。

图2:用于跨七个任务应用的MatSci-NLP文本理解的统一文本到模式方法

该方法以统一的文本到模式建模方法为中心,该方法可以通过统一的格式同时预测多个任务。底层语言模型架构由模块化组件组成,包括特定领域的编码器模型(例如MatBERT、MatSciBERT和SciBERT)以及基于Transforer的通用解码器,每个组件都可以轻松地与不同预训练的特定领域NLP模型交换。与seq2seq和文本到文本方法相比,统一的文本到模式模型为训练和评估语言模型输出提供了更结构化的格式。这对于MatSci-NLP中的任务特别有帮助,因为许多任务可以被重新表述为分类问题。例如,NER和Slot填充是词元级别的分类,而事件参数提取则需要对某些参数的角色进行分类。

通过允许语言模型利用模式的结构来预测正确答案,文本到模式方法所施加的结构还简化了比如事件提取之类的复杂任务。利用模式的结构来解码和评估语言模型的输出,统一的文本到模式方法减轻了多任务场景中常见的错误传播,实现了跨多个任务的知识共享,并且经过微调的语言模型能够在更广泛的基于文本的教学场景中进行推广。

如图1所示,模型基于四个通用组件构建文本数据:文本、描述、指令选项和预定义的答案模式。文本指定作为语言模型输入的来自文献的原始文本;描述根据包含任务名称和任务参数的预定义模式描述给定文本的任务;指令选项包含与任务相关的核心解释,强调三种不同类型:可能的答案选择、任务对应的输入/输出对示例以及如图2所示预定义的答案模式;答案描述每个任务的正确标签,格式为预定义的答案模式,可以根据任务的数据结构自动生成。

评估MatSci-NLP上语言模型的性能需要确定解码器生成的文本在给定任务的上下文中是否有效和有意义。为了保证评估的一致性,本文采用了一个包含两步的约束解码过程:1)根据模型的输出结构,通过图2所示的预定义答案模式过滤掉无效答案;2)将模型的预测与特定任务的注释给出的最相似的有效类进行匹配。例如,对于图1所示的NER任务,如果模型的预测词元为“BaCl2 2H2O materials”,则将其与NER标签“material”相匹配,然后将其作为计算损失和评估性能的最终预测。这种方法本质上是将每个任务重新表述为分类问题,其中基于MatSci-NLP中任务的标签提供类。然后,本文基于模型输出的匹配标签应用交叉熵损失进行模型微调。匹配过程通过不要求预测的标记与任务标签的精确匹配,简化了语言建模的挑战。这反过来又在微调损失函数中产生更容易理解的信号。

实验结果

本文的分析主要集中在两个问题:研究领域特定语言模型作为编码器的有效性以及分析不同输入模式在解决MatSci-NLP任务中的影响。具体来说,首先研究了语言模型和语言模式在低资源环境下的性能,然后通过使用来自MatSci-NLP基准的有限数据对不同的预训练BERT模型进行微调。这种低资源设置使得学习问题更加困难,因为模型必须在少量数据上进行泛化。此外,这种设置近似于在材料科学中很常见的使用非常有限的注释数据进行模型训练。在实验中,本文将MatSci-NLP中的数据分成1%的训练子集和99%的测试子集进行评估。所有评估的编码器模型都没有在实验之前接触微调数据,因此必须依赖于在各自的预训练过程中获得的知识。本文使用在微调期间未暴露的MatSci-NLP测试分割上的语言模型预测的微观F1和宏观F1分数来评估实验结果。

语言模型的域内预训练如何影响MatSci-NLP任务的下游性能?

如表2所示,本文可以收集到以下见解:

表2:对不同领域特定文本数据预训练的各种基于BERT的编码器模型应用统一Task-Schema设置的低资源微调结果

首先,特定领域的预训练影响模型性能。本文在低资源设置下对在特定领域语料库上预训练的各种模型进行了微调,并观察到:

  1. 在材料科学期刊的文本数据上预训练的MatBERT通常在MatSci-NLP基准测试中的大多数任务中表现最好,而SciBERT通常表现第二好。MatBERT的高性能表明材料科学特定的预训练确实有助于语言模型获得相关的材料科学知识。然而,与MatBERT和SciBERT相比,MatSciBERT的表现不佳表明预训练数据的管理确实会显著影响性能。
  2. SciBERT和ScholarBERT在性能上的差异进一步强化了预训练语料库的重要性,两者都是在一般科学文本的语料库上训练的,但结果却大相径庭。事实上,除了事件参数提取之外,ScholarBERT在所有任务上的表现都不如包括通用语言BERT在内的其他所有模型。
  3. 大多数科学BERT模型优于在一般语言上预训练的BERT这一事实表明,对高质量科学文本进行预训练有利于解决涉及材料科学文本和其他领域的潜在科学文本的任务。BioBERT在大多数任务上都优于BERT,尽管它是在生物医学领域的文本上训练的,而生物医学领域与材料科学领域有轻微的重叠。这强烈地表明,无论在哪个领域的科学语言都与用于预训练公共语言模型的通用语言有显著的分布变化。

其次,MatSci-NLP中的不平衡数据集使性能指标倾斜:在所有任务中,微观F1得分明显高于宏观F1得分。这表明MatSci-NLP中使用的数据集一直是不平衡的,包括在二元分类任务中,从而使微观F1得分高于宏观F1得分。除ScholarBERT外,所有模型在案例中的表现都优于对主导类的默认猜测。虽然不平衡的数据集可能近似于材料科学文本分析的一些现实用例,例如提取专门的材料信息,但高度不平衡可能会在评估模型性能时产生误导。为了减轻不平衡数据的潜在负面影响,本文提出了三种简单而有效的方法:1)加权损失函数:这涉及对损失函数进行加权,以给予少数类更高的权重;2)类平衡采样器:如Pytorch在内的深度学习框架具有类平衡的批采样器,可以在训练过程中对每个批内的少数类进行过采样,这可以间接帮助解决类不平衡问题;3)模型架构调整:可以调整模型架构及其超参数以更加强调少数类。

情境数据模式和多任务处理如何影响低资源训练环境下的学习效率?

为了评估图1中提出的文本模式的有效性,本文评估了四种不同的QA启发模式:1)没有解释——这里模型只接收任务描述;2)潜在选择——这里模型接收任务给出的类标签;3)示例——模型接收一个正确答案的示例;4)任务模式(Task-Schema)——模型接收本文提出的文本模式。

表3:在不同领域特定文本数据上预训练的各种基于BERT的编码器模型在不同训练设置下所有MatSci-NLP任务之间的综合结果

根据表3所示的结果,本文得出以下结论:

首先,文本到模式方法对所有语言模型都有更好的表现。总体而言,本文提出的任务模式方法在MatSci-NLP基准测试中的所有任务中表现最佳。问答启发模式(“No explanation”、“Potential Choices”、“Examples”、“Task-Schema”)比传统的单任务设置、单任务提示和MMOE多任务方法下的微调效果更好。这适用于MatSci-NLP中所有任务的所有模型,显示了受问答启发的结构化语言建模的有效性。

第二,模式设计影响模型性能。结果表明,预训练模型和输入格式对性能都有影响。虽然所有科学模型使用任务模式方法优于一般语言训练的BERT,但BERT在其他文本到模式设置和传统训练设置中优于一些模型,主要是ScholarBERT和BioBERT。然而,BERT在MatSci-NLP中所有任务的所有模式设置上的表现不如更强的模型(MatBERT, SciBERT, MatSciBERT),这进一步强调了特定领域模型预训练对材料科学语言理解的重要性。

结论

本文提出了MatSci-NLP,这是基于公开数据构建的材料科学语言理解任务的第一个广泛基准。本文进一步提出了文本到模式的多任务建模,以提高模型在低资源设置下的性能。利用MatSci-NLP和文本到模式建模,对各种科学语言模型的性能进行了深入分析,并将文本到模式语言建模方法根据处理预训练模型和处理文本模式的指导原则与其他输入模式进行了比较。总的来说,本文发现预训练模型的选择对MatSci-NLP任务的下游性能有很大的影响,并且任何类型的科学文本的预训练语言模型通常比一般文本的预训练语言模型表现得更好。MatBERT通常表现最好,这突出了使用高质量领域特定语言数据进行预训练的好处。本文发现可以通过改进文本模式来展示使用结构化语言建模进行微调的潜力,从而实现显著的改进。所提出的编码器-解码器架构,以及所提出的多任务模式,也可以用于NLP的其他领域,包括科学和非科学领域。

局限性

该工作仍面临以下局限:

  • 可用数据量少:材料科学中有限的数据量对NLP建模提出了挑战。在本研究中进行的评估是在低数据环境中进行的,这进一步加剧了局限性。为了改进这一点,未来的工作应该以使用更大的数据集和更多的样本和更广泛的任务为目标。这将有助于防止模型仅仅记忆答案,并鼓励更全面的理解。
  • 缺乏对其他领域的泛化:本文专门关注材料科学,并没有探索NLP模型在化学和物理等邻近领域的泛化。虽然这种有针对性的方法是有意的,但它限制了所建议的技术和见解到其他领域的可移植性。为了克服这一限制,未来的研究应该探讨NLP模型在材料科学以外的科学任务中的应用。
  • 基于BERT的模型的排他性:本文专门检查了基于BERT的模型,并没有探索自回归模型,包括具有数十亿参数的大型语言模型。选择这种方法的原因是在科学文本语料库上训练的各种基于BERT的模型的可用性。然而,大型自回归模型虽然在一般文本语料库上训练,但可以提供有价值的见解。因此,未来的工作应该分析更广泛的语言模型,包括在不同类型的文本上训练的大型自回归模型,以增强对基于文本的材料科学任务中NLP模型的理解。
  • 预训练定制语言模型的风险和成本:特定领域的预训练可以在下游性能方面提供优势。然而,为不同领域预训练更大的自定义语言模型集无论是在财务上还是在环境上都具有相关风险和训练成本。本文鼓励未来的研究人员考虑建立在现有的大型模型上,以尽可能减少这些预训练成本。

参考资料

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-02 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档