前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NeurIPS 2022 | 基于Transformer的「中文命名实体识别(NER)」新模型--NFLAT

NeurIPS 2022 | 基于Transformer的「中文命名实体识别(NER)」新模型--NFLAT

作者头像
ShuYini
发布2022-12-06 15:01:18
1.5K0
发布2022-12-06 15:01:18
举报

引言

 近年来,FLAT-lattice Transformer在中文命名实体识别(NER)中取得了巨大成功。然而,当处理较长的文本时,该方法会显著增加自注意模块的内存和计算成本。为此本文提出一种新的词汇增强方法InterFormer,实现NFLAT,该方法内存用量可减少50%,且实验结果优于最先进的character-word混合模型。

NeurIPS2022第五波更新,下载方式回复:历年NeurIPS

背景介绍

 命名实体识别(NER)通常作为序列标记任务处理,在自然语言处理(NLP)中起着至关重要的作用。「NER经常从非结构化文本中提取有价值的信息」,这些信息可用于许多其他高级任务,如信息检索、知识图谱、问题回答、舆情分析、生物医学、推荐系统等。

 与英语相比,汉语NER更具挑战性。首先,汉语的词界比较模糊,没有分隔符,如空格,来明确词界。中文NER如果采用字符级模型(上图左侧),会存在语义缺失和边界信息缺失的问题。另一方面,如果我们使用单词级模型(上图右侧),错误的分词也会降低性能。此外,汉语中还有更复杂的属性,如复杂组合、实体嵌套、长度不定、网络新词等。此外,汉语不具有区分大小写和词根词缀的属性,缺乏大量语义信息的表达。因此,近年来,主流的中文NER方法都侧重于利用外部数据,如词汇信息、字形信息、句法信息、语义信息等来提升性能。 

「FLAT - lattice Transformer (FLAT)是一种非常流行的词汇增强方法,可以有效提取实体边界和丰富的词汇语义。然而,FLAT显著增加了计算和内存成本,这在FLAT中使用大规模词汇是非常困难的。为了解决该问题,本文提出了一种新颖而有效的词汇增强方法NFLAT」

模型方法

FLAT方法介绍

 FLAT从一开始就可以获得相对较高的性能,当与BERT一起使用时还可以进一步提高性能。其主要原因是FLAT的底层结构基于Transformer,它可以很好的提取鲁棒特征。自注意机制是Transformer的关键,它在输入的每一对标记之间建立连接。Transformer不同于RNN、LSTM、GRU等循环神经网络,在这些神经网络中,每一刻的输入都需要依赖于前一刻的输出。此外,Transformer能够捕获深度特征映射的长期依赖关系,所以说性能优于cnn和rnn。

 如上图a所示,FLAT通过引入两种位置编码,构建一组平面网格作为模型的输入,对字符和单词进行建模。它解决了词边界模糊和词语义缺失的问题。然而,当处理较长的文本时,这种方法可能匹配更多的单词,导致较长的输入序列和更多的计算成本。因此,FLAT在处理长度超过200的句子时很困难。更重要的是,没有必要在自注意中的“word-word”和“word-character”之间进行计算(上图b),其主要原因是包含全局信息的词表示在解码阶段会被丢弃(上图a)。

本文方法(NFLAT)

 另一种基于Transformer的中文NER方法是基于字符的TENER 。在使用Transformer进行中文NER时,TENER提出了两种优化方案:1)使用具有方向和距离感知的相对位置编码计算注意评分。2)不需要缩放因子,可以顺利计算注意评分结果。在TENER的帮助下使用InterFormer实现NFLAT。NFLAT对词汇融合和上下文特征编码进行了解耦,在准确性和效率上都比FLAT更有优势。NFLAT的整体架构如下图所示:

 其中,对于中文命名实体识别(NER), NFLAT有三个主要步骤:

「步骤一」「使用InterFormer融合词的边界和语义信息」。这里InterFormer方法包含一个多头交互注意力和一个前馈神经网络。InterFormer 旨在构建一个非平面网格并联合建模两个不同长度的字符和单词序列。它使字符序列能够融合单词边界和语义信息

「步骤二」:在InterFormer后,字符特征与词典信息融合。然后,「使用Transformer编码器对上下文信息进行编码」

「步骤三」:使用线性层将输出投影到标签空间,并使用条件随机场「CRF作为解码器来预测序列标签」

实验结果

 使用F1评分(F1)、精度(P)和召回率(R)指标来评估所提出的NFLAT方法,并比较了几个character-word混合模型。

1、在不使用其他数据增强方法和预先训练的语言模型的情况下,NFLAT在微博、Ontonotes 4.0和MSRA数据集上实现了最先进的性能。

2、NFLAT可以轻松地将预训练模型集成到嵌入层中,这里采用BERT-wwm预训练模型。下表可以看出,NFLAT进一步提升了预训练模型的性能。

论文&&源码

Paper:https://arxiv.org/pdf/2205.05832.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • 模型方法
    • FLAT方法介绍
      • 本文方法(NFLAT)
      • 实验结果
      • 论文&&源码
      相关产品与服务
      NLP 服务
      NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档