【论文分享】ACL 2020 信息抽取任务中的新动向

zenRRan

发布于 2020-09-14 10:42:57

2.3K0

发布于 2020-09-14 10:42:57

引言

信息抽取一直以来都是自然语言处理中最基础的技术之一，它指的是将文本中的非结构化信息通过算法或模型自动提取转换为结构化数据的过程。信息抽取任务有多个子任务：命名实体识别（NER）、关系抽取（RE）、事件抽取（EE）。信息抽取的结果可以用于很多NLP的下游任务例如阅读理解、知识图谱构建和智能问答。今天给大家分享三篇ACL关于信息抽取的文章，分别涵盖了命名实体识别（NER）、信息联合抽取以及关系抽取（RE）三个方面。

文章概览

Named Entity Recognition without Labelled Data: A Weak Supervision Approach 论文地址：https://arxiv.org/pdf/2004.14723 命名实体识别（NER）的一大主要瓶颈是需要很多人工标注的高质量数据，但是很多实际场景中这样的数据资源是很稀缺的，尤其是在某些特定领域中。本篇文章提出了一种类似于集成学习（ensemble learning）的方法聚合了多个利用标注工具在目标语料标注来解决目标语料没有标注的问题。
A Joint Neural Model for Information Extraction with Global Features 论文地址：https://www.aclweb.org/anthology/2020.acl-main.713/ 在进行实体、关系、事件联合抽取的过程中，之前的传统方法会忽略掉各任务之间的联系，比如抽取“选举获胜”事件的人一般只有一个人，但有些模型会抽取出两个人作为该事件的对象。本文提出了一种融合全局信息的方法来解决这个问题。
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction 论文地址：https://arxiv.org/pdf/1909.03227 传统的关系抽取（RE）的任务构建为：给定两个实体，然后利用分类器对两个实体之间是否存在关系和属于哪一类关系进行判断。本文提出了一种新的关系抽取任务的构建方法：利用头实体和遍历所有关系类别对可能的尾实体进行标注，并达到了SOTA的效果。

论文细节

动机

当命名实体识别任务（NER）被应用于与训练数据领域不相同时，其性能会迅速的下降。当目标领域有少量标注数据时，我们可以采用迁移学习的方式来进行对现有模型的迁移。但是很多实际情况中，目标领域也没有标注数据。

本文的贡献如下：

1）提出了一种使用弱监督方法的命名实体识别模型的替代方法，不需要目标域中的任何标记数据。

2）实现并对一系列NER的标注函数进行了集合。

3）开源了该框架，并能够应用到更大的数据集上。

方法

如上图所示，本文的方法可以分为三个阶段：

1)利用一系列 标注函数（Label Function），从大量源文本中进行标注。

2)利用 标签聚合模块（HMM） 对上一步的多个标注语料集合进行聚合。

3)利用聚合后的标注数据，训练一个序列化标注模型。

下面针对每一步进行详细说明：

利用一系列 标注函数，从大量源文本中进行标注。
- 标注函数：每个标注函数都将文本文档作为输入，并输出与NER标签。
- 标注函数类别：
  - Out-of-domain NER models：从可获得标签数据的文本域中训练好的NER模型
  - Gazetteers（词典）：如Wikipedia，Geonames，the Crunchbase Open Data Map, DBPedia等
  - Heuristic functions（手工特征）
  - Document-level relations：(在同一篇文章中同一个span更有可能属于同一种类型，所以该公式刻画了同一篇文章中，相同实体属于某个类别的概率)
利用标签聚合模块（HMM）对上一步的多个标注语料集合进行聚合。
- 对于每个 标注函数 都有一个发射矩阵，我们希望得到一个概率，用来聚合这些发射矩阵

最后利用标注好的数据进行模型训练即可

实验

基础实验是HMM聚合和其他方法聚合相比较，其中可以看出利用所有标注函数并利用HMM聚合所得到的实验结果最好
同时可以发现加入doc-level的标注函数后，f1 score 提升了一个点左右。
同时可以发现，利用HMM聚合标注语料后重新训练NER模型，并没有直接利用HMM聚合标注的效果好。

所以作者补充了一个在众包标注的语料上的实验

从实验结果可以说明在众包标注的数据集上，利用HMM聚合后的标注语料结合训练的神经网络模型取得的效果最好。

动机

本文的任务为“多任务联合信息抽取”：即输入一个句子，目的在于抽取出该句的信息网络。信息网络将事件和实体表示为节点；实体之间关系和事件触发（trigger）作为边。从另一方面说，这个任务就是利用统一的框架，对实体、关系和事件进行了联合抽取。但是前人的工作中都没有关注抽取的东西之间的相互联系，例如“Prime Minister Abdullah Gul resigned earlier Tuesday to make way for Erdogan, who won a parliamentary seat in by-elections Sunday.”这句话中赢得选举只能是一个人，但其他模型会抽取出2个不同的人作为该事件的对象，为了解决这个问题本文提出了一种融合全局信息的联合信息抽取模型。

模型

该模型分为四个阶段：

Encoding（ Bert ）阶段获取句子的词表示
识别阶段，负责识别出句子中的实体和事件
用分类器进行类别判断
利用beam search对候选节点和边进行解码

在第二阶段将每个词的表示送入前馈神经网络，然后用CRF来对实体和事件进行预测，这个过程中并不预测他们的类别，目的是在于为了在之后第三阶段中能够加入全局信息。

第三步分类阶段是本文的重点，具体过程如下：

对于第二步识别出来的节点（实体、事件），将他们词向量的平均表示作为这个节点的表示。
对不同任务，他们的预测标签由进行计算 ; 其中关系分类采用将两个node的表示进行拼接然后输入前馈神经网络，得到预测标签
然后对每个任务分别计算
基于分类器的各节点和边的得分，我们可以算出这样抽取出来的信息图的得分

通过以上步骤后得到的抽取结果具有一定的局部信息局限性，即无法捕捉到信息网中元素之间的全局依赖关系。依赖关系主要分为两种：

跨子任务的交互效应（实体、事件和关系之间），例如 A civilian aid worker from San Francisco was killed in an attack in Afghanistan. 句中“旧金山”和“被杀”是一个实体和一个事件，在进行事件关系判断的时候由于两者离得很近所以很容易被判断成“受害者（victim）”的关系，但实际上根据我们的常识 “受害者” 这层关系是不可能和地理位置联系起来的。
跨实例之间的交互效应（事件与事件，关系与关系） South Carolina boy, 9, dies during hunting trip after his father accidentally shot him on Thanksgiving Day 句中“boy”和“dies”离得很近，所以很容易抽取出“男孩死亡”这一信息，同时后面出现的“shot”由于通常“死亡”这一事件和“受害者（victim）”这一层关系是相互联系的，所以我们也可以知道“boy”是“shot”的“受害者（victim）”

为了解决以上两种局限性，作者提出了一系列全局的特征（global feature）

作者采用以下方式加入该全局信息：

给定一张信息图，采用如下来表示全局feature

f_G=\{f_1(G),\dots,f_M(G)\}

是一个函数，用来评判一种特定的feature，并返回一个分数，例如
最后引入一个可学习的参数，融合全局feature和局部feature

最后我们可以得到全局信息的loss:

总的loss为：

实验

主实验结果如下：

其中(1)DY GIE++ 2019年的联合信息抽取的SOTA模型；(2)BASELINE 与ONEIE（本文提出的模型）有相同结构，但是没有加入全局信息。

从实验结果可以看出，本文提出的模型全方位都高于2019年的DY GIE++，尤其是在事件抽取方面格外突出。

在附属的关于语言迁移的实验如下：

作者在中文和西班牙语的语料上分别做了实验，都取得了不错的效果；发现不用对特定语言做特殊处理，效果也很好。

动机

大多数已有的方法，是给定句中两个实体，然后利用分类器，对关系类别空间中的类别进行分类。但是，这样做不能有效的解决句中实体对的关系有多个，出现重叠的场景，因为分类器都假定实体对最多只存在一种关系。例如，

本文提出了一种新颖的关系抽取框架，重新审视了关系抽取的任务构建，并且有效的解决了实体对关系重叠和单个实体横跨在关系之中等问题。

框架

任务目标：抽取关系三元组的目标是从句子中识别出所有可能的形如<subject, relation, object> 关系三元组，但是有些三元组共享了subject或者object

数学上的定义：

给定已标注训练集D中的任意一个单句和该句中的所有潜在的三元组,我们想要去最大化似然函数：

\begin{aligned} & \prod_{j=1}^{D !}\left[\prod_{(s, r, o) \in T_{j}} p\left((s, r, o) \mid x_{j}\right)\right] \\ =& \prod_{j=1}^{|D|}\left[\prod_{s \in T_{j}} p\left(s \mid x_{j}\right) \prod_{(r, o) \in T_{j} \mid s} p\left((r, o) \mid s, x_{j}\right)\right] \\ =&\prod_{j=1}^{D}\left[\prod_{s \in T_{j}} p\left(s \mid x_{j}\right) \prod_{r \in T_{j} \mid s} p_{r}\left(o \mid s, x_{j}\right) \prod_{r \in R \backslash T_{j} \mid s}\operatorname{Pr}\left(o_{\phi} \mid s, x_{j}\right)\right] \end{aligned}

这样定义有三个好处：

任务定义三元组 level上，最后优化也是直接在三元组层面上进行优化
没有对共享实体的重叠关系三元组进行假设和复杂处理，可以直接处理带有重叠的关系三元组
从公式3 能够得到设计此模型框架的启发，先学习一个 subject tagger，然后学习一个关系特定的object tagger。这样能够直接一次性把所有可能的triple都抽出来。

模型

模型分为两部分：

BERT Encoder
Cascade Decoder
- Subject Tagger
- Relation-speciﬁc Object Taggers

其中Subject Tagger训练了两个个2元分类器，用来指示该字符是否是某一个subject的开头或者结尾：

\begin{array}{c} p_{i}^{\text {start} s}=\sigma\left(\mathbf{W}_{\text {start}} \mathbf{x}_{i}+\mathbf{b}_{\text {start}}\right) \\ p_{i}^{\text {end}_{-} s}=\sigma\left(\mathbf{W}_{\text {end}} \mathbf{x}_{i}+\mathbf{b}_{\text {end}}\right) \end{array}

Relation-speciﬁc Object Taggers则是针对每一个识别出来的subject所有类别的关系，在句中采取和上一步相似的两个二元分类器对每个subject和特定关系下可能的object进行Tagging。

\begin{array}{c} p_{i}^{\text {start} . o}=\sigma\left(\mathbf{W}_{\text {start}}^{r}\left(\mathbf{x}_{i}+\mathbf{v}_{\text {sub}}^{k}\right)+\mathbf{b}_{\text {start}}^{r}\right) \\ p_{i}^{\text {end}}-\sigma\left(\mathbf{W}_{\text {end}}^{r}\left(\mathbf{x}_{i}+\mathbf{v}_{\text {sub}}^{k}\right)+\mathbf{b}_{\text {end}}^{r}\right) \end{array}

以上两个Tagger 都采用贪心的取最近的start position和end position作为一个识别出的entity。

实验

主实验结果如下：

从实验结果发现，本文所提出的新框架新模型远远超出其他baseline，作者想到了可能与预训练模型有关，所以又补充了一个采用“random参数的bert” 和 “不采用bert而采用LSTM进行编码”的实验，同样都表现出了极高的指标。

同时作者发现这些baseline普遍在WebNLG这个数据集上表现很差，作者通过分析数据集发现：

WebNLG数据集中正常的（即既不出现关系重叠，又不出现关系跨实体情况）的数据条数占比很少，所以为了探究在正常的和非正常的数据中本文的模型表现如何，作者又做了如下实验。

作者分别取出了正常的数据、是实体对重叠的和关系跨实体的数据分别进行实验，发现本文的模型在每一个实验中都远远超过其他模型。

作者还探究了该模型对句子复杂程度的研究，一般来说，一个句子中三元组个数越多句子越复杂，模型能正确抽取关系三元组的难度也就越大，但是从如下实验可以看出，本文提出的模型能够很好的胜任复杂的句子，并且与其他模型相比抽取准确率一直保持在一个很高的水平上。

参考文献

[1] Lison P, Hubin A, Barnes J, et al. Named Entity Recognition without Labelled Data: A Weak Supervision Approach[J]. arXiv preprint arXiv:2004.14723, 2020.

[2] Lin Y, Ji H, Huang F, et al. A Joint Neural Model for Information Extraction with Global Features[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7999-8009.

[3] Wei Z, Su J, Wang Y, et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 1476-1488.

供稿丨罗瑞璞编辑丨王思远责编丨何啸风来自 | 复旦DISC

供稿人：罗瑞璞丨本科四年级丨研究方向：信息抽取、知识建模丨邮箱：16307130247@fudan.edu.cn

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！后台回复【五件套】
下载二：南大模式识别PPT后台回复【南大模式识别】

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-09-11，如有侵权请联系 cloudcommunity@tencent.com 删除

data

object

本文分享自深度学习自然语言处理微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

data

object

登录后参与评论

0 条评论

热度