文档级关系抽取方法，EMNLP 2020 paper

机器学习AI算法工程

发布于 2021-04-01 11:42:11

1.1K0

发布于 2021-04-01 11:42:11

目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系，在实践中受到不可避免的限制：在真实场景中，大量的关系事实是以多个句子表达的。文档中的多个实体之间，往往存在复杂的相互关系。

以下图为例，就包括了文章中的两个关系事实（这是从文档标注的19个关系事实中采样得到的），其中涉及这些关系事实的命名实体用蓝色着色，其它命名实体用下划线标出。为了识别关系事实（Riddarhuset，country，Sweden），必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实，然后从句子1确定Stockholm是Sweden的首都，以及Sweden是一个国家，最后从这些事实推断出Riddarhuset的主权国家是瑞典。

该过程需要对文档中的多个句子进行阅读和推理，这显然超出了句子级关系抽取方法的能力范围。根据从维基百科采样的人工标注数据的统计表明，至少40％的实体关系事实只能从多个句子联合获取。因此，有必要将关系抽取从句子级别推进到文档级别。

文档级关系抽取数据集DocRED

2019年的ACL上提出了一个关系抽取数据集DocRED，为文档级关系抽取的研究提供了一个非常好的标注数据集，今年的ACL上，就有论文使用DocRED作为语料，提出了文档级关系抽取的模型。

DocRED包含对超过5000篇Wikipedia文章的标注，包括96种关系类型、143,375个实体和56,354个关系事实。这在规模上超越了以往的同类精标注数据集。与传统的基于单句的关系抽取数据集相比，不同之处在于，DocRED中超过40%的关系事实只能从多个句子中联合抽取，因此需要模型具备较强的获取和综合文章中信息的能力，尤其是抽取跨句关系的能力。