专栏首页机器学习AI算法工程文档级关系抽取方法,EMNLP 2020 paper

文档级关系抽取方法,EMNLP 2020 paper

目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。

以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采样得到的),其中涉及这些关系事实的命名实体用蓝色着色,其它命名实体用下划线标出。为了识别关系事实(Riddarhuset,country,Sweden),必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实,然后从句子1确定Stockholm是Sweden的首都,以及Sweden是一个国家,最后从这些事实推断出Riddarhuset的主权国家是瑞典。

该过程需要对文档中的多个句子进行阅读和推理,这显然超出了句子级关系抽取方法的能力范围。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。

文档级关系抽取数据集DocRED

2019年的ACL上提出了一个关系抽取数据集DocRED,为文档级关系抽取的研究提供了一个非常好的标注数据集,今年的ACL上,就有论文使用DocRED作为语料,提出了文档级关系抽取的模型。

DocRED包含对超过5000篇Wikipedia文章的标注,包括96种关系类型、143,375个实体和56,354个关系事实。这在规模上超越了以往的同类精标注数据集。与传统的基于单句的关系抽取数据集相比,不同之处在于,DocRED中超过40%的关系事实只能从多个句子中联合抽取,因此需要模型具备较强的获取和综合文章中信息的能力,尤其是抽取跨句关系的能力。

图神经网络

相比较传统的CNN和RNN,图神经网络能够更好地在文档层面上建立实体之间的联系,从而实现文档级的关系推理。因此在解决文档级实体关系抽取任务中,图神经网络的主流的方法。

图网络结构的分类

在使用图神经网络时,图的构造是关键的一个环节,根据是否需要区分图中边的类型,可以将图分为异质图和同质图。

异质网络图

这种图定义了不同类型的边,边的表示方式因类型不同而有所区别,主要的代表工作是GCNN、EOG。

同质网络图 (latent structure)

把所有的边当作同质关系进行处理,利用attention或者其他的方式自动进行区分,主要的代表是LSR。

EMNLP 2020 paper:

Double Graph Based Reasoning for Document-level Relation Extraction

https://arxiv.org/abs/2009.13752

https://shop585613237.taobao.com

本文提出了一种双图的图聚合推理网络(GAIN)。GAIN首先构造一个异构提及级别图(hMG)来建模文档中不同提及之间的复杂交互。在此基础上,我们提出了一种新的路径推理机制来推断实体之间的关系。在公共数据集DocRED上的实验表明,GAIN比以前的最新技术有了显著的性能改进(F1上为2.85)。

本文分享自微信公众号 - 机器学习AI算法工程(datayx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 交大ADAPT实验室 | 常识知识论文列表

    近年来,常识知识(commonsense knowledge)越发成为NLP领域,乃至多模态,跨学科的研究热点。尽管以BERT为代表的的预训练语言模型已经在实体...

    blmoistawinde
  • 2020腾讯犀牛鸟精英人才培养计划课题介绍(七)——自然语言处理研究

    ? 精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访问的...

    腾讯高校合作
  • 超全必读!NLP 事件抽取综述(下)

    本系列文章主要分享近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分...

    NewBeeNLP
  • NLP 事件抽取综述(中)—— 模型篇

    本系列文章主要分享近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分...

    zenRRan
  • 知识图谱从哪里来:实体关系抽取的现状与未来

    最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向...

    数据派THU
  • 【NLP】知识图谱从哪里来:实体关系抽取的现状与未来

    最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向...

    yuquanle
  • 知识图谱从哪里来:实体关系抽取的现状与未来

    最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向...

    AI科技大本营
  • 【NLP】EMNLP 2019 参会小结及最佳论文解读

    2019年EMNLP自然语言处理实证方法会议11月3日至7日在中国香港召开。作为自然语言处理领域的顶级会议之一,在本次大会中,中国被接收的论文数量在所有国家和...

    zenRRan
  • 知识图谱从哪里来:实体关系抽取的现状与未来

    最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向...

    Datawhale
  • 「自然语言处理(NLP)」你必须要知道的八个国际顶级会议!

    国际学术会议是一种学术影响度较高的会议,它具有国际性、权威性、高知识性、高互动性等特点,其参会者一般为科学家、学者、教师等。具有高学历的研究人员把它作为...

    ShuYini
  • 2021腾讯犀牛鸟精英科研人才培养计划课题(七)——自然语言处理

    12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。 本年度精英科研人才计划将延续人工智能领...

    腾讯高校合作
  • 你的模型可能学错了!!深入探究答案位置偏差

    虚假的统计线索在这几年已经逐渐引起了人们的关注,比如去年被广泛讨论的BERT是如何在NLI任务中利用数据集中的词汇统计线索来做出更可能是正确的预测,比如带有"n...

    NewBeeNLP
  • SPERT:一种从文本中抽取关系方法

    spert: 一种以变压器网络BERT为核心的联合实体和关系提取模型。采用基于span的方法:任何标记子序列(或span)构成一个潜在的实体,任何一对span之...

    木野归郎
  • 2019腾讯犀牛鸟精英人才培养计划课题介绍(七)—自然语言处理

    ? “ 精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访...

    腾讯高校合作
  • 学界 | 一览 EMNLP 2018 开幕盛况:两千多篇论文投稿,参会人员翻倍

    AI 科技评论按:当地时间 11 月 2 日,在比利时首都布鲁塞尔召开的自然语言处理领域顶级会议 EMNLP 2018 进入正会环节,大会主席 Ellen Ri...

    AI科技评论
  • 拿到参考资料的预训练模型,太可怕了!

    今天和大家分享 Facebook 发表于 NeurIPS 2020 的工作,既然『闭卷考试』不理想,那不如『开卷答题』?

    NewBeeNLP
  • NAACL21 最佳论文!罗切斯特大学&腾讯:视频辅助的无监督句法分析

    世界自然语言处理方向三大顶会之一NAACL 2021(另外两个是ACL和EMNLP) 已经于2021年6月6日至11日以在线会议的形式成功举办。

    AI科技评论
  • 2020腾讯犀牛鸟精英人才培养计划课题介绍(九)——信息检索和推荐系统

    ? 精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访问的...

    腾讯高校合作
  • NLP和数学碰撞后会擦出怎样的火花(二)

    本文首先对上篇文章中涉及到的各个任务的结果进行介绍,然后对各类规则进行总结,想看结论的小伙伴可以直接翻到Recommendations部分。

    AI部落联盟

扫码关注云+社区

领取腾讯云代金券