首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于深度学习的关系抽取

1

引言

信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,主要任务有实体抽取、关系抽取、事件抽取。其中,关系抽取(Relation Extraction,RE)研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系,它的任务定义可以描述为:根据一段文本S,确定其中目标实体对1,e2>之间的类别关系r。例如,句子“Bill Gates is the founder of Microsoft Inc.”中包含一个实体对(Bill Gates, Microsoft Inc.),这两个实体对之间的关系为“Founder”。利用关系抽取技术挖掘出实体之间深层的关系结构,具有深刻的理论意义和巨大的研究价值,它也是优化搜索引擎、建立知识图谱、开发智能问答系统的基础工作。

现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法和无监督的学习方法三种:

1、有监督的学习方法将关系抽取任务当作分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。

2、半监督的学习方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。

3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对所对应的上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。

与其它两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高,因此该方法受到了许多研究工作关注。随着深度学习的发展,许多研究工作倾向于使用神经网络模型去解决关系抽取问题。神经网络模型能够自动学习句子特征,无需依赖复杂的特征工程。本文将针对关系抽取任务,从传统的有监督学习方法开始,进而介绍深度学习技术在该领域的研究进展以及未来的研究趋势。

2

基于有监督的关系抽取

有监督学习方法将实体关系抽取视为一个分类任务,将句子中出现的实体关系划分到预先定义好的类别中。主要包括基于特征向量的学习方法(feature-based)和基于核函数的学习方法(kernel-based)。基于统计的机器学习方法通常使用支持向量机、最大熵模型完成关系抽取任务,通过大量人工标注数据和引入外部信息提高抽取的性能。然而,这些方法的不足之处在于,许多传统的NLP工具被用来提取高级特征,如词性标签、最短依赖路径和命名实体,从而导致计算成本的增加和额外的误差传播;另一个缺点是,由于不同的训练数据集对实体及实体关系的覆盖率较低,在通用性方面表现不佳。

针对人工标注训练数据需要花费大量的时间和精力的问题,Mintz等人提出了远程监督(Distant Supervision),将纽约时报新闻文本与大规模知识图谱Freebase(包含7300多个关系和超过9亿的实体)进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。例如,如图1所示,实体对(Steve Jobs, Apple)在知识库中的关系为“Founder”,那么远程监督将把包含这两个实体的原始句子视为此关系的正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效解决了关系抽取的标注数据规模问题。之后许多研究者从各个角度对远程监督技术提出了改进方案。尽管远程监督是自动标注训练数据的有效策略,但它还是会带来一些错误的标签问题。例如,“Steve Jobs passed away the day before Apple unveiled iPhone 4S”,虽然这个句子中出现了“Steve Jobs”和“Apple”,但却都没有表达出“Founder”的关系,在远程监督中仍将被视为一个正例。因此,Riedel等人采取多示例问题的处理办法,将一个关系所标记的所有句子看作是一个集合,并假设集合中至少有一个句子能表达出两个实体所对应的关系,从而有效的减少了冗杂数据对应远程监督的影响。Surdeanu等人还提出了基于概率图模型的多实例多标签模型,不仅对噪声训练数据进行建模,而且针对实体对和所属关系进行多分类建模,实验结果表明该模型在关系抽取效果上有了比较显著的提高。

图 1:远程监督的实例

3

基于深度学习的关系抽取

现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。近年来,很多研究人员开始将深度学习框架的神经网络模型应用到关系抽取中,神经网络模型能够自动学习句子特征,无需依赖复杂的特征工程以及领域专家知识,具有很强的泛化能力。下面将重点介绍一些主流的基于神经网络的关系抽取模型。

Socher 等人率先提出使用矩阵-递归神经网络模型(matrix-vector Recursive Neural Network)来解决关系抽取问题。模型首先对句子进行句法分析,将句法树每个节点用向量表示,从句法树最底端的词向量开始,按照句子的句法结构迭代合并(组合矩阵),最终得到该句子的向量表示来实现关系分类。模型引入语义矩阵(Matrix)刻画句子副词对形容词的修饰关系,以及谓语动词的真假逻辑(是与否)。缺点在于每个节点都有一个词向量和一个矩阵,训练时间复杂度太高,同时没有考虑两个实体在句子中的位置信息。

Zeng等人提出采用卷积神经网络进行关系抽取。如图2所示,他们在词汇层面特征(Lexical-level Feature)的基础上引入目标实体(词)与句子其他词的相对位置信息,来构造句子层面的特征(Sentence-level Feature),然后通过池化层和非线性层获取句子表示。在没有使用NLP处理工具(POS、NER、syntactic analysis)的情况下,取得了最优的实验效果。

图 2:Zeng等人模型示意图

Nguyen等人在此工作的基础上在卷积层中加入了多尺寸的卷积核,以此提取更多的N-Gram特征,并完全不再使用词汇层面的特征,实验证明多窗口尺寸有利于性能的提升。同样地,Santos等人也对此做出了改进,核心工作在于提出了一种新的基于边界的排序损失函数(margin-based ranking loss)代替传统的softmax+cross-entropy的损失方式,有效提高了不同关系类别之间的区分性。该损失函数定义如下:

其中,表示某个标签为类别c的得分,y+和c-分别对应该样例的真实标签与经采样得到的错误标签。m+和m-对应于两个值大于0的边界(margin),γ为缩放因子。最小化L就要求正样本对应的标签得分越大越好,负样本对应的标签得分越小越好。同时,由于边界(margin)的存在使得模型尽可能让正样本的得分大于m+,以及负样本的得分小于m-。通过这种方式将正负样本区分得更加清楚。

Miwa等人提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM(Long-Short Term Memory,长短时记忆模型)和树形LSTM同时对实体和句子进行建模。目前,基于卷积神经网络的方法在关系抽取的标准数据集SemEval-2010 Task 8上取得了最好的效果。

上面介绍的神经网络模型在人工标注的数据集上取得了巨大成功。然而,与之前基于特征的关系抽取系统类似,神经网络关系抽取模型也面临着人工标注数据较少的问题。对此,研究者尝试将基于卷积神经网络的关系抽取模型扩展到远程监督数据上,并提出使用多实例学习来改进原始的远程监督方法。先对多实例学习做一下简单介绍,多示例学习可以被描述为:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。通过定义可以看出,与监督学习相比,多示例学习数据集中的样本示例的标记是未知的,而监督学习的训练样本集中,每个示例都有一个已知的标记;与非监督学习相比,多示例学习仅仅只有包的标记是已知的,而非监督学习样本所有示例均没有标记。但是多示例学习有个特点就是它广泛存在真实的世界中,潜在的应用前景非常大。

Zeng等人通过引入多实例学习的方法,假设每个实体对的所有句子中至少存在一个句子反映该实体对的关系,提出了一种新的学习框架:以实体对为单位,对于每个实体对只考虑最能反映其关系的那个句子。该方法在一定程度上解决了神经网络关系抽取模型在远程监督数据上的应用,在NYT10数据集上取得了远远高于基于特征的关系抽取模型的预测效果。但是,该方法仍然存在一定的缺陷:该模型对于每个实体对只能选用一个句子进行学习和预测,损失了来自其他大量的有效句子的信息。Lin等人提出了一种基于句子级别注意力机制的神经网络模型将实体对对应的有噪音的句子进行过滤,然后利用所有有效句子进行学习和预测,该方法能够根据特定关系为实体对的每个句子分配权重,通过不断学习能够使有效句子获得较高的权重,而有噪音的句子获得较小的权重,模型如图3所示。与之前的模型相比,该方法效果取得较大提升。

图 3:Lin等人模型示意图

4

总结与展望

本文针对关系抽取任务,重点介绍了如何利用深度学习的语义表示和学习能力,自动地从训练数据中学习分类特征,从而取得比传统方法更好的关系抽取效果。当然,关系抽取任务性能还有很大提升空间,仍然有很多问题亟待解决。改进的出发点可以立足于远程监督,考虑如何减轻噪音数据带来的影响。此外也可以将一些时髦的算法引入到该任务中,例如强化学习(AAAI2018中的2篇长文)。并且,目前的神经网络关系抽取主要用于预先设定好的关系集合。而面向开放领域的关系抽取,仍然是基于模板等比较传统的方法。因此,我们需要探索如何将神经网络引入开放领域的关系抽取,自动发现新的关系及其事实。此外,对现有神经网络模型如何对新增关系和样例进行快速学习也是值得探索的实用问题。

参考文献

[1] 车万翔,刘挺,李生. 实体关系自动抽取. 中文信息学报. 2005.

[2] Zhao, Shubin, and Ralph Grishman. Extracting relations with integrated information using kernel methods. ACL. 2005.

[3] 庄成龙, 钱龙华, 周国栋. 基于树核函数的实体语义关系抽取方法研究. 中文信息学报. 2009.

[4] Mintz, Mike, Steven Bills, Rion Snow, and Dan Jurafsky. Distant supervision for relation extraction without labeled data. ACL-IJCNLP. 2009.

[5] Takamatsu, Shingo, Issei Sato, and Hiroshi Nakagawa. Reducing wrong labels in distant supervision for relation extraction. ACL. 2012.

[6] Yao, Limin, Sebastian Riedel, and Andrew McCallum. Collective cross-document relation extraction without labelled data. EMNLP. 2010.

[7] Hoffmann, Raphael, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel S. Weld. Knowledge-based weak supervision for information extraction of overlapping relations. ACL-HLT. 2011.

[8] Socher, Richard, et al. Semantic compositionality through recursive matrix-vector spaces. EMNLP-CoNLL. 2012.

[9] Santos, Cicero Nogueira dos, Bing Xiang, and Bowen Zhou. Classifying relations by ranking with convolutional neural networks. ACL. 2015.

[10] Makoto Miwa, Mohit Bansa. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. ACL. 2016.

原文:义杰

编辑:李思思

责编:张静、崔一鸣

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180720G0YPT600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券