融合对抗学习的因果关系抽取

文章来源：企鹅号 - GAN生成式对抗网络

来源：自动化学报

因果关系是“原因”和“结果”之间的关系，是引起和被引起的关系. 因果关系作为一种重要的关系类型，在许多任务中起着重要作用，如事件预测、情景生成、问答以及文本蕴涵等.

自然语言文本中存在大量的因果关系. 新闻文本中经常报道事故及其造成的后果：

Thearresthas caused anoutcryof indignation among some industrial and political circles in France.

该例包含了arrest（逮捕）和outcry（强烈抗议）之间的因果关系.

因果关系的抽取方法主要分为两类：基于模式匹配的方法和基于机器学习的方法. 基于模式匹配的方法包括词典语法模式，语义关系模式等. 基于机器学习的方法包括支持向量机（Support Vector Machine，SVM）、决策树（Decision Tree）等. 这些方法主要依赖特征工程，但是特征工程涵盖了繁琐的特征选择和不准确的特征提取，计算开销大且存在错误传播的问题. 此外，以往的方法利用WordNet，NomLex-Plus以及VerbNet等知识库抽取特征，对知识库依赖性强.

图1 GAN 结构

为避免特征工程的一系列问题，本文将在因果关系抽取任务上探索新的方法. 自2014年以来，Goodfellow等人提出的生成式对抗网络GAN在生成式任务上取得巨大进展. GAN在结构上受到博弈论的启发，系统由一个生成模型和一个判别模型构成，如图1. 生成模型捕捉真实数据样本的潜在分布，并生成新的数据样本；判别模型是一个二分类器，判别输入是真实数据还是生成的样本. 判别模型的存在使得 GAN 中的生成模型能够学习去逼近真实数据，最终让其生成的数据达到以假乱真的地步. 与传统基于模式匹配和机器学习的抽取方法相比，GAN能够利用生成模型和判别模型之间的对抗，获取逼近训练目标的生成模型.

图2 模型整体架构

针对已有因果关系抽取方法在特征工程中存在的问题，本文提出了一个包含因果关系解释信息的对抗学习框架，分别将原始语句和包含因果关系解释信息的语句输入到基本模型和因果关系增强模型，利用两个相同结构的神经网络模型进行因果关系分类. 通过基本模型和判别模型的对抗训练，基本模型能模仿和学习因果关系增强模型生成的特征向量，进而捕获模型间共同特征，提升因果关系抽取效果.

图3 带注意力机制的双向门控循环单元神经网络

引用格式

冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811-818

作者简介

冯冲，北京理工大学计算机学院副研究员. 主要研究方向为自然语言处理, 信息抽取, 机器翻译. 本文通信作者.

康丽琪，北京理工大学计算机学院硕士研究生. 主要研究方向为信息抽取，关系

抽取.

石戈，北京理工大学计算机学院博士研究生. 主要研究方向为信息抽取，事件抽取.

黄河燕，北京理工大学计算机学院教授. 主要研究方向为自然语言处理和机器翻译社交网络与信息检索, 智能处理系统.

发表于: 2018-07-142018-07-14 23:04:18
原文链接：https://kuaibao.qq.com/s/20180714B1MK3Z00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

融合对抗学习的因果关系抽取

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐