首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Learning with Noise:Supervised Relation Extraction

Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction with Dynamic TransitionMatrix[C]// Meeting of the Association for Computational Linguistics.2017:430-439.

链接:http://www.aclweb.org/anthology/P/P17/P17-1040.pdf

1. 动机

Distant supervision 是一种生成关系抽取训练集的常用方法。它把现有知识库中的三元组 作为种子,匹配同时含有 e1 和 e2 的文本,得到的文本用作关系 r 的标注数据。这样可以省去大量人工标记的工作。

但是这种匹配方式会产生很多噪音:比如三元组 ,可能对齐到『Donald Trump was born in New York』,也可能对齐到『DonaldTrump worked in New York』。其中前一句是我们想要的标注数据,后一句则是噪音数据(并不表示born-in)。如何去除这些噪音数据,是一个重要的研究课题。

2. 前人工作

1、通过定义规则过滤掉一些噪音数据,缺点是依赖人工定义,并且被关系种类所限制。

2、Multi-instancelearning,把训练语句分包学习,包内取平均值,或者用 attention 加权,可以中和掉包内的噪音数据。缺点是受限于 at-least-one-assumption:每个包内至少有一个正确的数据。

可以看出前人主要思路是『去噪』,即降低噪声数据的印象。这篇文章提出用一个噪音矩阵来拟合噪音的分布,即给噪音建模,从而达到拟合真实分布的目的。

3.模型

1、2是普通的关系抽取模型过程,3、4是噪音拟合的过程。

transition matrix 是一个转移矩阵,大小为n * n,n是关系种类的数目。T_ij 的元素的值是 p( j i ),即该句子代表关系为 i,但被误判为j的概率。

这样我们就可以得到:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180104G0T29500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券