Named Entity Recognition without Labelled Data: A Weak Supervision Approach
论文地址:https://arxiv.org/pdf/2004.14723
命名实体识别(NER)的一大主要瓶颈是需要很多人工标注的高质量数据,但是很多实际场景中这样的数据资源是很稀缺的,尤其是在某些特定领域中。本篇文章提出了一种类似于集成学习(ensemble learning)的方法聚合了多个利用标注工具在目标语料标注来解决目标语料没有标注的问题。
A Joint Neural Model for Information Extraction with Global Features
论文地址:https://www.aclweb.org/anthology/2020.acl-main.713/
在进行实体、关系、事件联合抽取的过程中,之前的传统方法会忽略掉各任务之间的联系,比如抽取“选举获胜”事件的人一般只有一个人,但有些模型会抽取出两个人作为该事件的对象。本文提出了一种融合全局信息的方法来解决这个问题。
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
论文地址:https://arxiv.org/pdf/1909.03227
传统的关系抽取(RE)的任务构建为:给定两个实体,然后利用分类器对两个实体之间是否存在关系和属于哪一类关系进行判断。本文提出了一种新的关系抽取任务的构建方法:利用头实体和遍历所有关系类别对可能的尾实体进行标注,并达到了SOTA的效果。
本文的任务为“多任务联合信息抽取”:即输入一个句子,目的在于抽取出该句的信息网络。信息网络将事件和实体表示为节点;实体之间关系和事件触发(trigger)作为边。从另一方面说,这个任务就是利用统一的框架,对实体、关系和事件进行了联合抽取。但是前人的工作中都没有关注抽取的东西之间的相互联系,例如“Prime Minister Abdullah Gul resigned earlier Tuesday to make way for Erdogan, who won a parliamentary seat in by-elections Sunday.”这句话中赢得选举只能是一个人,但其他模型会抽取出2个不同的人作为该事件的对象,为了解决这个问题本文提出了一种融合全局信息的联合信息抽取模型。
跨子任务的交互效应 (实体、事件和关系之间),例如
A civilian aid worker from San Francisco was killed in an attack in Afghanistan.
句中“旧金山”和“被杀”是一个实体和一个事件,在进行事件关系判断的时候由于两者离得很近所以很容易被判断成“受害者(victim)”的关系,但实际上根据我们的常识 “受害者” 这层关系是不可能和地理位置联系起来的。
跨实例之间的交互效应(事件与事件,关系与关系)
South Carolina boy, 9, dies during hunting trip after his father accidentally shot him on Thanksgiving Day
句中“boy”和“dies”离得很近,所以很容易抽取出“男孩死亡”这一信息,同时后面出现的“shot”由于通常“死亡”这一事件和“受害者(victim)”这一层关系是相互联系的,所以我们也可以知道“boy”是“shot”的“受害者(victim)”
[1] Lison P, Hubin A, Barnes J, et al. Named Entity Recognition without Labelled Data: A Weak Supervision Approach[J]. arXiv preprint arXiv:2004.14723, 2020.
[2] Lin Y, Ji H, Huang F, et al. A Joint Neural Model for Information Extraction with Global Features[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7999-8009.
[3] Wei Z, Su J, Wang Y, et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 1476-1488.