前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NLP】如何利用BERT来做基于阅读理解的信息抽取

【NLP】如何利用BERT来做基于阅读理解的信息抽取

作者头像
用户1508658
发布2019-12-30 15:43:56
2K0
发布2019-12-30 15:43:56
举报
文章被收录于专栏:有三AI

信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取、关系抽取、事件抽取等都属于信息抽取的范畴。在NLP领域,信息抽取的应用场景十分的广泛,是一个非常重要的基础任务。

作者&编辑 | 小Dream哥

1 传统的信息抽取

信息抽取是将非结构化的信息转化为结构化信息的过程,可以分为三类:

命名实体识别(NER):从文本中抽取人物、机构、文件名等实体。

关系抽取(RE):得到实体后,抽取实体间的关系,一般抽取得到一个(实体,关系,实体)的三元组。

事件抽取:抽取多个实体和事件关系,一般得到一个trigger和多个arguments的多元组。

很多时候,信息抽取会包括上面的几种,例如上面的三元组抽取,会包括实体抽取和关系抽取。传统的做法包括pipline和joint方法:

pipline方法:先抽取实体再抽取关系,就像一个流水线一样。这种方法容易在关系抽取时引入实体抽取时的误差,从对整体效果造成不好的影响。

joint方法:即通过类似于端到端的方法,一次性抽取出实体和关系,避免误差的累积。

但是上述两种方法都无法处理一些复杂的问题,例如,“乔布斯在1977年至1983年担任了苹果公司的CEO,在1986年至1996年担任皮克斯动画工作室的CEO”。这里存在7个实体,相互间都有关系,非常复杂。传统的信息抽取方法难以处理。

今天我们介绍基于阅读理解的信息抽取,能够较好的处理一些复杂的问题,特别是在抽取一些比较长的信息时,效果比较明显。

2 基于阅读理解的信息抽取

先来回顾一下NLP中“机器阅读理解”这个任务。机器阅读理解是给定一段文本Paragraph和问题Question,得到答案Answer。通常假定Answer就包含在原文中,因此机器阅读理解任务的目标就是得到一个span(start, end),start表示Answer的开始字符在Paragraph中的位置,end表示Answer的结束字符在Paragraph中的位置。

在BERT出来之前,机器阅读理解主要用LSTM等特征抽取分别对Paragraph和Question进行表征,抽取特征。再将二者的特征进行一些运算,得到相应的输出表征。这里不做详细的介绍,我们介绍今天的重点,利用BERT来做基于阅读理解的信息抽取

3 基于BERT的方案

如上图所示,展示了如何用BERT来做信息抽取任务的结构图。注意一下几点即可:

1.将Question和Paragraph分别作为BERT的text1和text2输入。

2.start/end span在Paragraph对应的输出位置表示。

通常输出会通过2个dense网络,接到start输出和end输出序列。

假设Paragraph为“周杰伦出生于中国台湾”,Question为“周杰伦出生于哪里?”,则laebl为:start[0,0,0,0,0,1,0],end[0,0,0,0,0,0,1]。

将上述start输出和end输出序列接一个sigmod层,然后用binary_crossentropy函数即可进行训练。

如果想要输出一个Answer是否正确的概率,可用将[CLS]的输出表征利用起来,非常的简单。

总结

怎么样?用BERT来处理问题,通常非常的直接和简单,不需要接特别复杂的下游网络就能够取得不错的效果。这是BERT的优势,大巧不工。感兴趣的同学可以自己实践一下。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档