前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hybrid semi-Markov CRF for Neural Sequence Labeling

Hybrid semi-Markov CRF for Neural Sequence Labeling

作者头像
zenRRan
发布2018-07-25 11:33:57
1.3K0
发布2018-07-25 11:33:57
举报

阅读大概需要3分钟 跟随小博主,每天进步一丢丢

导读

对于命名实体识别任务,现有的模型基本已经能够达到很好的结果。近期,在ICLR 2018上提出了使用active learning,可以在少量数据集下得到较优结果(可以参见专栏文章)。除此之外,本文提出了使用联合学习的方式提升序列标注的结果,虽然效果没有超过使用额外信息的模型,但是在已有的不使用额外信息的模型中可以达到state-of-the-art的结果。

文末或获得论文链接

Model

本文使用的模型是基础的NER模型,联合使用了CRF和改进的semi-CRF提升了模型的效果。

对于输入

表示对应每个词的词向量,

表示句子的分割结果(

,分别对应开始词的index,结束词的index和标签)。

与传统SCRF一样,句子分割的概率计算如下:

是分割块的得分,

是segment-level的从类别i到类别j的转移参数。与传统SCRF的区别在于,本文使用word-level的标签计算句子每个可能区块的得分。

计算第k个词被分为

得分。

对于每个词,

由三个部分组成:

1.词向量

2.

3.

,表示词块中位置的embedding。

联合训练和解码

为了研究word-level标签在SCRF上的作用,作者联合训练CRF层和HSCRF层,共用同一层词向量输入,分别在word-level和segment-level真实值的基础上训练模型参数。

在解码阶段,可以得到两个不同层级的预测标签,作者选择较低loss的层级预测作为最终结果。

实验

数据集CoNLL 2003,训练集中segment长度超过6的case被剔除,削减了将近0.5%的训练集。使用Glove作为预训练词向量,分别测试了LM-BLSTM和CNN-BLSTM两种编码方式。

与各个现有模型的比较,*表明使用了外部信息

为了探究word-level和segment-level的信息在NER中的作用,作者做了如下实验:

不同实体长度上各个模型的表现

从图中可以看出,GSCRF在识别较长实体的效果优于CRF,但是短实体上的识别效果比较差;HSCRF在长实体识别上的效果优于CRF,短实体上效果也与CRF较为接近。

作者猜测word-level的标签或许有助于监督模型学习word-level的信息用于识别短实体,而segment-level的标签则指导模型去捕捉词的整合信息,用以帮助识别长实体。

总结

GAN是现在较为流行的深度学习模式,但是联合学习也在不断的吸引一些学者的眼球,已经有大量的实践证明联合学习可以同时有效地提升多个任务的效果,因为可以提供更多的信息给模型综合学习。单一任务上模型可以获得的信息很有限,由于数据集的限制,可能并不能学习到足够量的语义信息,通过多任务监督可以给模型提供更多的信息,有效提升模型的效果,也是一个不错的研究和实践的方向。

附:用pytorch实现的链接

https://github.com/ZhixiuYe/HSCRF-pytorch

转自知乎专栏:西土城的搬砖日常 论文来源:ACL 2018

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档