Hybrid semi-Markov CRF for Neural Sequence Labeling

阅读大概需要3分钟 跟随小博主,每天进步一丢丢

导读

对于命名实体识别任务,现有的模型基本已经能够达到很好的结果。近期,在ICLR 2018上提出了使用active learning,可以在少量数据集下得到较优结果(可以参见专栏文章)。除此之外,本文提出了使用联合学习的方式提升序列标注的结果,虽然效果没有超过使用额外信息的模型,但是在已有的不使用额外信息的模型中可以达到state-of-the-art的结果。

文末或获得论文链接

Model

本文使用的模型是基础的NER模型,联合使用了CRF和改进的semi-CRF提升了模型的效果。

对于输入

表示对应每个词的词向量,

表示句子的分割结果(

,分别对应开始词的index,结束词的index和标签)。

与传统SCRF一样,句子分割的概率计算如下:

是分割块的得分,

是segment-level的从类别i到类别j的转移参数。与传统SCRF的区别在于,本文使用word-level的标签计算句子每个可能区块的得分。

计算第k个词被分为

得分。

对于每个词,

由三个部分组成:

1.词向量

2.

3.

,表示词块中位置的embedding。

联合训练和解码

为了研究word-level标签在SCRF上的作用,作者联合训练CRF层和HSCRF层,共用同一层词向量输入,分别在word-level和segment-level真实值的基础上训练模型参数。

在解码阶段,可以得到两个不同层级的预测标签,作者选择较低loss的层级预测作为最终结果。

实验

数据集CoNLL 2003,训练集中segment长度超过6的case被剔除,削减了将近0.5%的训练集。使用Glove作为预训练词向量,分别测试了LM-BLSTM和CNN-BLSTM两种编码方式。

与各个现有模型的比较,*表明使用了外部信息

为了探究word-level和segment-level的信息在NER中的作用,作者做了如下实验:

不同实体长度上各个模型的表现

从图中可以看出,GSCRF在识别较长实体的效果优于CRF,但是短实体上的识别效果比较差;HSCRF在长实体识别上的效果优于CRF,短实体上效果也与CRF较为接近。

作者猜测word-level的标签或许有助于监督模型学习word-level的信息用于识别短实体,而segment-level的标签则指导模型去捕捉词的整合信息,用以帮助识别长实体。

总结

GAN是现在较为流行的深度学习模式,但是联合学习也在不断的吸引一些学者的眼球,已经有大量的实践证明联合学习可以同时有效地提升多个任务的效果,因为可以提供更多的信息给模型综合学习。单一任务上模型可以获得的信息很有限,由于数据集的限制,可能并不能学习到足够量的语义信息,通过多任务监督可以给模型提供更多的信息,有效提升模型的效果,也是一个不错的研究和实践的方向。

附:用pytorch实现的链接

https://github.com/ZhixiuYe/HSCRF-pytorch

转自知乎专栏:西土城的搬砖日常 论文来源:ACL 2018

原文发布于微信公众号 - 深度学习自然语言处理(zenRRan)

原文发表时间:2018-07-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

深度学习的局限性

本文改编自我的书"Deep Learning with Python(用Python深度学习)"中第9章第2节( Manning Publications 出版...

652110
来自专栏AI科技大本营的专栏

机器学习入门概览

我们从一个实例来了解机器学习的基本概念。假设我们现在面临这样一个任务(Task) ,任务的内容是识别手写体的数字。对于计算机而言,这些手写数字是一张张图片,如下...

8910
来自专栏专知

机器学习模型的“可解释性”到底有多重要?

【导读】我们知道,近年来机器学习,特别是深度学习在各个领域取得了骄人的成绩,其受追捧的程度可谓是舍我其谁,但是有很多机器学习模型(深度学习首当其冲)的可解释性不...

5.1K40
来自专栏机器之心

业界 | Petuum提出对偶运动生成对抗网络:可合成逼真的视频未来帧和流

30160
来自专栏机器之心

学界 | 超越ImageNet:谷歌内建300M图像数据集揭露精度与数据的线性增长关系

F选自Google Research 机器之心编译 参与:蒋思源、路雪 自残差网络以来,深度模型拥有了极大的容量,同时 GPU、TPU 等硬件为深度学习提供了巨...

33390
来自专栏Petrichor的专栏

思考: 现有 不平衡样本处理方法 的 缺陷

现实中采集到的训练样本往往分布不均。如果不加处理而直接训练,往往会使得模型更侧重训练到样本数目较多的类别,而轻视了样本数目较少类别,最终影响到模型的泛化能力。

17740
来自专栏人工智能头条

机器学习入门概览

11330
来自专栏应兆康的专栏

27. 减少方差的技术

• 添加更多的训练数据:这是最简单也是最可靠的一种方式来处理方差,只要你能访问大量的数据并有足够的计算能力来处理它们。

20340
来自专栏CVer

[计算机视觉论文速递] 2018-06-29 人脸专场

这篇文章有4篇论文速递,都是人脸方向,包括人脸识别、人脸表情识别、人脸情绪分类和人脸属性预测。其中一篇是CVPR 2018 workshop。

35740
来自专栏机器之心

专栏 | 阿里 AI LAB ICCV 2017 录用论文详解:语言卷积神经网络应用于图像标题生成的经验学习

37570

扫码关注云+社区

领取腾讯云代金券