End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文摘要简介神经网络结构训练总结

论文地址:End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

摘要

传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WSJ词性标注任务和CoNLL 2003 词性标注数据集上取得优异的成绩,前者97.55%的准确率,后者取得91.21%的F1值。

简介

  • 传统序列标注模型存在的问题:
  1. 大多数基于线性的统计语言模型
  2. 基于大量的人工特征
  3. 需要大量的外部数据,比如名称库
  4. 普适性差
  • 近几年的序列标注模型: 尽管这些使用一些分布式表示,例如词嵌入作为输入,但是仅仅是为了增加手工特征而不是替换它;另一方面,如果这些模型完全依赖于神经嵌入,那么性能下降非常快
  • 本文贡献 (i) proposing a novel neural network architecture for linguistic sequence labeling. (ii) giving empirical evaluations of this model on benchmark data sets for two classic NLP tasks. (iii) achieving state-of-the-art performance with this truly end-to-end system.

神经网络结构

  • 第一步:CNN获取Character-level 的词表示

在这里,CNN的优点是可以高效地学习形态学特征,比如单词的前缀或者后缀、大小写等

  • 第二步:Bi-directional LSTM 将第一步获得的单词表示和训练好的词向量结合起来,作为Bi-directional LSTM的输入,得到每个状态的表示。注意,BLSTM的输入和输出都过了Dropout层
  • 第三步:CRF 将Bi-LSTM的输出向量作为CRF层的输入,最终预测出序列

训练

参数以及实验部分请参考论文,这里不详细解释了。最终的结果当然很棒了

总结

其实这篇论文是2016年ACL的论文,自己现在看实在太晚了,但是总结自己以前看的论文,感觉这篇文章基本上提出了一个base model,BiLSTM-CNN-CRF,以后会经常看到文章都是基于这种结果衍生的。最后自己找了一个基于Pytorch的开源代码,有详细的实现过程。 End-to-end-Sequence-Labeling-via-Bi-directional-LSTM-CNNs-CRF-Tutorial

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习入门与实践

【深度学习系列】用PaddlePaddle和Tensorflow实现经典CNN网络AlexNet

上周我们用PaddlePaddle和Tensorflow实现了图像分类,分别用自己手写的一个简单的CNN网络simple_cnn和LeNet-5的CNN网络识别...

3848
来自专栏瓜大三哥

反馈型神经网络

反馈型神经网络(recurrent networks)是一种从输出到输入具有反馈连接的神经网络,其结构比前馈网络要复杂得多。典型的反馈型神经网络有Elman网络...

7119
来自专栏梦里茶室

TensorFlow 深度学习笔记 从线性分类器到深度神经网络

Limit of Linear Model 实际要调整的参数很多 ? 如果有N个Class,K个Label,需要调整的参数就有(N+1)K个 Linear...

2939
来自专栏用户3246163的专栏

2.1 统计基础

主要用在线性回归的时候来估计b1 unbiasedness: 估计的残差是随机的 efficiency:对比其他估计样本残差最小 consistency:样本增...

2593
来自专栏AI科技大本营的专栏

多图 | 从神经元到CNN、RNN、GAN…神经网络看本文绝对够了

作者 | FJODOR VAN VEEN 编译 | AI100(ID:rgznai100) 在深度学习十分火热的今天,不时会涌现出各种新型的人工神经网络,想要实...

7979
来自专栏大数据挖掘DT机器学习

Python写算法:二元决策树

二元决策树就是基于属性做一系列的二元(是/否)决策。每次决策对应于从两种可能性中选择一个。每次决策后,要么引出另外一个决策,要么生成最终的结果。一个实际训练...

2974
来自专栏人工智能头条

如何选择合适的损失函数,请看......

1941
来自专栏企鹅号快讯

基础 Word2vec的原理介绍

一,词向量的概念 将 word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention” 或 “Word Embedding...

23710
来自专栏AI研习社

CS231n 课后作业第二讲 : Assignment 2(含代码实现)| 分享总结

CS231n 是斯坦福大学开设的计算机视觉与深度学习的入门课程,授课内容在国内外颇受好评。其配套的课后作业质量也颇高,因此雷锋网 AI 研习社在近期的线上公开...

49110
来自专栏AI科技大本营的专栏

如何选择合适的损失函数,请看......

【AI科技大本营导读】机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预...

1342

扫码关注云+社区

领取腾讯云代金券