End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文摘要简介神经网络结构训练总结

论文地址:End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

摘要

传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WSJ词性标注任务和CoNLL 2003 词性标注数据集上取得优异的成绩,前者97.55%的准确率,后者取得91.21%的F1值。

简介

  • 传统序列标注模型存在的问题:
  1. 大多数基于线性的统计语言模型
  2. 基于大量的人工特征
  3. 需要大量的外部数据,比如名称库
  4. 普适性差
  • 近几年的序列标注模型: 尽管这些使用一些分布式表示,例如词嵌入作为输入,但是仅仅是为了增加手工特征而不是替换它;另一方面,如果这些模型完全依赖于神经嵌入,那么性能下降非常快
  • 本文贡献 (i) proposing a novel neural network architecture for linguistic sequence labeling. (ii) giving empirical evaluations of this model on benchmark data sets for two classic NLP tasks. (iii) achieving state-of-the-art performance with this truly end-to-end system.

神经网络结构

  • 第一步:CNN获取Character-level 的词表示

在这里,CNN的优点是可以高效地学习形态学特征,比如单词的前缀或者后缀、大小写等

  • 第二步:Bi-directional LSTM 将第一步获得的单词表示和训练好的词向量结合起来,作为Bi-directional LSTM的输入,得到每个状态的表示。注意,BLSTM的输入和输出都过了Dropout层
  • 第三步:CRF 将Bi-LSTM的输出向量作为CRF层的输入,最终预测出序列

训练

参数以及实验部分请参考论文,这里不详细解释了。最终的结果当然很棒了

总结

其实这篇论文是2016年ACL的论文,自己现在看实在太晚了,但是总结自己以前看的论文,感觉这篇文章基本上提出了一个base model,BiLSTM-CNN-CRF,以后会经常看到文章都是基于这种结果衍生的。最后自己找了一个基于Pytorch的开源代码,有详细的实现过程。 End-to-end-Sequence-Labeling-via-Bi-directional-LSTM-CNNs-CRF-Tutorial

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

Google发布机器学习术语表 (包括简体中文)

Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。语言版本...

2716
来自专栏机器学习算法与Python学习

资料 | Google发布机器学习术语表 (中英对照)

源 | TensorFlow 回复 20180320 下载PDF版 Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了...

3248
来自专栏AI研习社

Google 发布官方中文版机器学习术语表

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有...

841
来自专栏机器学习原理

NLP(2)——中文分词分词的概念分词方法分类CRFHMM分词

上一篇文章提到了词向量的相关知识,可如何用计算机对一篇文章或者一些句子进行分词,从而让计算机更好理解句子呢?

1214
来自专栏机器之心

教程 | 用Scikit-Learn构建K-近邻算法,分类MNIST数据集

选自TowardsDataScience 作者:Sam Grassi 机器之心编译 参与:乾树、刘晓坤 K 近邻算法,简称 K-NN。在如今深度学习盛行的时代,...

3595
来自专栏WD学习记录

机器学习 学习笔记(21)深度学习中的正则化

在机器学习中,许多策略被显式的设计来减少测试误差(可能会以增大训练误差为代价)。这些策略统称为正则化。

1382
来自专栏小樱的经验随笔

神经网络算法

我们在设计机器学习系统时,特别希望能够建立类似人脑的一种机制。神经网络就是其中一种。但是考虑到实际情况,一般的神经网络(BP网络)不需要设计的那么复杂,不需要包...

3224
来自专栏企鹅号快讯

从零学习:从Python和R理解和编码神经网络

作者:SUNIL RAY 编译:Bot 编者按:当你面对一个新概念时,你会怎么学习和实践它?是耗费大量时间学习整个理论,掌握背后的算法、数学、假设、局限再亲身实...

34710
来自专栏机器之心

机器之心GitHub项目:从循环到卷积,探索序列建模的奥秘

机器之心原创 作者:蒋思源 本文讨论并实现了用于序列模型的基本深度方法,其中循环网络主要介绍了传统的 LSTM 与 GRU,而卷积网络主要介绍了最近 CMU 研...

5515
来自专栏语言、知识与人工智能

transformer框架概述

3.3K7

扫码关注云+社区