专栏首页深度学习自然语言处理【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习

一个月前和实验室的伙伴们打了一个跨领域半监督依存句法分析的比赛,比赛成绩出乎意料,在封闭测试下是第一名。这也是我第一次接触半监督学习。最近师兄在写这个评测论文,我也在帮忙准备下实验数据。昨天师兄发现了一个极其简单的半监督方法论文,挺后悔这么简单当初没用上。今天就来说说这个很简单的论文。

给还不了解的小伙伴普及下半监督和无监督哈:

半监督semi-supervised

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

无监督学习un-supervised

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

-来自百度百科

一句话解释就是:

有监督是所有的训练文本为人工标记的;

半监督是一部分是有标记的,剩下的为无标记的(一般无标记>>有标记);

无监督就是全部都是无标记的。

简单了解后,开始正事。

论文解析

地址:

https://arxiv.org/pdf/1511.01432.pdf

这篇文章主要讲的就是如何使用无标注数据来辅助有标注的更好的训练。这里提出了2个方法,用无标签数据进行无监督训练的参数来初始化有监督学习的模型

  • 一种是用seq2seq自编码模型(sequence autoencoder, SA-LSTM),encoder输入为这个WXYZ,decoder输出为依然为WXYZ,和普通的seq2seq模型相比不同的是,这里的encoder和decoder隐层是共享的。
  • 另一种是用最基础的语言模型(language models, LM-LSTM),输入上一个词预测下一个词,就相当于上面的没有encoder一样。大概长这个样子:

用无标注数据训练完后,用此时的LSTM内部权重来初始化一会将要进行有标注数据的有监督学习LSTM模型即可。

作者在情感分析、文本分类、目标分类等多组任务中进行了对比实验,均取得了不错的结果。

有什么好处呢?

文章中说,这样的好处是网络在还没有有监督训练的时候,就已经学到了文本的内部信息,也就是提前让循环神经网络学会句子的表达,再之后根据标签去学习分类的能力。这样会使得最终训练的梯度更好,不会出现提出骤变的现象。

和word2vec初始化相比呢?

这个文中也做了实验:

这两种方法初始化,都比word2vec好了不少。


这个模型用的都是论文用的都是LSTM。因为是2015年的一篇经典论文,所以当时LSTM都是很火的。现在我觉得bert什么的或许可以采用相同的方法,进行预训练。这里只是提供一个思想而已。

当然还有别的实验分析,但是这里就不分析了,论文中的实验分析很多都是自己在一堆数据中找出来特别具有代表性的数据来展示给你看的。所以这里主要还是看大概思想和思路,在自己以后碰到这个无监督问题是能够猛然想到:

欧,我好像在某个小博主写的【一分钟论文】中的一个paper可以解决这个问题就行啦。

以后我会坚持将这个【一分钟论文】专栏坚持写下去!

本文分享自微信公众号 - 深度学习自然语言处理(zenRRan),作者:zenRRan

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 从苹果店员到机器学习工程师:学习AI,我是这样起步的

    我曾经在苹果商店工作,我想要改变,那么就从自己服务的技术入手吧。我开始学习机器学习和人工智能——这个领域非常热门,每一周,谷歌、Facebook 这样的科技公司...

    zenRRan
  • 资料 |《深度学习500问》,川大优秀毕业生的诚意之作

    今天,给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书?

    zenRRan
  • 新年干货 | NLP一路走来的经验之谈

    第一种,在实践中学习,找一个特定的任务,譬如文本分类、情感分析等。然后以做好任务为导向的去挖掘和这一个任务相关的知识点。 由于没有系统的学习,肯定会遇到各种各...

    zenRRan
  • 谷歌首席科学家:半监督学习的悄然革命

    作为一个机器学习工程师,可能平时最常打交道的就是海量数据了。这些数据只有少部分是有标注的,可以用来进行监督学习。但另外一大部分的数据是没有标注过的。

    新智元
  • 从自监督学习主流方法、最新工作进展,看未来前景研究方向

    本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。

    AI科技评论
  • 机器学习分类

    机器学习通常分为四类 监督学习 无监督学习 半监督学习 强化学习 监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由...

    听城
  • 监督学习和非监督学习

    人工智能 这个行业在现在是非常火爆的,我相信大家都有所了解。我对这个行业的认识是薪资高,门槛高,大部分要求是研究生以上学历。作为普通二本院校的我有点感到绝望~但...

    佛系编程人
  • 漫画版:什么是机器学习?

    这段机器学习基础视频[2]将帮助您了解什么是机器学习,机器学习有哪些类型-有监督,无监督和强化学习,如何通过简单的示例学习机器学习以及如何在各个行业中使用机器学...

    用户4131414
  • 干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。

    量子位
  • 什么是表征学习?

    在机器学习中,特征学习或表征学习[1]是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学...

    种花家的奋斗兔

扫码关注云+社区

领取腾讯云代金券