基于递归网络的语言模型

在使用像LSTM或GRU这样的递归神经网络时,有许多设计决策要做。我进行了一些实验,看看在Text8数据集中运行效果如何(数据集:http://mattmahoney.net/dc/textdata.html)。在这种基于语言的模型中,神经网络读取维基百科文章的一部分,并预测文本的下一个字节。

具体来说,我比较存储单元LSTM,GRU和MGU是否使用层归一化和三种初始化权重的方法。所有的实验中,我使用的我用了一个2000个单位的单一循环层,批量大小为100,长度为200个字节的序列,以及Adam优化器学习率为10-3。

Text8任务的性能是以每字符位数(BPC)来衡量的,它描述除了我们的模型重建文本之外,需要多少存储空间。每字符位数越少,说明我们的模型学习的文本结构就越好。

存储单元设计

普通的递归神经网络在每个时间步都会计算一个全新的隐状态。这使得他们难以在许多时间步中记住细节。最常见的解决方案是LSTM细胞(LSTM cell),它使用随时间步保留的本地环境的值。

在过去几年中,研究人员提出了几种方案来降低LSTM的复杂度和参数数目。在这里,我将LSTM (Long Short-Term Memory)分别与GRU(Gated Recurrent Unit)和MGU(Minimal Gated Unit)进行比较。

有趣的是,GRU在这里表现优于LSTM,尽管它使用的参数较少。通常,更多的参数是压缩任务(如语言建模)的一大优势。MGU使用最少的参数,所以对这个任务表现最差。

层的归一化

我们知道,神经网络内部归一化在许多情况下可以提高性能。特别是复发性网络当它们的权重矩阵在时间步之间改变隐藏激活的程度太大时,会遭受消失或爆炸的梯度。归一层在每一个时间步上集中并且缩放激活,使其保持在相似的范围。

这里显示的结果是沿着不同的存储器单元设计和权重初始化被平均了。如图所示,归一层加速了训练,并且显著提高了最终性能。这样明显的结果令我很惊讶,至少从这个任务来看,循环网络默认应该为归一层。

权重初始化

有时,我们初始化权重的方式对于训练神经网络至关重要。这里有几种方法,主要从不同的分布取样权重,并根据层的大小进行缩放。

Xavier初始化样本有统一权重,并按照输入和输出的激活次数进行缩放。方差缩放与此相似,但仅考虑来自高斯的缩放和样本的输入激活。正交初始化则更为复杂,它使用SVD来计算最初保存的归一梯度的权重。

在我的实验中初始化的选择对性能没有太大的影响。讽刺的是,方差缩放初始化导致出现更大的性能差异。正交初始化不能显示出多于效果最好的简单的Xavier初始化的优势。

总而言之,如果你没在循环网络上使用归一层可以试试看,不必太担心重量初始化,并且考虑使用GRU,这可能是比LSTM还要大的层。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-09-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数值分析与有限元编程

矢量函数

一个由三个变量组成的函数w = f(x,y,z)表示如何根据x,y,z来确定w的值。从几何角度更有利于对这个概念的理解:在空间笛卡尔坐标系下取一点,坐标为(x,...

33870
来自专栏AI科技大本营的专栏

前沿 | DeepMind 最新研究——神经算术逻辑单元,有必要看一下!

众所周知,神经网络可以学习如何表示和处理数字式信息,但是如果在训练当中遇到超出可接受的数值范围,它归纳信息的能力很难保持在一个较好的水平。为了推广更加系统化的数...

10810
来自专栏机器之心

学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展

30190
来自专栏机器之心

入门 | CNN也能用于NLP任务,一文简述文本分类任务的7个模型

本文是我之前写过的一篇基于推特数据进行情感分析的文章(https://ahmedbesbes.com/sentiment-analysis-on-twitter...

27950
来自专栏机器之心

观点 | 从信息论的角度理解与可视化神经网络

选自TowardsDataScience 作者:Mukul Malik 机器之心编译 参与:Pedro、思源 信息论在机器学习中非常重要,但我们通常熟知的是信息...

64950
来自专栏机器之心

入门 | 无需双语语料库的无监督式机器翻译

37570
来自专栏机器之心

教程 | 一个基于TensorFlow的简单故事生成案例:带你了解LSTM

选自Medium 机器之心编译 参与:Ellan Han、吴攀 在深度学习中,循环神经网络(RNN)是一系列善于从序列数据中学习的神经网络。由于对长期依赖问题...

47090
来自专栏ATYUN订阅号

【深度学习】UPN分支介绍—深度信念网络基础原理与架构

图像来源(http://www.cognitivetoday.com/wp-content/uploads/2016/10/DCN-600×392.png) 我...

39260
来自专栏ATYUN订阅号

【学术】一篇关于机器学习中的稀疏矩阵的介绍

AiTechYun 编辑:Yining 在矩阵中,如果数值为0的元素数目远远多于非0元素的数目,并且非0元素分布无规律时,则称该矩阵为稀疏矩阵;与之相反,若非0...

74140
来自专栏Coding迪斯尼

用深度学习实现自然语言处理:word embedding,单词向量化

前几年,腾讯新闻曾发出一片具有爆炸性的文章。并不是文章的内容有什么新奇之处,而是文章的作者与众不同,写文章的不是人,而是网络机器人,或者说是人工智能,是算法通过...

12710

扫码关注云+社区

领取腾讯云代金券