用R语言实现深度学习情感分析

18岁虽然没有成为TF-boys,但是2018新的一年可以成为TF(Tensorflow-boys)啊~~

word embeddings介绍

之前建立的情感分类的模型都是Bag of words方法,仅仅统计词出现的次数这种方法破坏了句子的结构。这样的结构,我们也可以使用如下的向量(one hot 编码)表示句子「The cat sat on the mat」:

然而,在实际应用中,我们希望学习模型能够在词汇量很大(10,000 字以上)的情况下进行学习。从这里能看到使用「独热码」表示单词的效率问题——对这些词汇建模的任何神经网络的输入层至少都有 17000,000 个节点。因此,我们需要使用更高效的方法表示文本数据,而这种方法不仅可以保存单词的上下文的信息,而且可以在更低的维度上表示。这是word embeddings 方法发明的初衷。

word embeddings就是将一个个词映射到低维连续向量(如下图所示) :

这种向量的思想就是将相似的词映射到相似方向,所以,语义相似性就可以被编码了。相似性一般可以通过余弦相似度来衡量

安装TensorFlow和Keras

:安装TensorFlow和Keras前需要安装Anaconda,Anaconda尽量装最新版本的,Anaconda在Windows安装有一些坑,我是把Java环境删掉还有使用默认路径才成功安装了Anaconda。

检测是否安装成功

OK,如果没有问题的话,你的结果也将是如上图所示,则表明你已安装成功。

LSTM原理

长短期记忆网络——通常简称“LSTMs”,是一种特殊的RNN,能够学习长期依赖关系,它可以桥接超过1000步的时间间隔的信息。LSTM由Hochreiter和Schmidhuber (1997)提出,在后期工作中又由许多人进行了调整和普及(除了原始作者之外,许多人为现代LSTM做出了贡献)。LSTM在各种各样的问题上工作非常好,现在被广泛使用。

LSTMs被设计出来是为了避免长期的依赖性问题,记忆长时间的信息实际上是他们的固有行为,而不是去学习,这点和传统的具有强大的表征学习能力的深度神经网络不同。

所有的RNNs(包括LSTM)都具有一连串重复神经网络模块的形式。在标准的RNNs中,这种重复模块有一种非常简单的结构,比如单个tanh层:

什么是tanh?中文叫双曲正切函数,属于神经网络隐藏层的activation function(激活函数)中的一种。别以为是什么好厉害的东西,其实就是一个简单的以原点对称的值域为[-1,1]的非线性函数。而神经网络中比较常见的另外一个激活函数sigmoid 函数,则不过是把tanh函数往上平移到[0,1]的区间,这个函数在LSTM也会用到。

LSTM也有像RNN这样的链式结构,只不过重复模块有着与传统的RNN不同的结构,比传统的RNN复杂不少:不只是有一个神经网络层,而是有四个神经网络层,以一个非常特殊的方式进行交互。

不用担心看不懂细节部分是什么意思,稍后我们将逐步浏览LSTM图。现在,让我们试着去熟悉我们将要使用的符号。

在上面所示的图中,我们对以上符号进行如下定义:

黄块表示学习神经网络层(tanh层或sigmoid层);

粉色圆圈表示按位操作,如向量加法或者向量点乘;

每条线代表着一整个向量(vector),用来表示从一个节点的输出到另一个节点的输入;

合并的线代表连接或者说是拼接;

分叉表示其内容被复制,复制内容将转到不同的位置

LSTMs背后的核心理念

LSTMs的关键是细胞状态(cell state),是一条水平线,贯穿图的顶部。而Cell 的状态就像是传送带,它的状态会沿着整条链条传送,而只有少数地方有一些线性交互。

因此“门”就是LSTM控制信息通过的方式,这里的” σ “指的是 sigmoid 函数。Sigmoid 层的输出值在 0 到 1 间,表示每个部分所通过的信息。“0” 意味着“让任何事情无法通过”或者说成”忘记所有的事“;“ 1 ”意味着”让一切都通过!“ 或者说”我要记住这一切! “

一个 LSTM 有三个这样的门,分别是“输入门”、遗忘门“和 ”输出门“,在单一模块里面控制 cell 的状态。

遗忘门

首先,LSTM 的第一步就是让信息通过”遗忘门“,决定需要从 cell 中忘掉哪些信息。它的输入是 ht-1 和 xt。另外,我们之所以使用sigmoid激活函数是因为我们所需要的数字介于0至1之间。Ct−1 就是每个在 cell 中所有在 0 和 1 之间的数值,就像我们刚刚所说的,0 代表全抛弃,1 代表全保留。

看到这里应该有朋友会问什么是ht,ht是LSTM层在t时刻的输出,但不是最终的输出,ht仅仅是LSTM层输出的向量,要想得到最终的结果还要连接一个softmax层(sigmoid函数的输出是”0“”1“,但是使用softmax函数能在三个类别以上的时候输出相应的概率以解决多分类问题),而x就是我们的输入,是一个又一个的词语。

输入门

下一步,我们需要决定什么样的信息应该被存储起来。这个过程主要分两步。首先是 sigmoid 层(这就是“输入门”)决定我们需要更新哪些值;随后,tanh 层生成了一个新的“候选添加记忆” C`t,最后,我们将这两个值结合起来。结合后能够加入cell的状态(长期记忆)中。

接下来我们可以更新 cell (长期记忆)的状态了。首先第一步将旧状态与通过遗忘门得到的 ft 相乘,忘记此前我们想要忘记的内容,然后加上通过输入门和tanh层得到的候选记忆 C`t。在忘记我们认为不再需要的记忆并保存输入信息的有用部分后,我们就会得到更新后的长期记忆。

输出门

接下来我们来更新一下ht,即输出的内容,这部分由输出门来完成。首先,我们把 cell 状态通过 tanh 函数,将输出值保持在-1 到 1 间。随后,前一时刻的输出ht-1和xt会通过一个 sigmoid 层,决定 cell 状态输出哪一部分。之后,我们再乘以 sigmoid 门的输出值,就可以得到结果了。

R上用LSTM做情感分类

IMDB数据集包含有2.5万条电影评论,被标记为积极和消极。影评会经过预处理,把每一条影评编码为一个词索引(数字)sequence(前面的一种word embeddings方法) 。

当然,可以尝试使用不同的优化器和不同的优化器配置:

上面代码的训练过程如下图所示(我电脑大概用了20min):

接下来,我们再对比其他模型,不妨以随机森林为例:

很显然,集成算法随机森林远远没有LSTM出来的效果好。今天关于基于R语言的深度学习就介绍到这里。最后,很高兴和大家一起学习R上的深度学习。

特别感谢作者:黄升

普兰金融数据分析师,从事数据分析相关工作,擅长R语言,热爱统计和挖掘建模。

本文来自企鹅号 - CPDA数据分析天地媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

教程 | 如何使用Elixir语言实现深度学习?剖析多层神经网络的构建和训练

选自automating the future 机器之心编译 参与:Jane W、吴攀 在这篇文章中,作者们使用 Elixir 编程语言创建一个标准的 3x3...

27613
来自专栏机器之心

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者:Matthew Rubashkin、Matt Mollison 机器之心编译 参与:李泽南、吴攀 来自 Silicon Valley Dat...

2789

TensorFlow中生成手写笔迹的Demo

这项操作现在在github上已经可以使用了。

3087
来自专栏AI科技评论

ACL2016最佳论文:通过整合基于路径的方法和分布式的方法,改善词对检测

摘要 在自然语言处理(NLP)中,理清词对关系是一项的关键任务 ,在一份使用两种互补方法的文献中也强调这一点。分布式方法:其监督式的变体是目前最好的任务执行器...

3205
来自专栏深度学习自然语言处理

2018 NLPCC Chinese Grammatical Error Correction 论文小结

这一段时间,笔者一直在研究语音识别后的文本纠错,而就在八月26-30日,CCF的自然语言处理和中文计算会议召开了,笔者也从师兄那里拿到了新鲜出炉的会议论文集,其...

583
来自专栏Python中文社区

看到那个Edward 了吗?对!其实它是个Python库

專 欄 ❈那只猫,Python中文社区专栏作者,福州大学大二水利专业学生,纯种非CS科班的数据分析师,熟练掌握Python数据分析大礼包,因长时间玩弄Kera...

1889
来自专栏人工智能

如何重构你的时间序列预测问题

你不必按照原样对你的时间序列预测问题进行建模。

4518
来自专栏进击的程序猿

停下来思考下神经网络

在神经网络中backpropagation是非常重要的一个算法,backpropagation能帮助我们测量出每个weight对于最终输出错误的影响。

552
来自专栏PPV课数据科学社区

R语言与数据分析之二:绘图

? 图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大...

38815
来自专栏null的专栏

社团划分——Fast Unfolding算法

社团划分——Fast Unfolding算法 一、社区划分问题 1、社区以及社区划分 在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络...

4573

扫码关注云+社区