使用 RNN 进行情感分析的初学者指南

雷锋网 AI 研习社按:本文为雷锋字幕组编译的技术博客,原标题 Advances in Semantic Textual Similarity,作者为 Google AI 的软件工程师与技术主管 Yinfei Yang。 翻译 | 陈涛 整理 | 孔令双 原文链接: https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e

图片来源:Unsplash

情感分析可能是最常见的 自然语言处理 的应用之一。我无需去额外强调在客服工具中情感分析的重要性。本文将利用循环神经网络,训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用,这里推荐一篇很棒的论文。

IMDB 数据集:

http://ai.stanford.edu/~amaas/data/sentiment/

论文:

https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf

数据

我们将采用循环神经网络,具体地说应该是 LSTM,去实现基于 Keras 的情感分析。Keras 已经将 IMBD 电影评论数据内置其中,我们可以很方便地调用。

from keras.datasets import imdb

设置词汇量的总数,并加载训练数据和测试数据。

vocabulary_size = 5000

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocabulary_size)
print('Loaded dataset with {} training samples, {} test samples'.format(len(X_train), len(X_test)))

加载完的数据拥有 25000 个训练样本和 25000 个测试样本。

查看一条评论样本及其标签。

print('---review---')

print(X_train[6])

print('---label---')

print(y_train[6])

图 1

请注意,评论是以一串整数的形式进行存储的,它们表示预先分配给每个词语的 ID。标签则用一个整数表示,0 代表消极的评价,1 代表积极的评价。

我们可以利用 imdb.get_word_index() 函数返回的字典,从而将评论映射回原有的文字。

word2id = imdb.get_word_index()

id2word = {i: word for word, i in word2id.items()}

print('---review with words---')

print([id2word.get(i, ' ') for i in X_train[6]])

print('---label---')

print(y_train[6])

图 2

查看最长的评论长度和最短的评论长度。

print('Maximum review length: {}'.format(

len(max((X_train + X_test), key=len))))

最长的评论长度为 2697 个词。

print('Minimum review length: {}'.format(

len(min((X_test + X_test), key=len))))

最短的评论长度为 14 个词。

填充序列

为了让数据能够输入 RNN 模型,所有的输入文档必须有相同的长度。我们需要设置max_words变量来限制评论的最大长度,超过该长度的评论将被截断,不足该长度的评论将被填充空值(0)。在 Keras 中,我们可以使用pad_sequences()函数来达到此目标。现在设置max_words变量的值为 500。

from keras.preprocessing import sequence

max_words = 500
X_train = sequence.pad_sequences(X_train, maxlen=max_words)
X_test = sequence.pad_sequences(X_test, maxlen=max_words)

设计情感分析的 RNN 模型

我们开始在下面的代码单元中创建模型架构。我们已经从 Keras 中导入了一些你可能会用到的网络层,当然你也可以使用任何你喜欢的网络层或者转换器。

记住,我们的输入是一串词语,从学术上讲,是整数形式的词语 ID,其最大长度等于max_words变量值。而我们的输出是二进制形式的情感标签(0 或 1)。

from keras import Sequential
from keras.layers import Embedding, LSTM, Dense, Dropout


embedding_size=32
model=Sequential()
model.add(Embedding(vocabulary_size, embedding_size, input_length=max_words))
model.add(LSTM(100))
model.add(Dense(1, activation='sigmoid'))


print(model.summary())

图 3

总结一下,我们创建了一个简单的 RNN 模型,其拥有一个嵌入层,一个 LSTM 层和一个全连接层。这其中一共有 233301 个待训练的参数。

训练及评估模型

我们需要先对模型进行编译,包括指定损失函数,训练中想采用的优化器和用于测量的评价指标。设置好合适的参数,其中包含至少一个度量指标:准确率。

model.compile(loss='binary_crossentropy', 

 optimizer='adam', 

 metrics=['accuracy'])

编译完成后,就可以开启训练过程了。我们需要指定两个很重要的训练参数:每一批量中的样本数和训练迭代次数,它们和我们的模型架构一起决定了总体的训练时间。

训练可能需要一段时间,所以可以去喝杯咖啡,或者更好地去跑会步吧。

batch_size = 64
num_epochs = 3

X_valid, y_valid = X_train[:batch_size], y_train[:batch_size]
X_train2, y_train2 = X_train[batch_size:], y_train[batch_size:]

model.fit(X_train2, y_train2, validation_data=(X_valid, y_valid), batch_size=batch_size, epochs=num_epochs)

图 4

训练完成后,接下来就可以看下模型在未处理过的测试数据上的表现了。

我们设置了metrics=['accuracy'],scores[1]就代表此次评估的准确率。

scores = model.evaluate(X_test, y_test, verbose=0)

print('Test accuracy:', scores[1])

测试准确率为 0.86964。

总结

创建模型的方法有很多种。我们可以尝试不同的架构,网络层及参数,从而不断提高模型的准确率。在这一过程中,我们可以思考,在避免消耗长时间训练的前提下,我们还能做怎样的提升?我们应该如何避免过拟合?

本文的代码可以从 Github 上下载。非常期待能听到大家的反馈和问题。

Github:

https://github.com/susanli2016/NLP-with-Python/blob/master/Sentiment%20Analysis%20with%20RNN.ipynb

6 月 29 日至 7 月 1 日,深圳见!

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨熹的专栏

Kaggle 神器 xgboost

在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应...

49050
来自专栏AI科技大本营的专栏

XGBoost参数调优完全指南(附Python代码)

作者 | Aarshay Jain 简介 如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。...

1.7K60
来自专栏ATYUN订阅号

Python机器学习的练习二:多元线性回归

在第1部分中,我们用线性回归来预测新的食品交易的利润,它基于城市的人口数量。对于第2部分,我们有了一个新任务——预测房子的售价。这次的不同之处在于我们有多个因变...

52660
来自专栏吴生的专栏

人人都会深度学习之Tensorflow基础快速入门

《Tensorflow基础快速入门》课程的目的是帮助广大的深度学习爱好者,逐层深入,步步精通当下最流行的深度学习框架Tensorflow。该课程包含Tensor...

14930
来自专栏机器之心

学界 | 循环神经网络自动生成程序:谷歌大脑提出「优先级队列训练」

28380
来自专栏深度学习之tensorflow实战篇

RNN与LSTM之间的介绍和公式梳理

最近在整理tensorflow,经常用到RNN与lSTM,故整理如下: -RNN:循环神经网络(Recurrent Neural Networks) -...

1.5K60
来自专栏智能算法

Facebook通过10亿单词构建有效的神经网络语言模型

由于在语言识别、机器翻译和语言建模等领域表现出了优异的性能,为序列预测而设计的神经网络最近再次引起了人们的兴趣,但是这些模型都是计算密集型的,成本非...

39050
来自专栏数据科学与人工智能

机器学习特征工程的7个技巧

1. 数值变量标准化 不同数据的Scale不一样,所以需要标准化。比如身高和体重。 不做标准化,有些算法会死得很惨,比如SVM、神经网络、K-means之类。标...

538100
来自专栏专知

教你使用Keras一步步构建深度神经网络:以情感分析任务为例

【导读】Keras是深度学习领域一个非常流行的库,通过它可以使用简单的代码构建强大的神经网络。本文介绍基于Keras构建神经网络的基本过程,包括加载数据、分析数...

1.1K70
来自专栏开心的学习之路

基于协同过滤的推荐引擎(理论部分)

记得原来和朋友猜测过网易云的推荐是怎么实现的,大概的猜测有两种:一种是看你听过的和收藏过的音乐,再看和你一样听过这些音乐的人他们喜欢听什么音乐,把他喜欢的你没听...

35390

扫码关注云+社区

领取腾讯云代金券