Tensorflow实战系列:手把手教你使用LSTM进行文本分类(附完整代码)

【导读】专知小组计划近期推出Tensorflow实战系列,计划教大家手把手实战各项子任务。本教程旨在手把手教大家使用Tensorflow构建LSTM进行文本分类。教程使用了伪造的文本数据进行情感分类,有正面情感数据和负面情感数据。并且教程代码包含了配置信息,将数据处理为LSTM的输入格式,以及定义和训练相关代码,因此希望在日常项目中使用Tensorflow的朋友可以参考这篇教程。

专知公众号以前连载关于Tensorflow1.4.0的系列教程:

最新TensorFlow1.4.0教程完整版

Tensorflow实战系列:手把手教你使用CNN进行图像分类(附完整代码)

▌简介



本文主要内容包括

如何将文本处理为Tensorflow LSTM的输入

如何定义LSTM

用训练好的LSTM进行文本分类

虽然本文描述的是文本分类任务,但对于一些简单的信号分类依然适用。对于信号分类,有一点区别需要注意。本文代码的文本数据输入是2维数组(样本数 x 句子长度),在进入LSTM之前,会根据第二个维度(每个词的索引)将其替换为词向量,因此LSTM的输入是3维向量(样本数 x 句子长度 x 词向量维度)。对于一般的信号数据,输入RNN的数据为[样本数,时序长度,特征维度]。但一些拿到的信号数据格式可能是[样本数,时序长度],这是因为特征维度为1,按照2维数组简写了。在将这种特征输入RNN之前,要加上一个维度,对其输入格式。

另外,为了简化教程,这里没有做训练和测试数据集分离了。

▌代码



  • 导入相关库
#coding=utf-8
import tensorflow as tf
from tensorflow.contrib import learn
import numpy as np
from tensorflow.python.ops.rnn import static_rnn
from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell
  • 数据

这里用伪造的文本数据进行情感分类,有正面情感数据和负面情感数据。

# 数据
positive_texts = [
    "我 今天 很 高兴",
    "我 很 开心",
    "他 很 高兴",
    "他 很 开心"
]
negative_texts = [
    "我 不 高兴",
    "我 不 开心",
    "他 今天 不 高兴",
    "他 不 开心"
]

label_name_dict = {
    0: "正面情感",
    1: "负面情感"
}
  • 配置信息

词向量维度为50。

▌配置信息



embedding_size = 50
num_classes = 2
将文本和label数值化
# 将文本和label数值化
all_texts = positive_texts + negative_texts
labels = [0] * len(positive_texts) + [1] * len(negative_texts)

max_document_length = 4
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

datas = np.array(list(vocab_processor.fit_transform(all_texts)))
vocab_size = len(vocab_processor.vocabulary_)
  • 定义placeholder(容器),存放输入输出

如果不是文本,而是自己定义的数据(如信号数据),可能需要定义3维的容器。

# 容器,存放输入输出
datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])
labels_placeholder = tf.placeholder(tf.int32, [None])
  • 词向量处理

构建一个随机的词向量矩阵,它会随着训练而获得适合任务的词向量。

# 词向量表
embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]
embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)

▌将数据处理为LSTM的输入格式



# 转换为LSTM的输入格式,要求是数组,数组的每个元素代表某个时间戳一个Batch的数据
rnn_input = tf.unstack(embedded, max_document_length, axis=1)

▌定义LSTM



定义LSTM需要用到两个组件BasicLSTMCell和static_rnn。

# 定义LSTM
lstm_cell = BasicLSTMCell(20, forget_bias=1.0)
rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)

#利用LSTM最后的输出进行预测
logits = tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels = tf.argmax(logits, axis=1)

▌定义损失和优化器



# 定义损失和优化器
losses= tf.nn.softmax_cross_entropy_with_logits(
    labels=tf.one_hot(labels_placeholder, num_classes),
    logits=logits
)

mean_loss = tf.reduce_mean(losses)
optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

▌执行



with tf.Session() as sess:
    # 初始化变量
    sess.run(tf.global_variables_initializer())

▌训练



# 定义要填充的数据
feed_dict = {
    datas_placeholder: datas,
    labels_placeholder: labels
}

print("开始训练")
for step in range(100):
    _, mean_loss_val = sess.run([optimizer, mean_loss], feed_dict=feed_dict)

    if step % 10 == 0:
        print("step = {}\tmean loss = {}".format(step, mean_loss_val))

▌预测



print("训练结束,进行预测")
predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)
for i, text in enumerate(all_texts):
    label = predicted_labels_val[i]
    label_name = label_name_dict[label]
    print("{} => {}".format(text, label_name))

感兴趣的同学可以把上面代码在自己本地尝试运行一下,欢迎留言探讨!

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

通过从零开始实现一个感知机模型,我学到了这些

编者按:本文源自作者 Jean-Nicholas Hould 的个人博客,他是一位来自加拿大蒙特利尔的数据科学家,具有丰富的研发和实践经验。本文节选自作者个人的...

3017
来自专栏小詹同学

深度学习入门笔记系列 ( 二 )

本系列将分为 8 篇 。今天是第二篇 。主要讲讲 TensorFlow 框架的特点和此系列笔记中涉及到的入门概念 。

1113
来自专栏Python疯子

python人工智能:完整的图片识别(非图片验证码),以及模型的使用

这个可以说是一个绝对的福利中的福利。一整套的AI图片识别以及模型的使用。 一直都在说人工智能,图像识别,又有几个人会呢,网上文章成山,前一段时间因工作需要,我...

1201
来自专栏AI科技大本营的专栏

一文教会你三维网格物体识别

本文由「图普科技」(微信公众号 tuputech)编译,原作者 Vladimir Tsyshnatiy,链接:https://medium.com/@vtsys...

1283
来自专栏程序生活

理解LSTM网络(整合)Recurrent Neural Networks长期依赖(Long-Term Dependencies)问题LSTM 网络GRU - Gated Recurrent Unit

1662
来自专栏机器学习算法与Python学习

长文 | LSTM和循环神经网络基础教程(PDF下载)

目录: 前言 前馈网络回顾 循环网络 时间反向传播BPTT 梯度消失与梯度爆炸 长短期记忆单元(LSTM) 多时间尺度和远距离依赖 门控循环单元GRU LSTM...

50110
来自专栏Petrichor的专栏

深度学习: LeNet 网络

该网络在字符识别上取得了高于99%的准确率,因此主要被用于字符识别的卷积神经网络。

1883
来自专栏机器之心

在调用API之前,你需要理解的LSTM工作原理

3244
来自专栏ATYUN订阅号

如何使用Faster R-CNN来计算对象个数

准确地在给定的图像或视频帧中计算对象个数的实例是机器学习中很难解决的问题。尽管许多解决方案已经被开发出来,用来计算人、汽车和其他物体的数量,但是没有一个是完美的...

3424
来自专栏Python疯子

python人工智能:完整的图片识别(非图片验证码),以及模型的使用

这个可以说是一个绝对的福利中的福利。一整套的AI图片识别以及模型的使用。 一直都在说人工智能,图像识别,又有几个人会呢,网上文章成山,前一段时间因工作需要,我一...

1822

扫码关注云+社区