用 LSTM 来做一个分类小问题

用一个简单的例子来看看 LSTM 在 tensorflow 里是如何做分类问题的。

这个例子特别简单,就是一个长度为 20 的二进制串,数出其中 1 的个数,简单到用一个 for 就能搞定的事情,来看看 LSTM 是如何做到的。

大家可以先在这里停一下,看看你有什么想法呢。


import numpy as np
from random import shuffle

input 一共有 2^20 种组合,就生成这么多的数据

train_input = ['{0:020b}'.format(i) for i in range(2**20)]
shuffle(train_input)
train_input = [map(int,i) for i in train_input]

train_input: [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0] [0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1] [0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1]

把每一个 input 转化成 tensor 的形式dimensions = [batch_size, sequence_length, input_dimension] 中, sequence_length = 20 and input_dimension = 1, 每个 input 变成了 A list of 20 lists

ti  = []
for i in train_input:
    temp_list = []    
    for j in i:
            temp_list.append([j])            
    ti.append( np.array(temp_list) )
    
train_input = ti

train_input : [[1][0][0][0][1][1][1][0][1][0][0][0][0][1][0][0][0][1][0][0]]

生成实际的 output 数据

train_output = []
 
for i in train_input:
    count = 0
    for j in i:
        if j[0] == 1:
            count+=1
    temp_list = ([0]*21)
    temp_list[count]=1
    train_output.append(temp_list)

train_output:在第几个位置上有一个 1 ,说明 input 里面就有几个 1,长度为 21 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

取 0.9% 为训练数据,另外的为测试数据

NUM_EXAMPLES = 10000
test_input = train_input[NUM_EXAMPLES:]
test_output = train_output[NUM_EXAMPLES:] #everything beyond 10,000
 
train_input = train_input[:NUM_EXAMPLES]
train_output = train_output[:NUM_EXAMPLES] #till 10,000

定义两个变量 其中 data 的维度 = [Batch Size, Sequence Length, Input Dimension]

data = tf.placeholder(tf.float32, [None, 20,1])
target = tf.placeholder(tf.float32, [None, 21])

定义 hidden dimension = 24 太多会 overfitting,太少效果不好,可以调节看变化。 模型用 LSTM,这里用的 tf 1.0.0 的 version

num_hidden = 24
# cell = tf.nn.rnn_cell.LSTMCell(num_hidden,state_is_tuple=True)
cell = tf.contrib.rnn.LSTMCell(num_hidden,state_is_tuple=True)

用 val 来存这个 output

val, _ = tf.nn.dynamic_rnn(cell, data, dtype=tf.float32)

变换一下维度,并取 val 的最后一个为 last

val = tf.transpose(val, [1, 0, 2])
last = tf.gather(val, int(val.get_shape()[0]) - 1)

定义 weight 和 bias

weight = tf.Variable(tf.truncated_normal( [num_hidden, int(target.get_shape()[1])] ))
bias = tf.Variable(tf.constant(0.1, shape=[target.get_shape()[1]]))

再作用上 softmax 得到 prediction

prediction = tf.nn.softmax(tf.matmul(last, weight) + bias)

用 cross_entropy 来做 cost function,目标是使它最小化,选用 AdamOptimizer

cross_entropy = -tf.reduce_sum(target * tf.log(tf.clip_by_value(prediction,1e-10,1.0)))

optimizer = tf.train.AdamOptimizer()
minimize = optimizer.minimize(cross_entropy)

定义一下 error 的形式,就是预测和实际有多少个位置不一样

mistakes = tf.not_equal(tf.argmax(target, 1), tf.argmax(prediction, 1))
error = tf.reduce_mean(tf.cast(mistakes, tf.float32))

前面定义完模型和变量,这里开始启动 session

init_op = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init_op)

迭代 600 次就可以达到 0.3% 的 error 了

batch_size = 1000
no_of_batches = int(len(train_input)) / batch_size
epoch = 600
for i in range(epoch):
    ptr = 0
    for j in range(no_of_batches):
        inp, out = train_input[ptr:ptr+batch_size], train_output[ptr:ptr+batch_size]
        ptr += batch_size
        sess.run(minimize,{data: inp, target: out})
    print "Epoch ",str(i)
    
incorrect = sess.run(error,{data: test_input, target: test_output})

print sess.run(prediction, {data: [[[1],[0],[0],[1],[1],[0],[1],[1],[1],[0],[1],[0],[0],[1],[1],[0],[1],[1],[1],[0]]]})
print('Epoch {:2d} error {:3.1f}%'.format(i + 1, 100 * incorrect))

sess.close()

最后的结果:

[[  2.80220238e-08   3.24575727e-10   5.68697936e-11   3.57573054e-10
    9.62089857e-08   1.30921896e-08   2.14473985e-08   5.21751364e-10
    2.29034747e-08   8.47907577e-10   3.60394756e-06   2.30961153e-03
    9.82593179e-01   1.50928665e-02   4.23395448e-07   1.06428047e-07
    6.70640388e-09   1.78888765e-10   3.22445395e-08   3.09186134e-08
    3.70296416e-09]]
    
Epoch 600 error 0.3%

学习资料: http://monik.in/a-noobs-guide-to-implementing-rnn-lstm-using-tensorflow/

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

洛谷P2503 [HAOI2006]均分数据(模拟退火)

1950
来自专栏用户2442861的专栏

openCV-图像算数与逻辑运算

3151
来自专栏bboysoul

1167: C语言实验题――分数序列

描述:有一个分数序列:2/1, 3/2, 5/3, 8/5, 13/8, …编写程序求出这个序列的前n项之和。 输入:输入只有一个正整数n,1≤n≤10。 ...

983
来自专栏数说工作室

函数玩一玩 | 【SAS Says·扩展篇】IML:2.函数

【SAS Says·扩展篇】IML 分6集,回复【SASIML】查看全部: 入门 | SAS里的平行世界 函数 | 函数玩一玩 编程 | IML的条件与循环 模...

3869
来自专栏漫漫深度学习路

tensorflow学习笔记(三十九):双向rnn

tensorflow 双向 rnn 如何在tensorflow中实现双向rnn 单层双向rnn ? 单层双向rnn (cs224d) tensorfl...

8485
来自专栏数据结构与算法

02:奇数单增序列 个人博客doubleq.win

 个人博客doubleq.win 02:奇数单增序列 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 给定一个长度为N(不...

3458
来自专栏小鹏的专栏

Tensorflow使用的预训练的resnet_v2_50,resnet_v2_101,resnet_v2_152等模型预测,训练

tensorflow 实现:Inception,ResNet , VGG , MobileNet, Inception-ResNet; 地址: https:/...

1.1K8
来自专栏WeaponZhi

使用Octave来学习Machine Learning(二)

前言 上一篇我们介绍了 Octave 的一些基本情况,大家对 Octave 应该已经有了一个基本的了解,我相信看这篇文章的朋友已经在自己的电脑中安装好 Ocat...

3636
来自专栏人工智能

TensorFlow简介

TensorFlow是由Google开发的用于解决复杂数学问题的库。本篇介绍将简述TensorFlow示例,如何定义、使用张量执行数学运算,以及查看其他机器学习...

3.5K12
来自专栏WD学习记录

n-gram

N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型...

1233

扫码关注云+社区

领取腾讯云代金券