【TensorFlow实战——笔记】第3章:TensorFlow第一步_TensorFlow实现Softmax Regression识别手写数字

3.2 TensorFlow实现Softmax Regression识别手写数字

MNIST(Mixed National Institute of Standards and Technology database)是一个非常简单的机器视觉数据集,它由几万张28像素x28像素的只包含灰度值的手写数字组成。在机器学习领域,对MNIST手写数字的识别就像是编程语言里实现Hello World例子一样,是入门知识。

首先加载MNIST数据,然后查看mnist这个数据集,可以看到训练集有55000个样本,测试集有10000个样本,同时验证集有5000个样本。每一个MNIST数据单元有两部分组成:一张包含手写数字的图片和一个对应的标签label。下面的程序中,mnist.train.images就是训练数据集的图片,mnist.train.labels就是训练数据集的标签。

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.test.images.shape, mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)

每一张图片是28像素x28像素大小的灰度图片,图像中白色的像素可以用0表示,有颜色的地方根据颜色深浅有0到1之间取值。我们把整个28x28=784个点展开成1维向量。下面是一张手写的1来举例。

我们的训练数据的特征是一个55000x784的Tensor,第一个维度是图片的编号,第二个维度是图片中像素点的编号。

同时,训练的数据label是一个55000x10的Tensor,这里是对10个种类进行了one-hot编码,label是一个10维的向量,只有一个值为1,其余为0。比如数字0,对应的label就是[1,0,0,0,0,0,0,0,0,0]。

Softmax回归模型介绍

当我们处理多分类任务时,通常需要使用Softmax Regression模型。即使是卷积神经网络或循环神经网络,如果是分类模型,最后一层也同样是Softmax Regression。它的工作原理很简单,将可以判定为某类的特征相加,然后将这些特征转化成为判定是这一类的概率。比如某个像素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有利的证据支持这张图片属于这个类,那么权值是正数。下图蓝色代表正的权重,红色代表负的权重。

可以用这些特征写成如下公式:

  1. 计算第i类的特征:i代表第i类,j代表一张图片的第j个像素。bi是额外的偏置量(bias)
  2. 对所有特征计算softmax:就是都计算一个exp函数,然后再进行标准化(让所有类别输出的概率值和为1)
  3. 判定为第i类的概率

如果将整个计算过程可视化,用下图表示:

如果将上图的连线变成公式:

最后将元素相乘变成矩阵乘法:

上述矩阵运算表达写成公式的话,可以用下面这样简洁的一行表达。

用TensorFlow实现Softmax回归模型

import tensorflow as tf
# 不同的session之间的数据和运算相互独立
sess = tf.InteractiveSession()
# [None, 784]代表tensor的shape,None代表不限条数输入,784代表每条输入是一个784维的向量
x = tf.placeholder(tf.float32, [None, 784])
# 创建weights和biases
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 实现 y = softmax(Wx+b)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 定义损失函数cross-entropy
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 随机梯度下降SGD,并设置学习速率0.5,优化目标设定为cross-entropy,得到进行训练的操作train_step
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
# 使用全局参数初始化器,并执行run
tf.global_variables_initializer().run()
# 开始迭代执行训练操作train_step
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_: batch_ys})

# 对模型准确率进行验证
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 统计全部样本预测的accuracy
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 打印计算模型在测试集上的准确率
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels}))

以上流程做的事情分为4部分:

  1. 定义算法公式,也就是神经网络forward时的计算
  2. 定义loss,选定优化器,并指定优化器优化loss
  3. 迭代地对数据进行训练
  4. 在测试集或验证集上对准确率进行评测

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏YoungGy

记忆网络RNN、LSTM与GRU

RNN 结构 训练 应用 RNN Variants LSTM 结构 梯度消失及梯度爆炸 GRU 结构 ? 一般的神经网络输入和输出的维度大小都是固定的,针对序列...

34210
来自专栏人人都是极客

Peter教你谈情说AI | 07决策树(上)—既能回归又能分类的模型

前面我们讲了线性回归模型和朴素贝叶斯分类模型。前者只能做回归,后者只能做分类。但本文中要讲的决策树模型,却既可以用于回归,又可以用于分类。

1203
来自专栏机器学习与自然语言处理

Stanford机器学习笔记-8. 支持向量机(SVMs)概述

8. Support Vector Machines(SVMs) Content 8. Support Vector Machines(SVMs)   ...

33912
来自专栏机器学习算法工程师

【DLND 机器学习算法全栈工程师】干货!小白也能看懂的神经网络入门

导语: 干货来了,Udacity Machine Learning 课程导师 Walker 亲自出马,教你简单形象有趣地掌握神经网络! 神经网络是什么?神经网络...

3625
来自专栏人工智能LeadAI

深度学习中的损失函数总结以及Center Loss函数笔记

图片分类里的center loss 目标函数,损失函数,代价函数 损失函数度量的是预测值与真实值之间的差异.损失函数通常写做L(y_,y).y_代表了预测值,y...

6025
来自专栏AIUAI

机器学习 - 交叉熵Cross Entropy

1.6K8
来自专栏量化投资与机器学习

深度学习理论系列之——模型方法

深度学习的模型方法及应用 上一次我发了关于深度学习基本理论与方法的文章,大家反响还不错,今天继续 上次的知识,对深度学习再做一些基础性的理论介绍,希望大家多多指...

2476
来自专栏专知

【干货】走进神经网络:直观地了解神经网络工作机制

【导读】1月4日,Mateusz Dziubek发布了一篇基础的介绍神经网络的博文,作者用一种直观的方法来解释神经网络以及其学习过程,作者首先探讨了导致神经网络...

37513
来自专栏PaddlePaddle

卷积神经网络的基本结构

深度学习基础理论-CNN篇 卷积神经网络的基本结构 ? 总体来说,卷积神经网络是一种层次模型(hierarchical model),其输入是原始数据(ra...

41213
来自专栏null的专栏

深度学习算法原理——栈式自编码神经网络

注:最近打算将UFLDL教程重新看一遍,其实里面有很多关于神经网络以及深度学习的知识点很有用,但是只是学习深度学习的话有一些内容就有点多余,所以想整理一个笔记,...

3675

扫码关注云+社区