【Python | TensorBoard】用 PCA 可视化 MNIST 手写数字识别数据集

Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables called principal components.

主成分分析(PCA)是一种常用的数据降维方法,可以将高维数据在二维或者三维可视化呈现。具体原理我在这里就不再详述,网上有很多教程都不错,可以参考 这里 或者 PCA 的维基百科页面

原理

我在这里简单的叙述下。假设我们的数据集是 m×nm×n 的,即 mm 个样本,每个样本 nn 个属性(特征),那么我们想要将这些数据呈现在图上,以便让我们对数据有个直观的了解或者其他用途。换句话说,需要 n<=3n<=3 ,一般来说为 2(平面) 或者 3(立体),需要一种变换来让新产生的属性可以代替原来的属性,可以通过下式来变换,

Y=XW

Y=XW 其中 YY 是变换后的新属性,XX 是原始属性,WW 是变换矩阵,而这个变换矩阵的列是 XTXX^TX 的特征向量。YY 中的新变量依据该变量对原始变量的解释能力(解释的总方差)从高到低排序,那么第一个就称为第一主成分,第二个就称为第二主成分,以此类推。假如我们需要降到 3 维以便于我们可视化,那就取前三个主成分作为原始属性的代表。即假如原来每个样本有 64 个属性,那么现在每个样本就有 3 个属性,就可以绘图了。

数据集

本文使用的数据集不是完整的 MNIST 数据集,而是 scikit-learn 自带的手写数字识别数据集。

该数据集的信息如下:

  • 类别数:10
  • 每类样本数:约为180
  • 总样本数:1797
  • 特征维数:64(8*8)

代码

from sklearn import datasets
from sklearn import decomposition
import matplotlib.pyplot as plt
import numpy as np
import seaborn
from mpl_toolkits.mplot3d import Axes3D
%matplotlib notebook

mnist = datasets.load_digits()
X = mnist.data
y = mnist.target
pca = decomposition.PCA(n_components=3)
new_X = pca.fit_transform(X)

fig = plt.figure()
ax = fig.gca(projection='3d')
ax.scatter(new_X[:, 0], new_X[:, 1], new_X[:, 2], c=y, cmap=plt.cm.spectral)
plt.show()

结果

结果如上图,实际上这个图是可以来回拖动和缩放的,所以建议在本地实际运行程序。图中每个颜色代表一个数字(0-9),可以大致看出每类数字分布在相近的区域。

此外,可以使用 pca.explained_variance_ratio_ 查看各个主成分解释的总方差:[ 0.14890594, 0.13618771, 0.11794594] ,这三个主成分解释了大约 40% 的原始信息,这个比例还是很低的,不过我们这里的目的是可视化而不是抽取信息。使用 pca.get_covariance() 得到上文提到的变换矩阵。

TensorBoard

12月7号 Google 在其开发者博客中宣布了一个开源的高维数据可视化工具:Open sourcing the Embedding Projector: a tool for visualizing high dimensional data,其中一个是在和 TensorFlow 一起使用的 TensorBoard ,另一个是独立版本,用户可以直接在网页上访问,地址在 这里(可能需要梯子)。如下图:

目前有 4 个数据集可以选择:Word2Vec All(71291×200),MNIST(10000×784),Word2Vec 10K(10000×200),Iris(150×4),可以选择是否用颜色标注、降维方法(T-SNE,PCA,自定义)、夜间模式、3D标签模式等。以MNIST为例,可以看到这三个主成分对原始信息的解释比例只有 25.9%

END

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏https://www.cnblogs.com/L

【Keras篇】---利用keras改写VGG16经典模型在手写数字识别体中的应用

VGG16是由16层神经网络构成的经典模型,包括多层卷积,多层全连接层,一般我们改写的时候卷积层基本不动,全连接层从后面几层依次向前改写,因为先改参数较小的。

1082
来自专栏CreateAMind

lecun-20161209-nips-能量模型GAN

第二部分视频预测个人觉得lecun论文不如这篇论文:运动信息向量的神经网络学习 code、ppt、视频ok

813
来自专栏ATYUN订阅号

【技术】使用深度学习自动为图像添加字幕(PyTorch)

深度学习现在发展十分迅猛,每天都会出现多种应用程序。而想要了解深度学习的最好方法就是亲自动手。尽可能尝试自己做项目。这将帮助你更深入地了解它们,并帮助你成为更好...

925
来自专栏利炳根的专栏

学习笔记CB010:递归神经网络、LSTM、自动抓取字幕

递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recursive neural network...

5654
来自专栏大数据风控

评分卡模型开发-数据集准备

在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分...

2119
来自专栏Python爬虫与算法进阶

Keras 训练简单的深度神经网络

机器学习训练营最近的作业都是使用Keras,所以最近去翻了下文档,这里记录一下学习栗子。(官网有中文文档)

542
来自专栏漫漫深度学习路

神经网络激活函数总结

激活函数总结 sigmoid tanh ReLU Leaky ReLU Maxout ELU sigmoid 数学表示: [图片] 不建议使用,容易饱和 ...

2176
来自专栏应兆康的专栏

机器学习需要的数学基础

1831
来自专栏深度学习那些事儿

利用pytorch实现Fooling Images(添加特定噪声到原始图像,使神经网络误识别)

fooling images,顾名思义,就是指一张图片,虽然上面通过肉眼看到的是松鼠(举个例子),但是因为这张图片加了一些特定的噪声,所以神经网络会将它误识别为...

3035
来自专栏小鹏的专栏

可视化Google Inception V3模型的网络结构

深度学习涉及到图像就少不了CNN模型,前面我做过几个关于图像的练习,使用的CNN网络也不够”Deeper”。我在做对象检测练习( Object Detect...

5418

扫码关注云+社区