Tensorflow新手通过PlayGround可视化初识神经网络

企鹅号小编

发布于 2018-01-17 11:09:54

6710

发布于 2018-01-17 11:09:54

文章被收录于专栏：人工智能

北京上海巡回站 | NVIDIA DLI深度学习培训

2018年1月26/1月12日

NVIDIA 深度学习学院带你快速进入火热的DL领域

正文共1791个字，12张图，预计阅读时间6分钟。

是不是觉得神经网络不够形象，概念不够清晰，如果你是新手，来玩玩PlayGround就知道，大神请绕道。

PlayGround是一个在线演示、实验的神经网络平台，是一个入门神经网络非常直观的网站。这个图形化平台非常强大，将神经网络的训练过程直接可视化。同时也能让我们对Tensorflow有一个感性的认识。

PlayGround页面如图所示，主要分为DATA（数据），FEATURES（特征），HIDDEN LAYERS（隐含层），OUTPUT（输出层）。

PlayGround主页面

DATA一栏里提供了4种不同形态的数据，分别是圆形、异或、高斯和螺旋。平面内的数据分为蓝色和黄色两类。

四种数据形态

我们的目标就是通过神经网络将这两种数据分类，可以看出螺旋形态的数据分类是难度最高的。除此之外，PlayGround还提供了非常灵活的数据配置，可以调节噪声、训练数据和测试数据的比例和Batch size的大小。

噪声的影响

训练数据和测试数据的比例

Batch size大小

Batch size就是每批进入神经网络数据点的个数。

FEATURES一栏包含了可供选择的7种特征：X1、X2、X1X1、X2X2、X1X2、sin(X1)、sin(X2)。

7种特征

X1可以看成以横坐标分布的数据特征，X2是以纵坐标分布的数据特征，X1X1和X2X2是非负的抛物线分布，X1X2是双曲抛物面分布，sin(X1)和sin(X2)正弦分布。我们的目标就是通过这些特征的分布组合将两类数据（蓝色和黄色）区分开，这就是训练的目的。

HIDDEN LAYERS一栏可设置多少隐含层。一般来讲，隐含层越多，衍生出的特征类型也就越丰富，对于分类的效果也会越好，但不是越多越好，层数多了训练的速度会变慢，同时收敛的效果不一定会更好，后面也会提到。

隐含层结构

因为在这里是一个分类的问题，隐含层设置为两层，刚好对应输出的类型。层与层之间的连线粗细表示权重的绝对值大小，我们可以把鼠标放在线上查看权值，也可以点击修改。

OUTPUT一栏将输出的训练过程直接可视化，通过test loss和training loss来评估模型的好坏。

输出模型

除了主要的四个部分外，在界面上还有一列控制神经网络的参数，从左到右分别是，训练的开关、迭代次数、学习速率、激活函数、正则化、正则化率和问题的类型。

神经网络控制参数

我们接下来尝试了几个例子，考虑到图片太多，直接讲一些结论，读者可以自行去摸索。

首先考虑的是激活函数的影响，比较了一下Sigmoid函数和ReLU函数：

1、选择Sigmoid函数作为激活函数，明显能感觉到训练的时间很长，ReLU函数能大大加快收敛速度，这也是现在大多数神经网络都采用的激活函数。

2、当把隐含层数加深后，会发现Sigmoid函数作为激活函数，训练过程loss降不下来，这是因为Sigmoid函数反向传播时出现梯度消失的问题（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失）。

接着我们选用ReLU函数作为激活函数，比较一下隐含层数量对结果的影响：

1、我们选用了3层隐含层，每层特征个数为8,8,2的模型和6层隐含层，每层特征个数为8,8,8,8,8,2的模型。3层隐含层模型大概200步就达到了test loss为0.005，training loss为0.005，而6层隐含层模型跑了700步，test loss为0.015，training loss为0.005，有点过拟合。

8,8,2模型

8,8,8,8,8,2模型

隐含层的数量不是越多越好，层数和特征的个数太多，会造成优化的难度和出现过拟合的现象。

如果你感兴趣，很多测试你都可以尝试一下。通过神经网络，我们的系统自己就能学习到哪些特征是有效的，哪些特征是无效的，通过自己学习这些特征，然后判断问题。值得一提的是，最近很热的AlphaGo zero通过自我学习的过程，从无到有，打败了参照人类知识学习的AlphaGo，可见机器自我学习，自我进化的速度太快了，远远超越了人类历史经验的总结。人生苦短，快用Tensorflow！

本文来自企鹅号 - 人工智能LeadAI媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能