TensorFlow 深度学习笔记 从线性分类器到深度神经网络

Limit of Linear Model

  • 实际要调整的参数很多

如果有N个Class,K个Label,需要调整的参数就有(N+1)K个

  • Linear Model不能应对非线性的问题
  • Linear Model的好处
  • GPU就是设计用于大矩阵相乘的,因此它们用来计算Linear Model非常efficient
  • Stable:input的微小改变不会很大地影响output
  • 求导方便:线性求导是常数
  • 我们希望参数函数是线性的,但整个model是非线性的
  • 所以需要对各个线性模型做非线性组合
  • 最简单的非线性组合:分段线性函数(RELU)

Neural network

  • 用一个RELU作为中介,一个Linear Model的输出作为其输入,其输出作为另一个Linear Model的输入,使其能够解决非线性问题
  • 神经网络并不一定要完全像神经元那样工作
  • Chain Rule:复合函数求导规律
  • Lots of data reuse and easy to implement(a simple data pipeline)
  • Back propagation
  • 计算train_loss时,数据正向流入,计算梯度时,逆向计算
  • 计算梯度需要的内存和计算时间是计算train_loss的两倍

Deep Neural Network

Current two layer neural network:

优化:

  • 优化RELU(隐藏层), wider
  • 增加linear层,layer deeper
  • Performance: few parameters by deeper
  • 随层级变高,获得的信息越综合,越符合目标

About t-model

  • t-model只有在有大量数据时有效
  • 今天我们才有高效的大数据训练方法:Better Regularization
  • 难以决定适应问题的神经网络的规模,因此通常选择更大的规模,并防止过拟合

Avoid Overfit

Early Termination

  • 当训练结果与验证集符合度下降时,就停止训练

Regulation

  • 给神经网络里加一些常量,做一些限制,减少自由的参数
  • L2 regularization

在计算train loss时,增加一个l2 norm作为新的损失,这里需要乘一个β(Hyper parameter),调整这个新的项的值

Hyper parameter:拍脑袋参数→_→

  • l2模的导数容易计算,即W本身 DropOut 最近才出现,效果极其好
  • 从一个layer到另一个layer的value被称为activation
  • 将一个layer到另一个layer的value的中,随机地取一半的数据变为0,这其实是将一半的数据直接丢掉
  • 由于数据缺失,所以就强迫了神经网络学习redundant的知识,以作为损失部分的补充
  • 由于神经网络中总有其他部分作为损失部分的补充,所以最后的结果还是OK的
  • More robust and prevent overfit
  • 如果这种方法不能生效,那可能就要使用更大的神经网络了
  • 评估神经网络时,就不需要DropOut,因为需要确切的结果
  • 可以将所有Activation做平均,作为评估的依据
  • 因为我们在训练时去掉了一半的随机数据,如果要让得到Activation正确量级的平均值,就需要将没去掉的数据翻倍

觉得得我的文章对您有帮助的话,就给个star吧~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏社区的朋友们

机器学习概念总结笔记(二)

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根...

88400
来自专栏进击的程序猿

如何生成一幅艺术作品

假设我们有一幅大师的画作了,我们怎么能够提取出“大师作品”中的纹理和颜色这些细节让我们的计算机知道,而不是只看到画的整体造型呢?

13530
来自专栏专知

【干货】Batch Normalization: 如何更快地训练深度神经网络

【导读】本文是谷歌机器学习工程师 Chris Rawles 撰写的一篇技术博文,探讨了如何在 TensorFlow 和 tf.keras 上利用 Batch N...

4.8K80
来自专栏机器之心

入门 | 关于神经网络:你需要知道这些

18920
来自专栏机器之心

教程 | 仅需六步,从零实现机器学习算法!

从头开始写机器学习算法能够获得很多经验。当你最终完成时,你会惊喜万分,而且你明白这背后究竟发生了什么。

12020
来自专栏机器学习算法工程师

不懂word2vec,还敢说自己是做NLP?

如今,深度学习炙手可热,deep learning在图像处理领域已经取得了长足的进展。随着Google发布word2vec,深度学习在自然语言处理领域也掀起了一...

13950
来自专栏数据处理

推导svm约束条件为等式求极值下面看看不等式约束,求极值,可行域变大了推导svmSVM—线性不可分—核函数

20940
来自专栏算法channel

高斯混合模型:不掉包实现多维数据聚类分析

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

41160
来自专栏大数据挖掘DT机器学习

数据处理的统计学习(scikit-learn教程)

Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib),集成经典机器学习算法的Python模块。 一、统...

60950
来自专栏WOLFRAM

随机三维图像中可以找到多少动物和阿尔普物形?

34360

扫码关注云+社区

领取腾讯云代金券