跬步神经网络:基本模型解析

作者:严峻

导语:最近开始看NN,很多疑问。微积分什么的早丢了,边看边查,记录备忘。 本篇主要是针对最基本的网络模型,解释反向传播(backpropagation)原理。

整个神经网络可以理解成变量是所有 w、b的损失函数 L,L(w1,b1,w2,b2,w3,b3.......)。

为求L的极小值,使用梯度下降的方法,

对每个变量求偏导,算出 Δw、Δb,

更新 w = w - lr Δw,b = b - lr Δb ,其中lr 是步长(learning rate)。

激活函数、损失函数、网络结构、训练方法、连接方式、填充方式,都有很多选择,每个选择都会影响最终结果,要达到最优需要逐步积累经验。

先从最简单的开始。

需要复习的知识点,导数和偏导数、链式法则、梯度下降 。

导数:二维几何场景下,可以理解为曲线上某点的斜率,在求函数极小值的时候,可以根据斜率确定下一步 X 该增大还是减小。

偏导数:存在多个变量的情况下,x的偏导就是假设其他变量都是常数,然后对x求导。

链式法则:借一张图

梯度下降:求导或偏导得到斜率确定变化值,更新变量得到新的值,重复上面的操作,直到斜率为0或小于设置的某个阈值(比如0.000001)

x = x - lrΔx,y = y - lrΔy,其中lr 是步长

NN网络举个栗子:

神经元:

激活函数、损失函数:

网络结构:

根据上面的网络结构以及定义,可以得到:

为了更新 W24、W25,需要求 E关于W24、W25的偏导:

计算W12偏导比较麻烦一些

根据上面的结果,总结下面的公式:

不同的激活函数和损失函数,求导的方程不一样。 上面的例子使用 logistic函数和最小方差。 下一步打算根据上面的公式,用c++写个小程序动手跑一遍,加深理解,尝试解决简单问题,然后熟悉成熟框架。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏机器之心

CVPR 2018 | 美国东北大学提出MoNet,使用紧密池化缓解特征高维问题

3488
来自专栏大数据文摘

斯坦福深度学习课程第七弹:RNN,GRU与LSTM

1373
来自专栏人工智能LeadAI

过拟合解决方法之L2正则化和Dropout

过拟合(overfitting):就是对数据的过度严格的拟合。这个经常出现在分类问题上。

652
来自专栏梦里茶室

TensorFlow 深度学习笔记 Stochastic Optimization

Stochastic Optimization 转载请注明作者:梦里风林 Github工程地址:https://github.com/ahangchen/G...

18210
来自专栏机器学习算法原理与实践

Lasso回归算法: 坐标轴下降法与最小角回归法小结

    前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结。里面对线程回归的正则化也做了一个初步的介绍。提到了线程回归的L2正则化-Ridge回归,...

702
来自专栏机器学习算法全栈工程师

《机器学习》笔记-支持向量机(6)

作者:刘才权 编辑:田 旭 写在最前面 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,...

3537
来自专栏Duncan's Blog

StatisticLearning

1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.

882
来自专栏机器学习算法原理与实践

文本挖掘预处理之TF-IDF

    在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一...

562
来自专栏机器学习算法全栈工程师

机器学习(一)集成学习

1. 关于集成学习的概念   集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类...

3248
来自专栏人工智能头条

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

1624

扫码关注云+社区