跬步神经网络:基本模型解析

作者:严峻

导语:最近开始看NN,很多疑问。微积分什么的早丢了,边看边查,记录备忘。 本篇主要是针对最基本的网络模型,解释反向传播(backpropagation)原理。

整个神经网络可以理解成变量是所有 w、b的损失函数 L,L(w1,b1,w2,b2,w3,b3.......)。

为求L的极小值,使用梯度下降的方法,

对每个变量求偏导,算出 Δw、Δb,

更新 w = w - lr Δw,b = b - lr Δb ,其中lr 是步长(learning rate)。

激活函数、损失函数、网络结构、训练方法、连接方式、填充方式,都有很多选择,每个选择都会影响最终结果,要达到最优需要逐步积累经验。

先从最简单的开始。

需要复习的知识点,导数和偏导数、链式法则、梯度下降 。

导数:二维几何场景下,可以理解为曲线上某点的斜率,在求函数极小值的时候,可以根据斜率确定下一步 X 该增大还是减小。

偏导数:存在多个变量的情况下,x的偏导就是假设其他变量都是常数,然后对x求导。

链式法则:借一张图

梯度下降:求导或偏导得到斜率确定变化值,更新变量得到新的值,重复上面的操作,直到斜率为0或小于设置的某个阈值(比如0.000001)

x = x - lrΔx,y = y - lrΔy,其中lr 是步长

NN网络举个栗子:

神经元:

激活函数、损失函数:

网络结构:

根据上面的网络结构以及定义,可以得到:

为了更新 W24、W25,需要求 E关于W24、W25的偏导:

计算W12偏导比较麻烦一些

根据上面的结果,总结下面的公式:

不同的激活函数和损失函数,求导的方程不一样。 上面的例子使用 logistic函数和最小方差。 下一步打算根据上面的公式,用c++写个小程序动手跑一遍,加深理解,尝试解决简单问题,然后熟悉成熟框架。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Petrichor的专栏

深度学习: translation invariant (平移不变性)

1303
来自专栏新智元

【无监督学习最新研究】简单的「图像旋转」预测,为图像特征学习提供强大监督信号

【新智元导读】在论文中,研究人员训练卷积神经网络来识别被应用到作为输入的图像上的二维旋转。从定性和定量两方面证明,这个看似简单的任务实际上为语义特征学习提供了非...

3306
来自专栏超智能体

YJango:深度学习入门

\vec{y}= a(W\cdot\vec{x} + {b}),其中\vec{x}是输入向量,\vec{y}是输出向量,\vec{b}是偏移向量,W是权重矩阵,...

52417
来自专栏人工智能

什么是反向传播算法

神经网络的快速发展离不开底层数学算法的演进。反向传播算法作为神经网络中学习的主力,最初是在20世纪70年代引入的,但其重要性直到1986年由一篇着名的论文才得到...

18310
来自专栏深度学习与计算机视觉

Object Detection系列(三) Fast R-CNN

Object Detection系列(一) R-CNN Object Detection系列(二) SPP-Net Object Detectio...

3315
来自专栏数据派THU

独家 | 一文为你解析神经网络(附实例、公式)

原文标题:Introduction To Neural Networks 作者:Ben Gorman 翻译:申利彬 校对:和中华 本文长度为4000字,建议阅读...

2035
来自专栏磐创AI技术团队的专栏

深度学习之视频人脸识别系列二:人脸检测与对齐

人脸检测解决的问题为给定一张图片,输出图片中人脸的位置,即使用方框框住人脸,输出方框的左上角坐标和右下角坐标或者左上角坐标和长宽。算法难点包括:人脸大小差异、人...

1172
来自专栏专知

人人都能读懂卷积神经网络:Convolutional Networks for everyone

【导读】近日,Rohan Thomas发布一篇博文,通俗地讲解了卷积神经网络的结构、原理等各种知识。首先介绍了卷积神经网络(CNN)和人工神经网络(ANN)的不...

3539
来自专栏机器学习原理

机器学习(10)——线性SVM

支持向量机 Support vecor machine,SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的...

35210
来自专栏专知

Facebook FAIR实验室田渊栋等人最新论文:别担心深度网络中的虚假局部极小值

【导读】近日,Facebook FAIR实验室、南加州大学与卡耐基梅隆大学提出《Gradient Descent Learns One-hidden-layer...

3255

扫码关注云+社区