深度学习: BP (反向传播) 计算 & 链式法则

BP

每个epoch: \qquad 每个batch: \qquad\qquad 每个level (n = N, … to 1,即从顶层往底层): \qquad\qquad\qquad 分别计算出该层误差(对该层参数、该层输入数据)的导数: \qquad\qquad\qquad\quad 1. ∂L∂ωn=∂L∂xn+1∂xn+1∂ωn∂L∂ωn=∂L∂xn+1∂xn+1∂ωn\frac{\partial L}{\partial \omega^{n}} = \frac{\partial L}{\partial x^{n+1}} \frac{\partial x^{n+1}}{\partial \omega^{n}} (更新本level的ωnωn\omega^{n}时即用) \qquad\qquad\qquad\quad 2. ∂L∂xn=∂L∂xn+1∂xn+1∂xn∂L∂xn=∂L∂xn+1∂xn+1∂xn\frac{\partial L}{\partial x^{n}} = \frac{\partial L}{\partial x^{n+1}} \frac{\partial x^{n+1}}{\partial x^{n}} (留给底一层的level用) \qquad\qquad\qquad 更新参数: \qquad\qquad\qquad\quad 1. ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn\omega^{n} \leftarrow \omega^{n} - \eta \frac{\partial L}{\partial \omega^{n}} \qquad\qquad\qquad\quad 2. bn←bn−η∂L∂bnbn←bn−η∂L∂bnb^{n} \leftarrow b^{n} - \eta \frac{\partial L}{\partial b^{n}}

Arg:

  • ωω\omega:欧米茄;
  • ηη\eta:艾塔。

Note

  • BP中的 ∂L∂ωn∂L∂ωn\frac{\partial L}{\partial \omega^{n}} 和 ∂L∂xn∂L∂xn\frac{\partial L}{\partial x^{n}} 的计算结果 来源于 对 前馈计算时 的 L=f(wnxn)L=f(wnxn)L = f(w^{n}x^{n}) 的求导

链式法则

∂L∂ωn=∂L∂xn+1∂xn+1∂ωn=(∂L∂xn+1)∂xn+1∂ωn=(∂L∂xn+2∂xn+2∂xn+1)∂xn+1∂ωn=(∂L∂xn+3∂xn+3∂xn+2∂xn+2∂xn+1)∂xn+1∂ωn∂L∂ωn=∂L∂xn+1∂xn+1∂ωn=(∂L∂xn+1)∂xn+1∂ωn=(∂L∂xn+2∂xn+2∂xn+1)∂xn+1∂ωn=(∂L∂xn+3∂xn+3∂xn+2∂xn+2∂xn+1)∂xn+1∂ωn\frac{\partial L}{\partial \omega^{n}} = \frac{\partial L}{\partial x^{n+1}} \frac{\partial x^{n+1}}{\partial \omega^{n}} = (\frac{\partial L}{\partial x^{n+1}}) \frac{\partial x^{n+1}}{\partial \omega^{n}} = (\frac{\partial L}{\partial x^{n+2}} \frac{\partial x^{n+2}}{\partial x^{n+1}}) \frac{\partial x^{n+1}}{\partial \omega^{n}} = (\frac{\partial L}{\partial x^{n+3}} \frac{\partial x^{n+3}}{\partial x^{n+2}} \frac{\partial x^{n+2}}{\partial x^{n+1}}) \frac{\partial x^{n+1}}{\partial \omega^{n}}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

分类算法之朴素贝叶斯分类(Naive Bayesian classification)

如果用一句话来概括贝叶斯分类器,那就是:根据样本集中的先验信息,来推算出某一个样本属于某一类的概率,然后根据推算出来的结果将该样本分为某类 。贝叶斯分类是一类分...

3167
来自专栏智能算法

分类算法之朴素贝叶斯分类(Naive Bayesian classification)

如果用一句话来概括贝叶斯分类器,那就是:根据样本集中的先验信息,来推算出某一个样本属于某一类的概率,然后根据推算出来的结果将该样本分为某类 。贝叶斯分类是一类分...

36412
来自专栏Petrichor的专栏

思考: 改进 现有的 网络参数初始化 方法

网络参数初始化方法 最粗暴的 莫过于 全零初始化 。顾名思义,所有参数全部初始化为0。想法很好,简便省事儿,还可使得初始化全零时参数的期望与网络稳定时参数的期望...

1092
来自专栏marsggbo

论文笔记系列-Neural Network Search :A Survey

论文 笔记 NAS automl survey review reinforcement learning Bayesian Optimization evol...

5093
来自专栏自然语言处理

谈谈学习模型的评估3

信息检索中的评价经常使用:精确率(precision)和召回率(recall)的概念,而且在自然语言处理模型评价中取得良好的效果。

872
来自专栏小小挖掘机

模型调优没效果? 不妨试试Batch Normalization!

今儿调模型大佬又给支了一招,叫Batch Normalization(下面简称BN),虽然还没有深刻理解这玩意是什么,但是是真的挺有效的,哈哈。因此本文只是总结...

4226
来自专栏人工智能头条

美团网内部分享:机器学习中的数据清洗与特征处理实践

2653
来自专栏腾讯大数据的专栏

深度卷积神经网络 CNNs 的多 GPU 并行框架 及其在图像识别的应用

将深度卷积神经网络(Convolutional Neural Networks, 简称CNNs)用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网...

3275
来自专栏机器之心

资源 | 神经网络目标计数概述:通过Faster R-CNN实现当前最佳的目标计数

选自SoftwareMill 机器之心编译 作者:Krzysztof Grajek 参与:黄小天 在机器学习中,精确地计数给定图像或视频帧中的目标实例是很困难...

42013
来自专栏机器之心

学界 | 新研究提出DeepXplore:首个系统性测试现实深度学习系统的白箱框架

选自arXiv 机器之心编译 作者:Kexin Pei等 参与:吴攀、李亚洲 对于自动驾驶系统等事关人身安全的深度学习应用,了解其在极端情况下的表现是非常重要的...

3569

扫码关注云+社区

领取腾讯云代金券