阅读LeCun的paper,A Theoretical Framework for Back-Propagation。
使用Lagrangian 形式来推导backprop。整理具体的推导细节如下。
k为神经网络的层Layer,p为feed进去的pattern,W为权重,B为Lagrange myltiplier.
1式为单个pattern的拉格朗日函数形式。第一项C为代价函数;第二项为约束,描述了network的结构。
当代价函数为输出误差的平方时,得2式。
3式拉格朗日函数表示所有pattern。
当约束条件满足时,约束项为零,就描述了前传forward propagation.在满足约束条件下,minimize代价函数,得到4式。
4式有三个变量W,X,B,分别求偏导,得到5、6、7式。
5式是对拉格朗日乘数求偏导。
6式对每个神经元的输出求偏导。
7式对连接神经元的权重求偏导。
要注意:k和p都是running variables。
k表示神经网络的层,sum k是计算所有层。p是指输入数据pattern,sum p指把所有输入的pattern对应值都加起来。
其实这里还可以加个i,表示k层的第i个神经元。
汇总求偏导结果
现在看还不明显,后面再进行变换会更明显看出Backprop的样貌,下回分解。