本文是吴恩达《机器学习》视频笔记第54篇,对应第5周第4个视频。
“Implementation note:——Unrolling parameters”
01
—
笔记
上几个小节,从理论上讲了怎样实现神经网络代价函数的计算。当然,我们最终还是要通过代码告诉计算机怎样去实现这样一个算法。
本节将快速的介绍代码实现神经网络的一个重要技巧,将参数从矩阵展开成向量,参数的向量展开在后续的最优化步骤中有重要应用。
在用代码进行代价函数的优化的时候,我们会声明下图中“costFunction”这样的函数。
costFunction会有一个输入theta,这里的theta是神经网络的初始参数,而这些参数呢是以n维(或n+1维)向量的形式输入的。而且,costFunction的返回值中的gradient也是一个和参数的维数相同的向量。
但是,从上面的两个小节知道,在我们实际构建的网络模型中,这些参数或者梯度都是和神经网络的层数相关的矩阵:
那我们建立的模型中的这些矩阵形式的参数是怎样作为一维向量形式的输入参数传递给我们定义的做代价函数优化的costFunction的呢?
我们通过一个例子来更好的理解一下这个事。
假设我们有下图所示的这样一个网络,输入层有10个输入,输出层个数为1,而中间层为10.
以第1层到第2层为例,10个输入神经元,而每个输入神经元的另一边都会连接中间层的每一个神经元,也就是说第一层的\Theta_2就是一个10×11的矩阵(额外加一个偏移量)。换句话说,第一层到第二层的线路上的参数就是一个10×11的矩阵。
那么在Octave中如何把这些矩阵形式的参数展开成向量输入给costFunction呢?
可以像下图这样,直接把矩阵中的所有元素取出来,然后用中括号把它们括在一起组成一个长长的向量:
上图中的第二行代码是对D矩阵的。
那,其实costFunction帮我们把参数优化完成之后,也是放在一个长长的向量中,那怎样把这个向量再还原成Theta_1, Theta_2, Theta_3呢?
这个时候,只需要将向量按照索引值切成合适的小段,然后reshape成一个又一个的矩阵就可以了,如下图:
其实本小节讲的事挺简单的,因为矩阵形式的量没法在函数中好好的传输,所以我们在进行算法实现的时候,我们需要:
(1)先把所有矩阵转成一个长长的向量。
(2)然后在costfunction中实现的时候再转成矩阵。
(3)然后使用前向/后向算法计算梯度和J(\Theta),然后再转成一个长长的向量返回。