前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepLearningAI 学习笔记 1.3 浅层 logistic 神经网络

DeepLearningAI 学习笔记 1.3 浅层 logistic 神经网络

作者头像
ApacheCN_飞龙
发布2019-02-15 10:11:33
3330
发布2019-02-15 10:11:33
举报
文章被收录于专栏:信数据得永生

1.3 浅层 logistic 神经网络

视频:第三周 浅层神经网络 整理:飞龙

普通的 logistic 可看做无隐层的神经网络。下面我们做出一个单隐层的神经网络,它本质上是 logistic 套着 logistic,所以也叫作多层 logistic。

我们的神经网络有三层,输入层,一个隐层,和输出层。输入层的每个节点对应训练集X的每个特征,节点数量就是特征数量。隐层的节点任意,这张图里面是四个。输出层只有一个节点,它就是我们的假设。

每个隐层节点,以及输出层节点中,都要执行上一节的 logistic 运算。

上一节中,我们已经推导了向量化的公式。为了简便起见,我们直接用向量化的公式起步。

我们引入一种的表达方式,用 Z[1]jZ^{[1]}_j 表示隐层第j个节点里面的值。用 Z[2]Z^{[2]} 表示输出层里面的值,因为只有一个节点,就不加下标了。

在每个隐层节点中,我们有:

Z[1]j=Xθ[1]jA[1]j=σ(Z[1]j)

Z^{[1]}_j = X \theta^{[1]}_j \\\\ A^{[1]}_j = \sigma(Z^{[1]}_j)

注: 我这里的 XX 仍然是行为样本,列为特征。如果你的 XX 是我这里的转置,记得把其它的量也加上转置。

然后,我们尝试进一步使其向量化。

Θ[1]=⎡⎣⎢⎢⎢⎢⎢⎢⎢⋯|θ[1]j|⋯⎤⎦⎥⎥⎥⎥⎥⎥⎥

\Theta^{[1]} = \begin{bmatrix} & | & \\\\ \cdots & \theta^{[1]}_j & \cdots \\\\ & | & \end{bmatrix} \\\\

我们把 θ[1]j\theta^{[1]}_j 按列堆叠,得到 Θ[1]\Theta^{[1]}。由于 θ[1]j\theta^{[1]}_j 是矩阵乘法的右边,它乘以 XX 会得到按列堆叠的 Z[1]jZ^{[1]}_j。

Z[1]=XΘ[1]=⎡⎣⎢⎢⎢⎢⎢⎢⎢⋯|Z[1]j|⋯⎤⎦⎥⎥⎥⎥⎥⎥⎥

Z^{[1]} = X\Theta^{[1]} = \begin{bmatrix} & | & \\\\ \cdots & Z^{[1]}_j & \cdots \\\\ & | & \end{bmatrix} \\\\

A[1]A^{[1]} 就是对 Z[1]Z^{[1]} 的每个元素应用 sigmoid 函数,所以是一样的结构。

A[1]=σ(Z[1])=⎡⎣⎢⎢⎢⎢⎢⎢⎢⋯|A[1]j|⋯⎤⎦⎥⎥⎥⎥⎥⎥⎥

A^{[1]} = \sigma(Z^{[1]}) = \begin{bmatrix} & | & \\\\ \cdots & A^{[1]}_j & \cdots \\\\ & | & \end{bmatrix} \\\\

在神经网络中,sigmoid 函数叫做激活函数,A[1]A^{[1]} 叫做激活值。每个节点的激活值提供给下一层,作为下一层的特征。

也就是说:

Z[2]=A[1]θ[2]A[2]=σ(Z[2])

Z^{[2]} = A^{[1]}\theta^{[2]} \\\\ A^{[2]} = \sigma(Z^{[2]})

A[2]A^{[2]} 就是我们的假设,它等于样本属于正向分类的概率。

成本函数 JJ 的计算也类似。

J=−Sum(Y∗log(A[2])+(1−Y)∗log(1−(A[2]))

J = - Sum(Y \ast \log(A^{[2]}) + (1-Y) \ast \log(1-(A^{[2]}))

计算图

由于目前为止的量有点多,我们需要画出它们的关系图。

代码语言:javascript
复制
X-----------Z^[1]----A^[1]-------Z^[2]----A^[2]---J
            |                    |                |
Theta^[1]---+        theta^[2]---+        Y-------+

然后我们统计一下这些量的尺寸信息。

尺寸

XX

n_data x n_features

Θ[1]\Theta^{[1]}

n_features x n_hidden_nodes

Z[1]Z^{[1]} A[1]A^{[1]}

n_data x n_hidden_nodes

θ[2]\theta^{[2]}

n_hidden_nodes x 1

Z[2]Z^{[2]} A[2]A^{[2]}

n_data x 1

这个很重要,以后有用。

反向传播

神经网络中的求导过程又叫做反向传播,只是一个新名词,没什么特别的。

我们这里待定的量变成了两个:Θ[1]\Theta^{[1]} 和 θ[2]\theta^{[2]}。

首先,JJ 和 θ[2]\theta^{[2]} 的关系,类似于 logistic 里面它和 θ\theta 的关系。我们可以直接得出:

dJdθ[2]=A[1]T(A[2]−Y)

\frac{dJ}{d\theta^{[2]}} = A^{[1]T}(A^{[2]} - Y)

下面求 dJdΘ[1]\frac{dJ}{d\Theta^{[1]}}。从 JJ 到 Θ[1]\Theta^{[1]} 路径上的所有导数都需要求出来。首先我们得出:

dJdZ[2]=A[2]−Y

\frac{dJ}{dZ^{[2]}} = A^{[2]} - Y

然后:

dZ[2]dA[1]=θ[2]T

\frac{dZ^{[2]}}{dA^{[1]}} = \theta^{[2]T}

这个导数与 A[1]A^{[1]} 同型,只有我们将 θ[2]\theta^{[2]} 转置过来,再广播成n_data x n_hidden_nodes,它才同型。

dJdA[1]=dJdZ[2]θ[2]T

\frac{dJ}{dA^{[1]}} = \frac{dJ}{dZ^{[2]}}\theta^{[2]T}

我们发现,左边的导数是n_data x n_hidden_nodes的,右边的两个导数分别是n_data x 11 x n_hidden_nodes的,所以用矩阵乘法。

dA[1]dZ[1]=A[1]∗(1−A[1])dJdZ[1]=dJdA[1]∗A[1]∗(1−A[1])

\frac{dA^{[1]}}{dZ^{[1]}} = A^{[1]} \ast (1-A^{[1]}) \\\\ \frac{dJ}{dZ^{[1]}} = \frac{dJ}{dA^{[1]}} \ast A^{[1]} \ast (1-A^{[1]})

我们发现,左边的导数是n_data x n_hidden_nodes的,右边的两个导数也是,所以用逐元素乘法。这个规律在反向传播中十分重要。

最后一步和 logistic 中的情况相似,所以照搬。

dJdΘ[1]=XTdJdZ[1]

\frac{dJ}{d\Theta^{[1]}} = X^T \frac{dJ}{dZ^{[1]}}

最后别忘了对两个导数除以 ndatan_data。

代码

代码语言:javascript
复制
Theta_sup1 = np.random.rand(n_features, n_hidden_nodes) / 100
theta_sup2 = np.random.rand(n_hidden_nodes, 1) / 100

for _ in range(max_iter):
    # 正向传播过程
    Z_sup1 = np.dot(X, Theta_sup1)
    A_sup1 = sigmoid(Z_sup1)
    Z_sup2 = np.dot(A_sup1, theta_sup2)
    A_sup2 = sigmoid(Z_sup2)

    # 反向传播过程
    dJ_dZ_sup2 = (A_sup2 - Y) / n_data
    dJ_dtheta_sup2 = np.dot(A_sup1.T, dJ_dZ_sup2)
    dZ_sup2_dA_sup1 = theta_sup2.T
    dA_sup1_dZ_sup1 = A_sup1 * (1 - A_sup1)
    dJ_dZ_sup1 = np.dot(dJ_dZ_sup2, dZ_sup2_dA_sup1) * dA_sup1_dZ_sup1
    dJ_dTheta_sup1 = np.dot(X.T, dJ_dZ_sup1)

    Theta_sup1 -= alpha * dJ_dTheta_sup1
    theta_sup2 -= alpha * dJ_dtheta_sup2
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年11月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.3 浅层 logistic 神经网络
    • 计算图
      • 反向传播
        • 代码
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档