前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手推公式之“层归一化”梯度

手推公式之“层归一化”梯度

作者头像
godweiyang
发布2022-06-13 17:18:47
3980
发布2022-06-13 17:18:47
举报
文章被收录于专栏:算法码上来算法码上来

昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

“交叉熵”反向传播推导

前向传播

反向传播

推导过程

均值和标准差的梯度

均值的梯度为:

\begin{aligned} \frac{\partial \mu}{\partial x_i} &= \frac{\partial}{\partial x_i} \left(\frac{1}{m} \cdot \sum_j{x_j}\right) \\\ &= \frac{1}{m} \end{aligned}

标准差的计算公式可以写成\sigma = \left[\mu(x^2) - \mu^2(x)\right]^{\frac{1}{2}} ,所以梯度为:

\begin{aligned} \frac{\partial \sigma}{\partial x_i} &= \frac{\partial}{\partial x_i} \left[\mu(x^2) - \mu^2(x)\right]^{\frac{1}{2}} \\\ &= \frac{1}{2} \cdot \left[\mu(x^2) - \mu^2(x)\right]^{-\frac{1}{2}} \cdot \left(\frac{2}{m} \cdot x_i - \frac{2}{m} \cdot \mu \right) \\\ &= \frac{1}{m} \cdot \sigma^{-1} \cdot (x_i - \mu) \end{aligned}
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法码上来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前向传播
  • 反向传播
    • 推导过程
      • 均值和标准差的梯度
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档