昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
“交叉熵”反向传播推导
均值的梯度为:
标准差的计算公式可以写成\sigma = \left[\mu(x^2) - \mu^2(x)\right]^{\frac{1}{2}} ,所以梯度为:
本文分享自 算法码上来 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!